2021-maig a cathalaunia.org

S’acaba un maig experimental a cathalaunia.org. Un mes esgotador que se’n va amb la feina encara a mig fer. El focus ha estat de nou l’epigrafia ibèrica, i en particular, la seva segmentació. Un mes de fer i no llegir, un mes molt interessant i més de plantar que no pas de recollir.

Aquest bloc ha tingut una entrada nova per explicar la darrera eina publicada per consultar l’evolució del signari ibèric: els cronosignaris. I també s’ha preparat un apunt proper on comentar les proves que s’estan fent en el camp del lèxic ibèric. S’espera poder-lo treure en qüestió de dies…

La Secció Ibèrica i Romana ha tornat a ser la que ha monopolitzat l’atenció. En aquest cas, per mirar de generar un mètode de segmentació automàtica, i posar les bases per la inclusió de suport lèxic en el Corpus Ibèrika. No pas poca cosa…

Encara està al forn, i n’hi ha per un temps (hi ha moltes possibilitats i algunes volen molta feina), però mentre, va un exemple per veure la mena de canvis que s’han hagut d’incorporar si volem mirar de tractar l’aspecte textual de les epigrafies.

En la codificació dels texts, usualment es fa servir un caràcter per indicar un canvi de línia[1], i en el Corpus es fa el mateix. Ara, bé, el problema està en que en la gran majoria d’entrades, el canvi de línia implica una diferent unitat textual (frase, marca, segment), però no en totes. Molts dels ploms i algunes inscripcions tenen text que clarament continua d’una línia a la següent. Si volem tractar el text coherentment, en aquests casos cal ignorar aquests canvis de línia i concatenar els segments de text. I per això, s’ha hagut de definir un nou tipus de canvi de línia, amb un codi propi, i modificar el programa per donar-li el suport necessari (a grosso modo: a nivell de representació s’ha de comportar efectivament com un canvi de línia ‘normal’, però en les parts del programa que analitzen o segmenten els texts s’ha d’obviar la seva presència). Un cop definit s’han repassat manualment  les poc menys de 50 entrades amb inscripcions de més d’una línia i amb alguna interpunció (en la idea que serien on més probablement tindríem casos de continuïtat entre línies) i s’han incorporat els nous codis de ‘canvi de línia, però no de text’. És probable que hi hagi més casos de continuïtat interlineal però s’hauran d’anar incorporant a mida que es vagin trobant (i en mols casos resulta una distinció certament dubtosa…).

La Bibliografia no ha quedat orfe de novetats però l’hi ha anat de poc. La feina de laboratori (en aquest cas informàtic) pot resultar absorbent fins gairebé l’addicció…

Com és habitual, llistem les minses novetats del mes per seccions[2].

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta un total de 32.164 pàgines consultables.

 

Notes

  • [1] La codificació ASCII va ser la que primer va haver d’enumerar aquests primers ‘caràcters’ bàsics. I ho feu amb els referents del moment: les màquines d’escriure i la seva primera versió ‘informatitzada’, els teleptips. D’aquí que els codis reflecteixen la mecànica de les màquines d’escriure. El 10, indicà avançar un pas la roda del paper, d’aquí que se l’anomenés ‘linefeed‘ o LF. El 13, indicà tornar el carro a l’inici o ‘carriage return‘ àlies CR. En la màquina d’escriure l’avanç de la palanca feia les dues funcions seguides, pujava el paper i duia el carro a l’inici de línia o sigui ‘LF+CR’. Però hom es pot preguntar: i què carai té a veure una màquina d’escriure amb un codi per indicar final de línia en un text? I la resposta és i era. Res!
    Les primeres codificacions (bàsicament el món d’Unix) feren servir el 10. Però vet aquí que les diferents empreses d’informàtica, dedicades a promoure la incompatibilitat per tal d’intentar monopolitzar el mercat, optaren cada  una (de les grans) per fer servir codis diferents. Apple, trià el CR (13), i Microsoft (que nasqué duplicant el CP/M) n’emprà els dos LF+CR (10,13). El resultat foren milers d’hores perdudes detectant i convertint entre formats que mai haurien d’haver estat diferents. Un brillant exemple de ‘racionalitat’ comercial!
  • [2] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Advertisement
Aquesta entrada s'ha publicat en Bibliografia, cathalaunia.org, Corpus Ibèrika, cronosignaris, epigrafia ibèrica, Lèxic, segmentació textual i etiquetada amb , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out /  Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out /  Canvia )

S'està connectant a %s

Aquest lloc utilitza Akismet per reduir els comentaris brossa. Apreneu com es processen les dades dels comentaris.