Malcodificant l’ibèric nord-oriental.

A part de la secció dedicada a l’Alta Edat Mitjana, l’altra secció del web cathalaunia.org que actualment més treball i dades recull, és la de l’Època Ibèrica i Romana, on es troba un recull d’epigrafia ibèrica en ibèric nord-oriental amb 3.200 entrades, i una eina de cerca en línia utilitzant el propi signari ibèric. Un pas previ, inevitable, però per poder fer un tal recull, és codificar numèricament els diferents signes que trobem en aquelles epigrafies, d’aquí el títol d’aquest apunt, que neix per una doble coincidència originada fa uns mesos. Una, la presentació d’una proposta inicial de codificació UNICODE de la llengua ibèrica nord-oriental (la de casa nostra), i dos, la incorporació de les novetats epigràfiques ibèriques de l’any passat. El resultat combinat d’aquests dos factors ha estat re-avaluar el mètode de representació dels signes ibèrics emprat fins ara. El que farem, doncs, serà comentar la problemàtica de la codificació informàtica dels signes ibèrics. Les conclusions,  ja ho avancem, no són bones…

El que això  escriu no és filòleg i el seu coneixement de la llengua ibèrica no passa de ser superficial, de manera que no parlarem dels aspectes més pròpiament lingüístics (ni puc, ni vull), sí però dels codicològics, ja que massa anys de programació crec que sí em permeten opinar amb certa base sobre com codificar un conjunt d’informacions. Potser el més senzill, sigui explicar diacrònicament com aquesta problemàtica s’ha anat presentant reiteradament al llargs d’aquests darrers anys.

2010

El web cathalaunia.org neix el 2010 al voltant de la voluntat de crear el Fons Cathalaunia, un fons documental prosopogràfic de l’alta edat mitjana catalana.  La idea venia de l’any anterior, i bàsicament consistia en crear un wiki on definir una pàgina web per a cada element a presentar. Segons la mena de dada, les pàgines serien semblants entre elles, sense haver de ser, però, idèntiques. Quelcom ben simple, una pàgina per cada dada, sia entrada bibliogràfica, document, identitat personal, lloc o el que fos.

Va ser en aquest context, a inicis de l’any, que vaig assistir a una xerrada sobre llengua ibèrica a càrrec de na Carme J. Huertas, on de forma brillant, plantejava una problemàtica per a mi desconeguda. Es veu que els iberistes, treballaven a base de transliterar els texts ibèrics a la seva representació fonètica suposada,  expressada a base de símbols llatins. Així, una rodona, era ‘gu’, una aspa, ‘da’,  un chupachup (una rodona amb un pal a sota) una ‘r’, etc, etc. Comentava na Carme que creia que aquest mètode d’estudi era perniciós ja que simplificava excessivament el contingut del missatge original, amb l’afegitó no pas menor, que una part no insignificant dels signes encara no estaven lo suficientment ben perfilats.

El signari ibèric presenta una multiplicitat de signes (Untermann llista 178 glifs, na Carme els redueix a 136) que en la transliteració fonètica es veien reduïts encara no a una cinquantena d’ítems, la majoria, sil·làbics (cinc vocals, set consonants i quinze síl·làbics, cada un amb dues modalitats). En l’exposició, doncs, na Carme, apostava per treballar amb els signes originals ja que creia – i raonava amb exemples – que les diferents grafies podien incorporar informació fonològica extra i per tant, tal vegada estiguessin indicant varietats de so no contemplades en la transcripció fonològica en voga. Cal dir, que, en genèric, la idea que la variabilitat sígnica codifica variabilitat fonètica, en el cas de l’ibèric està ben provada. Ho podem constatar si comparem el signes ‘ka’ amb els ‘ke’ on en un bon grapat de casos, són similars si bé girats 90 graus, o potser encara més clarament en el fet que els dos signaris ibèrics (dual i no dual) es diferencien gràficament per incorporar, o no, un traç de més en els glifs, i fins i tot tenim exemples de com aquestes diferències eren socialitzades, com en el cas de l’ibèric dual sud-oriental, que intercanvia els signes i els sons (sonors vs sords) respecte el nord-oriental[1]. El que na Carme deia, era que més enllà d’aquestes variacions conegudes tenim exemples d’epigrafies  en les que es poden trobar variants diferents d’un mateix signe en un mateix escrit, de manera que resultava natural pensar que tals diferències podien respondre a sonoritats o significats diferenciats.

El que havia fet na Carme, i ho presentava en el seu llibre: Codificació informàtica del signari-ibèric nord-oriental, era: per una banda establir el joc complert de signes coneguts en texts de llengua ibèrica nord-oriental (136 en el seu recompte) i en segon lloc, crear una font electrònica per poder-hi treballar. Pas aquest, que ja li requerí codificar (assignar un valor numèric) cada un dels signes. Per ser que na Carme no era informàtica, Déu n’hi do. També proposava na Carme de fer una proposta de codificació UNICODE del signari ibèric per tal d’establir una codificació numèrica universal i facilitar així l’estudi de la llengua a tot el món. Em consta que presentà el seu treball a la Universitat de Barcelona, però el fet, fou que per raons més enllà del meu coneixement, la proposta no arribà a materialitzar-se per falta de suport institucional (el procediment d’estandardització UNICODE requereix un mínim de suport, més enllà d’una voluntat personal).  Una pena, però no ens avancem al relat…

La voluntat, era doncs poder transcriure electrònicament una versió dels texts que reflectís el millor possible la rica grafia ibèrica i no una versió simplificada, com es feia fins llavors – digueu-ne prurit ecdòtic si voleu -.  En poques paraules, poder treballar amb els signes ibèrics des de qualsevol tractament de texts, com una llengua més, com ho podem fer en hebreu o xinès, tant localment, en els nostres documents, com en la web, i així, facilitar el seu ús i estudi arreu del món. Una idea que no puc sinó qualificar d’excel·lent.

Sentint la seva explicació recordo que immediatament vaig imaginar poder disposar en el web catahalaunia.org d’una col·lecció d’epigrafies ibèriques en un format així de fidel, de manera que m’hi vaig posar en contacte i molt amablement em facilità la font electrònica que havia creat. Cal dir que des de ja fa anys, tant aquesta font com el completíssim corpus d’inscripcions que na Carme J Huertas i en David Folch han estat reunint, es pot trobar lliurament en el seu web, ibers.cat; l’única restricció en el seu ús és donar-ne cabal referència (que menys!). Un exemple ben real de la obertura que la Ciència exigeix.

Ara bé, cal entendre que una font ibèrica electrònica et permet utilitzar-la localment, és a dir, crear texts amb ella, però si vols compartir aquests texts, caldrà que el receptor també tingui instal·lada aquesta mateixa font – o una de compatible -, altrament, els glifs que veurà no es correspondran[2]. És aquí que entra en joc la codificació UNICODE, assignant públicament un número únic a cada un dels caràcters de cada llengua existent, de manera que els fabricants de fonts, puguin incorporar-los per identificar cada un dels seus glifs, mecanisme que permet que qualsevol persona pugui crear una font, per exemple, hebrea, amb la confidència que funcionarà amb qualsevol text escrit en hebreu[3]. L’ús de la mateixa codificació UNICODE està prevista en l’especificació del llenguatge de les pàgines web[4], l’HTML, de manera, que navegadors de qualsevol lloc del món puguin visualitzar pàgines en qualsevol llengua amb l’únic requisit de tenir instal·lada una font compatible que li digui com ha de dibuixar cada un dels codis UNICODE.

Així doncs, només amb una font ibèrica, el resultat, era que a part de poder escriure en ibèric en el meu ordenador i poder generar pdfs amb signes ibèrics, poca cosa més podia fer. La manca d’un corpus que especifiqués els símbols originals, així com la manca d’una codificació universal com la d’UNICODE, va deixar el projecte d’un corpus d’inscripcions ibèriques en línia en el calaix dels: Ja veurem.

2013

L’any següent, Tres anys més tard, també a inicis de l’any, va resultar que na Carme i en David ja tenien a disposició del públic una primera versió del corpus, de manera que vaig decidir mirar d’implementar la idea original i crear la versió a cathalaunia.org del corpus d’ibers.cat, amb una pàgina per a cada inscripció. Ara bé, en aquell moment, una font local no es podia utilitzar en línia, era – i és en part encara ara – un risc, de manera que la feina que na Carme havia fet no era directament aplicable a la versió de Cathalaunia, i la manca de codificació UNICODE, feia que no es poguessin tractar les epigrafies com si fossin texts en el web…

Així que el què es va fer primer, va ser readaptar la codificació feta per na Carme a les necessitats de Cathalaunia. Quedava però el repte de com representar les grafies ibèriques en les pàgines del web sense emprar fonts electròniques, però una programació web gràfica cuidada ha permès fer-ho[5]. El resultat, és que el corpus creat per na Carme i en David, ja des de llavors, es pot consultar en línia, i fer-ne tota mena de cerques de manera trivial (o no tant trivial).

cerca-iunstirs

Els 7 ‘IUNSTIR’ (IU*TIR) del corpus.
Cliqueu per imatge a mida real.

Com dèiem, el signari ibèric, actualment es considera que presenta una gran quantitat d’al·lògrafs (signes diferents amb un mateix so). Ho podem visualitzar mirant les agrupacions de signes del propi recull.

signari-nord-oriental-simplificat-2011

Signari ibèric nord-oriental, 136 glifs en 38 grups.

Deu maneres d’escriure ‘de’ o ‘ke’, sis ‘to’, cinc ‘o’

La solució que s’ha donat des del món acadèmic a aquesta problemàtica de la variabilitat sígnica que hem anat exposant, ja des del treball d’Unterman, els Monumenta Linguarum Hispanicarum, ha estat numerar cada una de les variants de cada grup fonètic, de forma que es pugui escriure, per exemple : ‘a1’ per indicar una a amb el signe que sembla una P llatina o ‘a4’ si el signe original sembla una D, o ‘ti1’, si és com un trident amb tres punxes o ‘ti4’ si en té dues.  Des del punt de vista codicològic, aquesta solució és exactament igual de potent que la de na Carme, però incomprensiblement, no he vist mai cap recull d’inscripcions ibèriques que l’empri de forma sistemàtica…? Probablement, els reculls fets amb anterioritat havien registrat el símbols sols de de forma genèrica (‘be’ , ‘ta’, ‘r’), el treball però, fet per na Carme i en David permetria fer la conversió de manera automàtica a partir del seu corpus.

2015

I en aquestes que arriba el 2015, i de nou a inicis d’any, m’assabento que el grup LITTERA de la Universitat de Barcelona ha presentat una proposta de codificació UNICODE de l’ibèric nord-oriental: Preliminary proposal to encode the north-eastern Iberian script for the UNICODE standard , signada per en Joan Ferrer i Jané, Noemí Moncunill i Javier Velaza. De manera que vaig baixar-me immediatament l’especificació per tal de poder-la aprofitar en el web, entusiasmat amb l’esperança de poder, aviat, tractar les epigrafies ibèriques com si fossin texts en una llengua aliena qualsevol. Però en aquell moment, la recerca m’apartà de l’àmbit de l’ibèric i un allau de noves lectures propiciades per les línies d’investigació ha posposat fins aquest mes de juliol l’avaluació cabal d’aquella proposta de codificació.

En primer lloc, cal dir que l’especificació és molt clara i ben estructurada i presenta molt entenedorament l’estat actual del coneixement de l’ibèric. Però he de dir que m’ha sorprès. Lluny de presentar el centenar llarg de signes coneguts, la proposta els simplifica en 54, i per tant, codicològicament és equivalent a la transcripció fonètica!

cod-iberic-dual

Proposta inicial de codificació de l’ibèric dual.

S’explica en la pròpia proposta:

Following the criteria and main objectives of the UNICODE standards, multiple variants of a single sign have not been included (Untermann 1980, 49; 1990, 246; Rodríguez Ramos 2004, 143; de Hoz 2011, 743), but just the signs with different values; such principle has not been followed in an officious proposal of UNICODE encoding recently realised (Huertas 2009). The choice of the most representative variant for each sign has been done according to their concurrency frequency in presumably dual inscriptions.

És a dir, ni els proposants creuen que simplificar les variants cada grup en un màxim de dos glifs sigui problemàtic, ni el consorci UNICODE permet el registre de variants d’un mateix caràcter. Postures que lògicament es reafirmen entre elles. He de dir que em vaig quedar astorat, ja que creia que seria de sentit comú que sols una codificació completa permetria processar com a  texts digitals els continguts ibèrics originals. Havia de mirar-m’ho de més aprop, de manera que vaig mirar de contactar amb el grup i van ser lo prou amables com per parlar-ne obertament (és un luxe sibarític, això de poder conversar amb l’autor!).

Va ser llavors que vaig poder constatar que es considera que tot i que la pròpia proposta reconeix que més enllà dels dos signaris (dual- no dual) hi ha la possibilitat que algun signe presenti una tercera sonoritat, aquests, en el millor del casos s’espera que siguin sols excepcions, i que, en conjunt, la proposta actual ja representa prou efectivament l’escriptura ibèrica nord-oriental. Preguntat per la impossibilitat de reproduir les epigrafies de manera fidel, la resposta és que UNICODE no permet registrar variacions d’un mateix ‘caràcter’.

He de confessar que això ho tenia mal entès. Que UNICODE no volgués registrar les innumerables possibles formes de cada caràcter, tenia tota la lògica (les tipografies poden ser infinites), però que apliqués aquest criteri restrictiu fins l’extrem de sols permetre crear codificacions parcials d’una llengua morta, no m’ho esperava.

De totes maneres, parlar amb experts i gent que estima el que estudia és sempre beneficiós, així, que em van dirigir, per exemple, a codificacions ja fetes de llengües properes com l’italià antic, per tal de comprovar que el nombre de signes registrats és certament mínim, i fins i tot van tenir l’amabilitat d’indicar els documents UNICODE on s’especifica les normes de funcionament en els casos de múltiples variants d’un mateix caràcter. Vagin, doncs,  des d’aquí, els meus agraïments per les seves explicacions i aclariments, en aquest, i en altres àmbits del món de la llengua ibèrica[6].

Coda

El resultat, és doncs, molt pitjor del que esperava, ja que lo més greu és que la codificació UNICODE, que neix amb voluntat d’universalitat, en el cas de les llengües mortes no permet ni reproduir el corpus d’on se’n deriven els propis conjunts de ‘caràcters’ a registrar (cal entendre que la noció ‘caràcter’ depèn de la pròpia llengua, pensis sinó en escriptures ideogràfiques[7]). L’explicació d’UNICODE per a tal restricció és del tot insatisfactòria, ja que es limita a dues raons: simplicitat i facilitat de cerca. La primera és tautològica (és un fet que una codificació de quatre símbols és més simple que una de cinc), i la segona, la facilitat de cerca és tecnològicament trivial (bé que es registren, per exemple, les vocals accentuades, per més que la cerca fora més simple si sols existissin les versions no accentuades, el que es fa, és registrar totes les variants existents i fer que el motors de cerca facin abstracció de si tenen o no accents, ja que ningú acceptaria no poder escriure accents). Per això crec que el motiu real per una tant restrictiva política de codificació de variants rau en realitat, més, en l’escàs espai numèric contemplat per UNICODE (poc més d’un milió de caràcters diferents, amb més de cent mil ja assignats avui en dia) que no pas en la simplicitat de la cerca informatitzada. I em sembla evident, que un tal criteri restrictiu sols s’aplica a les llengües mortes, d’abast molt i molt limitat, ja que fer-ho en llengües vives comportaria, en la pràctica, l’abandó de l’ús de tal codificació per part dels usuaris.

Tothom té raó, però la criatura continua plorant. Tenia raó na Carme en proposar una codificació informàtica estandarditzada del global sígnic ibèric. Tenen raó els del grup LITTERA en fer sols una codificació parcial, i, a la seva manera, té raó també UNICODE en no voler registrar variants (han de gestionar un espai limitat, entre 0 i 1114111), però el fet és que no hi ha, – ni haurà en un futur proper – , manera de reproduir de forma estàndard, fàcil i fidel, les grafies ibèriques. D’aquí el ‘malcodificant‘ del títol.

L’origen del fet que UNICODE sols disposi de poc més d’un milió de números a assignar, es deu a què la proposta original, la ISO-10646, que definia un espai numèric de 31 bits (uns dos mil milions de caràcters) es veié desplaçada per la més pràctica – i limitada, inicialment amb sols 16 bits,  – proposta d’UNICODE en els anys noranta. El preu el paguem ara, ja que de ben segur, que un cop el milió llarg de possibles caràcters de l’UNICODE actual hagin estat assignats, la necessitat de continuar creixent forçarà a la readopció de codificacions semblants a la proposta de codificació inicial, la UCS4 que aprofitava els 31 bits originals.

Mentre això no passi, però, caldrà emprar mètodes complicats per representar fidelment les epigrafies ibèriques. La tasca de na Carme, però no ha estat en va, ja que no sols ha esperonat una primera codificació UNICODE – d’abast estructuralment limitat, però que segur serà d’utilitat – sinó que em consta que els experts són ben conscients de la necessitat de codificar de manera estable les variants (sembla mentida que encara no s’hagi fet). El corpus de na Carme i en David, que és el noranta i molts per cent del què es presenta a cathalaunia.org, és, fins on jo sé, el primer corpus ibèric que incorpora la informació de quina variant s’utilitza en cada signe de cada epigrafia, una informació única i per tant, preciosa. Informació, però, que no podrà ser textualment expressada per no existir en la codificació UNICODE de l’ibèric nord-oriental.

Un desastre.

 


Notes

  • [1] Veure: Ferrer i Jané, Joan : 2010 : “El sistema dual de l’escriptura ibèrica sud-oriental” : Veleia – revista de prehistoria, historia antigua, arqueología y filología clásicas : 27 p.69-113.
  • [2] El format PDF però, usualment, incorpora també el font original en el document (per ser exactes, sols les parts rellevants del font), de manera que sí es portable entre màquines i sistemes.
  • [3] UNICODE no és l’única iniciativa de codificació textual universal, veure per exemple, la Script Encoding Inititiave (ISO/IEC 10646) de la universitat de Berkeley.
  • [4] Per exemple, utilitzant referències numèriques.
  • [5] Evitant fins i tot l’ús de programació en el client via Javascript o similars (un detall dels de la vella escola).
  • [6] Per exemple, dos beneficis directes de la seva proposta a implementar en un futur proper a cathalaunia.org: els símbols quantificadors i un refinament en la definició dels grups de les nasals.
  • [7] En aquest sentit, constato que la proposta defineix els caràcters de l’ibèric nord-oriental únicament a partir de criteris fonològics, em pregunto fins a quin punt és aquest un criteri prou adequat. Estic pensant que potser hi haguessin llavors altres aspectes a considerar; escriptures posteriors incorporaran coses com minúscules i/o accents. Sabem lo suficient per entendre per què s’utilitzava un signe en concret i no un altre? Però he dit que no estic en situació de fer comentaris filològics, de manera que millor ho deixo aquí.
Aquesta entrada s'ha publicat en Carme J Huertas, cathalaunia.org, codificació textual, David Folch, font iberian, grup LITTERA, ibèric nord-oriental, iber, Iberika, ibers.cat, ISO-10646, Iunstir, Javier Velaza, Jürgen Untermann, Joan Ferer i Jané, Monumenta Linguarum Hispanicarum, Nomeí Moncunill, UCS4, Unicode, Universitat de Barcelona i etiquetada amb , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s