Una mirada a l’ibèric nord-oriental.

Tot just fa uns pocs dies que s’ha estrenat una nova secció a cathalaunia.org: Epigrafia Ibèrica, que ve a omplir un molt important buit en la presentació de la documentació existent relativa a la història de la Catalunya d’abans del segle XII, ja que com vàrem dir en la presentació de la secció, permet consultar en línia més de 3.000 entrades epigràfiques dels primers testimonis escrits a casa nostra; molts, amb més de 2.000 anys d’antiguitat.

Però l’ànim d’aquest apunt no és parlar del recull epigràfic sinó de la llengua ibèrica, en concret, de la seva escriptura. Tema que desconec en absolut i del què per tant m’hauria d’abstenir de fer-ne cap mena de comentari, però em resulta tant curiós el que vull exposar, que tal vegada se’m pugui perdonar l’atreviment. Vagi doncs per endavant les meves excuses si el que es presenta aquí és erroni, trivial o tal vegada no passa de ser una simple curiositat. Més que mai, les correccions seran ben vingudes!

Entenc que el tema del desxiframent del ibèric ha estat i és encara un tema per resoldre. Diuen el experts que en el cas de la seva variant nord-oriental és una llengua no indoeuropea[1] i que el seu signari no és alfabètic sinó semi-sil·làbic, és a dir, que hi han signes que corresponen a sons simples com vocals o consonants soles, mentre que altres semblen correspondre a síl·labes.

signari-nord-oriental-simplificat-th

Taula del signari ibèric nord-oriental simplificat.Cliqueu per màxima resolució.

Si mireu la taula precedent, en la columna de l’esquerra tenim els signes alfabètics, amb representacions de cinc vocals, una lateral L, dues nasals N,M, dues ròtiques R,R’ i dues sibilants S,S’, i a la dreta, els signes sil·làbics que aparentment poden correspondre a les combinacions de les cinc vocals amb B/P, D/T i G/K. També es pot veure a la part de baix de la columna de l’esquerra tota una sèrie de símbols per els que encara no es té una presumpció prou clara.

Havent fet programació fa anys sobre anàlisi estadístic de texts, i ben recentment, havent estat jugant amb el programari Gephi per visualitzar les dades del Fons Cathalaunia, em vaig sentir temptat de provar alguna de les idees que el repte d’una llengua no desxifrada inevitablement provoca.

En primer lloc, vaig pensar que es podria analitzar la distribució dels signes, el seu comportament quantitatiu, atenent al costat de quins altres signes apareixen; en primera instància, utilitzant el signari complert.

signari-nord-oriental-th

Signari ibèric nod-oriental: 136 signes.
Cliqueu per màxima resolució.

La idea és ben simple: analitzem quines lletres apareixen al costat de quines. Imagineu, si voleu, una finestra de tres caràcters que es desplaça per damunt de les epigrafies del corpus, situant la posició central al damunt de cada un dels signes, i que aneu apuntant a mà, quins caràcters veieu en cada una de les tres posicions de la finestra – per exemple, si trobem A,B,C, incrementarem el comptador de les A a l’esquerra, el de les B al centre, el de les C a la dreta, també el comptador de A abans de B, i finalment el de les C després de B -.  Així que fem un petit programa que repassi el corpus i vagi apuntant quins signes – i quants – apareixen al costat de quins altres.

Amb les dades recollides disposem – conceptualment -un graf en tres grups de nodes corresponents a les tres posicions de la finestra, cada un d’ells amb un node per cada un dels signes del signari i com que també hem apuntat quantes vegades un signe apareix abans o després dels centrals, establim uns lligams entre els nodes centrals i els dels laterals que reflecteixin aquestes quantitats. A partir d’aquí, com que uns lligams ens apareixeran més cops que no pas altres, només tenim que utilitzar un algoritme de distribució de forces com els que hem estat utilitzant recentment i veure com s’agrupen els nodes, especialment, els ‘centrals’.

Dit i fet, creem un graf amb les dades del corpus, utilitzant el signari complert, és a dir, amb 136 nodes en cada grup, i per fer-ho intel·ligible gràficament, assignem colors: els nodes a considerar o centrals seran blancs, el d’abans o a l’esquerra, vermellosos, i els de desprès o ala dreta, blavosos. La primera sorpresa: el graf resultant està tant interconnectat, que l’algoritme que més hem estat utilitzant fins ara, el Force Atlas 2, no ens dóna uns resultats gaire adients:

post-2013-III-03-liber-fa2-tn

Algoritme ForceAtlas2
Cliqueu per SVG associat.

Una consideració sistèmica: la mida dels nodes en tots els grafs que farem indicarà el nombre de cops que apareix el signe que li correspon, tot i que no passa de ser merament indicativa, ja que si es respectés la proporció real, els nodes petits serien literalment il·legibles. De fet, aquest graf sí que ens  serveix per d’un sol cop d’ull apreciar els signes més freqüents, tot fixant-nos en els cercles blanc: les vocals A,E,I, i les consonants S,N,R; i veure una primera anomalia; la mida de la síl.laba Ba/Pa[2], que destaca perquè acostuma a aparèixer en el corpus en repeticions consecutives, de forma que en aquests casos és de dubtosa semiòtica. Però més enllà d’aquestes consideracions generals, el nivell d’estructuració que presenta – que és el que ens interessa – és molt baix, ja que tan sols veiem una acumulació central rodejada d’una dispersió de signes.

Un altre dels algoritmes de distribució de nodes del programari Gephi, és el Layered Layout, que com el seu nom indica, disposa els nodes en capes (cercles). Com que cada node indica de quin grup és, l’aplicació és directe:

post-2013-III-03-liber-ly-tn

LayeredLayout
Cliqueu per SVG associat.

On veiem el cercle vermell dels caràcters a l’esquerra en la part interior, el blavós dels caràcters a la dreta a l’exterior i els caràcters centrals al mig. El gruix dels lligams, mira de reflectir el nombre de cops que es donen cada un d’ells, si bé de nou de forma matussera, ja que si miréssim de mantenir la proporció real la majoria de línies serien de fet invisibles. Amb tot, destaca a primera vista la línia blava que uneix el símbol Ba central amb el seu homònim blau, fet que evidencia el que dèiem sobre les agrupacions de símbols Ba. Però el graf continua sent de lectura confusa ja que la gran interconnexió no permet evidenciar una estructuració clara.

Provem encara amb un altre dels algoritmes disponibles, el Yifan-Hu, que a semblança del ForceAtlas2 també implementa un funcionament basat en un criteri estrictament de modelació ‘física’, exclusivament per normes d’atracció/repulsió:

post-2013-III-03-liber-yi-tn

Yifan-Hu
Cliqueu per SVG associat.

També produeix una disposició molt semblant a la del ForceAtlas2. Sembla que haurem de fugir dels procediments que d’entrada semblaven més bon candidats, i recórrer a un altre tipus d’algoritme: l’OpenOrd, que és un algoritme de distribució de forces híbrid, pensat per grans quantitats de nodes i connexions. A diferència dels algoritmes que busquen essencialment un equilibri de forces, aquest ho fa només parcialment, i aprofitant sols els factors de més pes i no tots, secciona el conjunt en subgrups segons distància i nombre de connexions, fet que li permet treballar paral·lelament diverses parts del graf; ho podríem simplificar dient que exagera – respecte als algoritmes de simulació física – les agrupacions locals[3]. Varis paràmetres afecten al seu comportament, nosaltres tant sols en manipularem dos, el nombre d’iteracions, que segons el cas fixarem en 750 (el valor per defecte) i 1750 si el valor de defecte no és convenient, i l’Edge Cut, o factor de tall, que controla la tendència a crear subgrups, i que entre 0. i 1. per defecte es situa a 0.8; nosaltres provarem a 0.8, 0.9, 1. i ocasionalment 0.95.

Comencem amb els valors per defecte[4]:

post-2013-III-03-liber-oo-80-750-tn

OpenOrd 0.8, 750 iteracions
Cliqueu per SVG associat.

Aquí sí que ja comencem a apreciar estructura.Tenim tres grups clarament diferenciats: en la part superior, un petit amàs dispers amb el signe Ba, i una mica més abaix i a la seva esquerra, un grup en el que la majoria de signes són vocàlics o sil·làbics i en el que les vocals A, E, I destaquen per mida; i en la part inferior, tenim un grup clarament consonàntic, on les N, S ,L i R‘s són el nodes més freqüents. De manera que aquesta disposició evidencia la separació entre els elements consonàntics i els vocàlics i que ressalta gràficament la consideració actual del signari de l’ibèric nord-oriental com  un sistema eminentment semi-sil·làbic.

Si mirem d’anar més enllà, a base d’incrementar el nombre d’iteracions fins a 1750, tenim:

post-2013-III-03-liber-oo-80-1750-tn

OpenOrd 0.8 1750 iteracions.
Cliqueu per SVG associat.

On tenim pràcticament la mateix distribució, tret que el grups consonàntic s’ha vist escindit per un petit subgrup format per una de les grafies de N, S i R.

Provem a incrementar el factor de tall a .9:

post-2013-III-03-liber-oo-90-1750-tn

OpenOrd 0.9 1750 iteracions.
Cliqueu per SVG associat.

Aquí els grups ja són sis. A l’esquerra, veiem que el grup vocàlic s’ha vist dividit entre una part centrada al voltant de la I, i un altre al voltant de la A i la E. Anant cap a la dreta, en la part central tenim un amàs al voltant del signe Ba i encara més a la dreta, tenim el principal grup consonàntic al voltant de les N, S, L i R, amb dues petites derivacions encara més a la dreta, una al voltant d’una L i una S i l’altre amb dues R i una S.

Si provem d’elevar encara més el factor de tall, a 0.95, amb 750 iteracions tenim:

post-2013-III-03-liber-oo-95-750-tn

OpenOrd 0.95 i 750 iteracions.
Cliqueu per SVG associat.

Que és molt similar a l’anterior i on els grups majors són força semblants – dos vocàlics, A, E i I, un de Ba i un de consonàntic; tant sols es diferencia en els grups menors, on el subgrup R,S encara es detecta i apareix un petit subgrup R, Da/Ta en posició central.

I finalment, mirem de portar el factor de tall al seu màxim: 1.

post-2013-III-03-liber-oo-100-1750

OpenOrd 1.0 i 1750 iteracions.
Cliqueu per SVG associat.

Que ens dóna una segmentació per set grups: dos de petits, un al voltant d’una A i una Da/Ta, i l’altre amb una E i un Go/Ko, un grup majorment consonàntic amb N, R, S, però també amb A i U, un més petit al voltant de N, R, S, dos de majoria vocal centrats en I, un d’ells també amb el signe Ba, i un grup vocàlic al voltnat d’una E i una O.

No sabria dir si aquestes primeres segmentacions són gaire rellevants o no, però sí trobo interessant dos aspectes: en primer terme, el fet que evidenciïn clarament l’estructuració semi-sil·làbica, i en segon, que al col·locar els signes encara dubtosos en agrupacions específiques pot ser un indicatiu de la seva natura.

Fins aquí, hem estat analitzant el corpus de les 3.071 inscripcions ibèriques – que presenta un total de 29.443 signes, o 26.034 si excloem espais i canvis de línia – en el seu signari complert. Que passa però si fem el mateix que hem fet però utilitzant sols el signari simplificat – és a dir, en un corpus on cada símbol associat hagi estat substituït per el seu símbol base corresponent – ? Veiem-ho:

Tal i com passava amb el signari complert, l’alt grau d’interconnexió fa que l’algoritme ForceAtlas2 no ens sigui de massa ajut:

post-2013-III-03-libersimp-fa2-tn

ForceAtlas2 en signari simplificat.
Cliqueu per SVG associat.

El graf es força més reduït, però la manca d’estructura no ha variat substancialment. Provem amb l’algoritme Yifan-Hu:

post-2013-III-03-libersimp-yf-tn

Yifang-Hu amb signari simplificat.
Cliqueu per SVG associat.

Un amàs central i cap sub-estructuració. Si provem també amb el de capes:

post-2013-III-03-libersimp-ly-tn

LayeredLayout amb signari simplificat.
Cliqueu per SVG associat.

Tenim una disposició més clara, però tampoc res d’especialment evident. Anem doncs a l’OpenOrd, a veure si les agrupacions del signari simplificat segueixen les del signari complert.

post-2013-III-03-libersimp-oo-80-750-tn

OpenOrd 0.8 i 750 iteracions signari simplificat.
Cliqueu per SVG associat.

Doncs sí, tenim dos grups, clarament diferenciats, el consonàntic en la part superior, i el vocàlic en la inferior. Si provem a incrementar el nombre d’iteracions a 1750, tindrem:

post-2013-III-03-libersimp-oo-80-1750-tn

OpenOrd 0.8 i 1750 iteracions signari simplificat.
Cliqueu per SVG associat.

Una repetició gairebé perfecte del de 750 iteracions. Mirem d’incrementar el factor de tall a 0.9.

post-2013-III-03-libersimp-oo-90-1750-tn

OpenOrd 0.9 i 1750 iteracions signari simplificat.
Cliqueu per SVG associat.

Aquí tenim sis grups clarament separats: un format per els signes de ‘puntuació’, a la dreta abaix, un de consonàntic a dalt, al voltant de N, R, S, L, un al voltant del Ba i la U baixant a l’esquerra, i el més curiós, és que els altres tres grups corresponen gaire bé cada un a una vocal, el de l’esquerra a la A i la O, el central al voltant de la I i el darrer amb la E com a centre. Si mirem d’incrementar al màxim el factor de tall, tenim:

post-2013-III-03-libersimp-oo-100-1750-tn

OpenOrd 1.0 i 1750 iteracions signari simplificat.
Cliqueu per SVG associat.

On trobem vuit grups, del quals la majoria són els mateixos del graf previ, amb la diferència que el grup consonàntic s’ha vist desglossat en tres subgrups: un en N,S, un en L, S i un centrat en les Rs.

Recapitulem i concretem el que hem trobat fins ara.

Hem aplicat un criteri purament numèric, absent de qualsevol noció lingüística basat en l’estadística de quins signes apareixen al costat de quins altres signes i hem pogut constatar com és possible discernir agrupacions sígniques. Donat que l’algoritme que hem hagut d’emprar, l’OpenOrd, no aplica una simulació purament física, exclusivament de joc de forces d’atracció/repulsió sinó que aplica un criteri híbrid, els grups detectats no han de respondre estrictament a criteris de distribució del nombres d’ocurrències. Cal verificar si l’increment de sub-grups que l’algoritme ens proporciona variant el seu factor de tall és coherent. En altres paraules, comprovar fins a quin punt els grups menors es poden definir com particions dels grups majors, i en el cas que no sigui així, observar quins signes apareixen en grups dissimilars, ja que es podria interpretar com signes amb una evidència poc conclusiva en el mètode de mostreig que estem emprant. El que farem, serà comparar els tres resultats amb factors de tall de .8, .9 i 1. en 1750 iteracions, que és la configuració que hem emprat més en aquestes proves.

Si comencen per els resultats amb el signari simplificat, podem visualitzar els grups resultants a base d’ordenar els signes centrals de cada un d’ells per el seu codi numèric, acolorir els grups segons el grup superior – començant per diferenciar sols entre grups ‘vocàlics’, en blau, i ‘consonàntics’ en negre – i ressaltar els caràcters que ballen entre grups en vermell; gràficament:

sig-grups-simp-1750-th

Agrupacions del signari simplificat.
Cliqueu per màxima resolució.

Com es pot veure, l’únic caràcter en vermell, i que per tant presenta una classificació entre grups vocàlics o consonàntics poc estable, és precisament uns dels signes actualment poc segur, U+241 – excloem però del recompte els signes de ‘puntuació’ (amb 1, 2,3 o 5 punts en vertical) -. Però és que dins del grup ‘vocàlic’ i derivats (en blau) així com dins del consonàntic i els seus (en negre) – que recordem que en cap cas han estat creats a partir de criteris filològics, ja que per el que fa al mètode emprat, podríem estar perfectament parlant per exemple de cadenes d’aminoàcids o de estratificacions geològiques – s’observen uns pocs signes que es desvien de la classificació usual. En el consonàntic, tenim que s’hi situa el símbol poc conegut U+239, i tres símbols usualment considerats com sil·làbics: De/Te, Gi/Ki i Go/Ko. I en el vocàlic, la resta de símbols mal identificats: U+43, U+55, U+59, U+92, U+100, U+242 i U+243.

Fins aquí, tenim unes agrupacions sígniques que si bé no sabria dir quina lectura tenen cada una d’elles per a un filòleg, si semblen força clares. Si ara apliquem el mateix procediment de resum al signari complert, ens trobarem amb el mateix resultat?

sig-grups-1750-th

Agrupacions del signari complert.
Cliqueu per màxima resolució.

Clarament no. El mostreig del signari complert, mostra un grau de variació més gran, especialment en el cas d’extremar el factor de tall al seu màxim valor. Ja en el cas d’un factor de tall de 0.9, tenim que un total de 6 signes canvien: dues grafies de De/Te, una de Di/Ti, una de Ga/Ka, una de Ge/Ke i una sola consonàntica, una grafia de R. Però és al dur la probabilitat de tall al màxim que els resultats s’aparten clarament de la resta de resultats, ja que ens apareixen ‘mal situades’ fins a 8 signes més, especialment, quatre vocals, dues grafies d’A i dues d’U, tres semi-sil·làbics, una de Go/Ko, una de Do/To i una de Du/Tu, finalment un dels caràcters mal coneguts, el U+58. No és que sigui un percentatge extraordinàriament alt, atès que 14 caràcters de 136, és poc més d’un 10% del total, però sí evidencia que l’estudi a partir del signari complert resulta força més complex.

Una possible causa d’aquesta major variació en el cas del signari complert, tal vegada tingui a veure amb l’estretor del corpus, tota vegada que atès que sols hi figuren un total d’uns 26.000 signes, la probabilitat de repetició en el cas estudiat aquí, de segmentació per grups de tres caràcters varia molt. Si pensem en un signari simplificat de 38 caràcters, tenim uns 54.000 conjunts possibles de tres caràcters, mentre que amb el signari  de 136, aquesta xifra s’eleva a més de 2.500.000, i per tant la possibilitat de repetició és molt inferior, i conseqüentment, la base evidencial per a cada combinació es redueix dràsticament, probablement permeten que un algoritme no estrictament de simulació física com és l’OpenOrd, sigui més sensible a que les condicions aleatòries inicials afectin als resultats finals. Per tal de verificar-ho, caldria fer jocs de proves sistemàtics, que impliquen força més feina de la que ja s’esmerçat en fer aquest apunt i que si més no de moment, sembla un esforç excessiu.

Fins aquí aquest cop d’ull primerenc a l’ibèric nord-oriental. Moltes possibilitats es plantegen; per exemple: que passaria si apliquem aquesta cadena de processament a una altra llengua, per exemple el català? O: i si en comptes de considerar per cada signe quins signes apareixen abans o després separadament com hem fet aquí, els consideréssim conjuntament? Possiblement ens aportaria una casuística força més precisa…

Preguntes en les que la gran novetat està en que ara, gràcies al treball de la Carme J. Huertas i del David Folch Flórez és possible plantejar-se una estratègia per mirar de respondre-les, i és que el que han fet, no és altra cosa que obrir finalment l’estudi de l’ibèric nord-oriental a la lingüística computacional. No puc sinó ser optimista per el que fa al futur del desxiframent de la nostra antiga llengua!

Notes

Aquesta entrada s'ha publicat en estadística, ibèric nord-oriental, iber i etiquetada amb , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s