Els problemes del desxiframent de l’ibèric nord-oriental.

Aquest apunt és quasi un spoiler. Els amics de l’Institut d’Estudis Ibers han tingut el detall de convidar-me a fer una xerrada en el seu seu cicle anual de conferències, i tot i que personalment hagués preferit que hi participés algú amb més coneixements sobre epigrafia ibèrica que no pas qui això escriu, es veu que no ha estat possible. De manera que aquest apunt no és res més que una versió textual del que ha de ser exposat, publicat just després de la xerrada, d’aquí el quasi inicial.

El contingut, sota el títol “Els caràcters de l’ibèric“, no és més que un resum de l’activitat feta l’any passat a cathalaunia.org sobre el corpus epigràfic ibèric, activitat que  ja va estar comentada de forma detallada en aquest bloc.  De forma abreujada comentarem els problemes que es van detectar en l’actual esquema de desxiframent de l’ibèric i un exemple de les metodologies que potser poden ajudar a superar l’atzucac actual, ja que és ben sabut que tot i les molt estudiades semblances amb l’eusquera, la traducció del texts ibèrics roman més enllà del previsible.

La base de l’esquema actual del desxiframent de l’ibèric nord-oriental fou establert ara fa un segle, majoritàriament a partir dels treballs d’en Gómez-Moreno. Estructurat en 28 categories: cinc vocals, vuit consonants contínues i quinze més en tres blocs de signes sil·làbics. Un segle més de treballs dels experts han refinat aquest esquema sense però alterar-ne seriament l’estructura, l’estat actual el podem trobar resumit en la proposta de codificació per Unicode feta per els experts de la UB l’any 2015[1]. Les vocals s’han desdoblat, les consonants contínues i els sil·làbics s’han perfilat millor i s’han afegit signes metrològics. Ara, cal remarcar que tots aquests estudis s’han fet majoritàriament a partir de transliterar els texts al seu suposat so, no s’han fet considerant l’especificitat dels signes emprats en cada un dels testimonis. De fet, no existeix un corpus ‘oficial’ que presenti la informació de quins signes específics es fan servir en cada una de les epigrafies (l’edició en línia més propera a la oficialitat acadèmica és la de la base de dades Hesperia, i no conté aquesta informació). Suposo que per tot el que explicarem tot seguit, hores d’ara, s’estigui recollint aquestes dades per presentar-les quan abans millor.

El primer corpus que incorporà tal informació fou el de ibers.cat, fet per na Carme J. Huertas i en David Folch , que  crec que es presentà aquí l’any 2013. La Carme havia dissenyat uns anys abans el seu signari informatitzat i ja havia alertat que ignorar la riquesa sígnica dels testimonis transliterant-los, podia ser la causa de les dificultats en la comprensió dels text[2]. És a partir d’aquest corpus que es creà el de cathalaunia.org fent servir els mateixos continguts i signes dissenyats[3] per na Carme però individualitzant les epigrafies i fent-les accessibles des de Internet. Durant els anys següents, cada vegada que ibers.cat actualitzava el corpus, s’incorporaven les noves entrades al de cathalaunia.org. Fou el 2015 que la UB, reprenent la idea inicial de na Carme d’incloure la codificació de l’ibèric en l’estàndard Unicode (i que per tant qualsevol pogués emprar una tipografia informatitzada ‘ibèrica’ de forma estandarditzada) presentà la seva proposta formal. Ni què dir té que va ser rebuda amb la màxima expectació.

D’entrada, la primera sorpresa, dels 135 signes de la Carme, la UB passava a només una cinquantena…! Conscient que intentar reproduir el corpus amb només 50 signes provocaria una pèrdua d’informació irreparable, vaig contactar amb els experts que havien confeccionat la proposta. De les converses, sempre instructives, en sortiren dues constatacions: 1) el nombre de signes original era mot superior als 135, és a dir, la variabilitat era encara més gran que la contemplada fins el moment, i 2) tot i aquesta variabilitat, el conjunt de ‘caràcters’ (bàsicament sons i marques metrològiques) de la llengua eren aquests 50 o escaig; dit altrament, tot i haver-hi molts més signes no havien existit mai conjuntament més de 50 signes un moment i lloc donat. Les ‘variants’ d’un mateix caràcter (al·lògrafs en la terminologia tècnica) eren degudes a adaptacions locals, i per tant no haurie de donar-se quasi bé mai més d’un al·lògraf en una mateixa epigrafia.

Sense haver entrar a estudiar l’escriptura ibèrica (ni tenir un especial interès en la Filologia), però sí familiaritzat amb el corpus ibèric per haver estat adaptant-lo i fabricant eines de consulta en línia durant els darrers anys, tal afirmació em resultà xocant per falsa.

Primer experiment

Tenir un corpus informatitzat, fa que cercar quines epigrafies contenien més d’una variant d’alguna lletra sigui trivial, de manera que és això el que es feu. I tal i com em semblà ja inicialment, la multiplicació dels al·lògrafs no era residual com vol la teoria del desxiframent actual; era força freqüent i amb exemples de més de 2 variants d’un mateix ‘caràcter’ junts en un mateix testimoni. A grosso modo (pensem que alguns dels signes es poden considerar variacions ‘menors’ degudes a la factura autògrafa dels epígrafs, i cal per tal, descartar-los) per representar la variabilitat present en el corpus de cathalaunia.org d’inicis del 2016, que era el mateix que el d’ibers.cat, i per tant  l’únic publicat amb la informació de quines variants es fan servir en cada epigrafia, calien més de 80 signes.

Enfrontats els experts amb aquests resultats, la resposta fou d’incredulitat. La millor observació fou que s’estava considerant tot el corpus de forma conjunta, i que els resultats eren degut a això. Una observació certa, però d’abast limitat, ja que per exemple, tenim múltiples exemples d’epigrafies amb més al·lògrafs conjunts d’un mateix signe que no pas els que la teoria permet (parelles de signes suposadament únics, o triplets en caràcters com a molt suposadament duals). La pitjor, fou treure’s les puces de sobre dient que les dades estaven malament; per il·lògica (si els al·lògrafs tenien aquest nivell d’error, el del corpus hauria de ser tan superior que resultaria evident) i injustificada (qui no disposa de ni presenta un corpus amb les variants, denuncia error a qui sí ho fa?). Però sí era cert que el corpus de cathalaunia.org era pràcticament una còpia del d’ibers.cat i certament jo no havia verificat els continguts personalment, de manera no podia rebatre objectivament una tal opinió (en parlarem ben aviat).

Segon experiment

Davant del fet que considerant en detall l’evidència era evident que havien sorgit dificultats no pas menors amb la teoria, la idea inicial fou anar en sentit contrari, a reduir les 28 categories inicials a un conjunt bàsic de 12 sons: cinc vocals més 7 consonants (tot agrupant els caràcters del desxiframent actual). Sabent la quantitat de vegades que apareix cada signe en el corpus, resulta també trivial fer el recompte. La lletra/so més freqüent era la A, seguida de la I, la E, la D/T, etc. Això és una dada objectiva que dibuixa un perfil propi de l’escriptura ibèrica i que podia ser comparat amb el d’altres llengües.

Transformem aquestes quantitats en percentatges, i fem el mateix per altres llengües geogràficament properes: tres de modernes (eusquera, català i castellà) i una d’antiga (el llatí). No s’inclogué el francès, per la dificultat de ser una llengua que es pronuncia sensiblement diferent de com s”escriu, cosa que no passa amb les quatre altres escriptures elegides per fer la comparació. Ara, com ho fem això? Idealment, seria comparar les freqüències en un corpus representatiu de cada una de les llengües, però això no és possible ja que el corpus ibèric és el que és, només unes poques restes. De manera que s’optà per fer servir un mateix text que existís en els quatre idiomes i que fos d’una mida similar a la del corpus ibèric. Si no podem fer una comparació global, fem-ne una de puntual. El text triat fou els cinc primer capítols del Gènesis; és a dir, mesuraríem les freqüències de les 12 lletres/sons bàsiques (agrupant per exemple Ds amb Ts, i Cs amb Ks i Gs, etc, etc) en cada llengua.

I un cop fet, comparem les freqüències del corpus ibèric amb les de cada una de les altres llengües. De totes les infinites maneres de comparar dues tires de números, d’entrada anem a lo simple: l’error quadràtic mig, i ja veiem que l’eusquera és el que presenta un menor diferència amb l’ibèric, un 3%, mentre que català i castellà eleven la tassa d’error al voltant del 8% i el llatí fins quasi bé el 12%. Ara bé, amb això només mesurem la diferència global, no estem considerant la particularitat de les sèries, per això, podem fer servir, per exemple, les correlacions.

I entre elles, d’entrada les més simples, les lineals, com per exemple, la de Pearson. Com funciona? Doncs ben simple, si estem comparant l’ibèric i el català, per exemple, col·loquem en un pla cada una de les lletres, fent que la freqüència (en el nostre cas, el %) del ibèric indiqui les Xs i les del català les Ys de cada punt/lletra. Si el resultat és com un núvol, el factor de correlació serà proper a 0, Si dibuixa exactament una  recta on els valors grans vagin amb els grans i els petits amb els petits, donarà un 1 (correlació màxima), si dibuixa una recta però els valors més grans van amb els més petits i viceversa, el resultat serà un -1 (correlació inversa), i si no dibuixa ben bé una recta, un valor intermedi, ja sigui entre 0 i 1 o entre 0 i -1 si la correlació és inversa. La interpretació d’un coeficient de correlació sempre depèn de la natura de les dades. Un valor de 0.8 pot arribar a ser considerat relativament baix si el que s’està mesurant té qualitats geomètriques o matemàtiques exactes, però per a la majoria de camps no afectats per una natura matemàtica intrínseca, com poden ser per exemple les ciències naturals i encara més les socials, una correlació de Pearson de 0.8 és considera un factor alt.

Doncs bé si calculem la correlació de Pearson a les nostres freqüències el resultat és aquesta gràfica. On tenim que la correlació de l’ibèric amb l’eusquera és de gairebé el 0.9! La del català baixa a un discret 0.6, i la del castellà a poc més d’un 0.5, resultant el llatí la més dispar, un xic per sota del 0.5.

Recapacitem, hem agafat el corpus ibèric conegut i n’hem recomptat les lletres, desprès hem agafat els primers cinc capítols del gènesi en eusquera i també n’hem recomptat les lletres, i la correlació entre aquest dos texts resulta ser d’un 0.9!!!??? La sorpresa fou tan gran que ràpidament es produí l’article corresponent per tal de consignar les dades, el mètode emprat i el resultat obtingut[4].

Però, a mida que hi vas rumiant, la cosa no té sentit… Una escriptura que fa 2.000 anys que no es fa servir presenta la mateixa distribució que la d’una actual? La casualitat es descarta per sí sola per improbable. Que en l’evolució d’una llengua hi hagin territoris que en quedin apartats i que mantinguin trets antics, és un fet lògic i ben testimoniat, però una cosa són trets específics i altra cosa molt diferent és una característica tan global com la distribució dels sons bàsics. És que fa 2.000 anys eren una sola llengua i que -pràcticament- no ha evolucionat en tot aquest temps? Tampoc té gaire sentit… I és aquí que Occam far néixer una sospita horribilis quan es considera que de les cinc escriptures examinades, del català, castellà, eusquera i llatí sí sabem positivament com sonen o sonaren, però no de l’eusquera que és només suposat. En altres termes: si resulta que l’ibèric és tan proper a l’eusquera, no serà perquè el procés de desxiframent s’ha basat en l’eusquera? No serà que la màquina ens dóna eusquera com a resultat perquè li hem posat eusquera per començar?

L’anàlisi històrica confirma que en Gómez-Moreno considerà l’eusquera com l’evolució de l’ibèric en una cosmovisió ben partisana, filla del seu propi context, ja que considerà el basc com a prototip de l’hispà, únic i universal, unificant el tartessi i l’ibèric i ignorant completament el factor ‘català’ tot i que la Ibèria dels grecs no era sinó la costa de la cantonada nord-occidental del mediterrani i que és aquí que es concentra el gruix de l’evidència.

Però més enllà de la historiografia, si ampliem la gràfica anterior a totes les correlacions entre les escriptures analitzades, veurem com deixant de banda l’anomalia de l’extrema proximitat entre eusquera i ibèric, les tres correlacions més altes són, lògicament, les que es donen entre les llengües modernes, entre el català, el castellà i l’eusquera; el llatí es separa de totes i en un grau similar ho fa l’ibèric, excepte en el cas de l’eusquera. Ho podem visualitzar en un mapa si entenem el complementari de cada factor de correlació (el que falta fins a 1) com una ‘distància’ un grau de ‘diferència’ entre les llengües i les distribuïm com nodes/punts/cercles en un pla mirant de respectar el millor possible aquestes ‘distàncies’. En el dibuix, en groc les escriptures modernes, en verd el llatí i en vermell l’ibèric  (aquí, com que només eren cinc nodes ho hem fet a mà, després veurem exemples més complicats que s’han de fer per ordenador).

Mirant de posar a prova l’experiment, tal i com convé, na Carme J. Huertas suggerí fer la mateixa comparació però excloent les epigrafies formades per poques lletres, que poden ser enteses més com marques de propietat que no pas narració, com sí ho és el Gènesi. Així es feu i fins i tot s’incrementà la mida dels corpus fins els 15 primers capítols. La mesura obtinguda més diversa de la primera, sí rebaixa la semblança entre ibèric i l’eusquera del 0.88 original a un 0.82, però l’estructura en cap cas canviava (com ja deia la teoria) i l’ibèric de fa 2.000 anys continuava sent més proper a l’eusquera actual que el català al castellà (les dues llengües modernes més properes en aquesta comparativa, amb un 0.8). Per fer-se una idea del grau de proximitat, es pot fer un experiment imaginari.

Imaginem que el castellà és una llengua que va desaparèixer fa 2.000 anys, o sigui que ens és desconeguda, que estava escrita amb uns signes diversos dels nostres, que n’han quedat només unes poques mostres i que un cop estudiades se n’ha pogut derivar-ne el seu so i que tenim un text en castellà que sona: ENELPRINCIPIODIOSCREOELCIEOLOYLATIERRA. Quan tardaríem en entendre el que hi posa a partir del català? Gens, oi? Doncs això es dóna entre dues llengües amb una correlació de 0.8, i la de l’ibèric amb l’eusquera és del 0.9. Dit altrament, amb un coeficient tan alt, qualsevol lectord’eusquera hauria de poder llegir sense massa esforç els ploms ibèrics[5].

I el mètode emprat, en ser una agrupació de signes fa que sigui insensible als refinaments de la proposta de desxiframent fets per la filologia en el darrer segle, el grau de semblança deriva de l’estructura bàsica enunciada en temps de Gómez-Moreno. De forma, que va resultar que si miràvem de simplificar l’evidència el que apareixia resultava a totes llums inacceptable!

Tercer experiment

Tornem ara a abans, a la primera mitat del 2016, quan el recompte de covariants havia estat rebut amb incredulitat, fins el punt de suposar error en les dades.

Atès que efectivament el corpus de cathalaunia.org havia estat copiat del de ibers.cat i no havia estat verificat manualment, i entenent que fer-ho a nivell personal tampoc seria efectiu (una opinió més no serviria per gaire), es va decidir modificar les dades de la versió del corpus ibèric de cathalaunia.org tot incorporant a cada epigrafia una imatge dels calcs o dibuixos fets per els experts que estudien les inscripcions, com una cita, però en gràfic, on per una banda tothom pugui comprovar la semblança entre la imatge i la transcripció del corpus, i fent clic sobre la pròpia imatge veure de quina obra s’havia incorporat el dibuix (en general els dibuixos són més clars que les fotos ja que han estat fets a mà, o marcats manualment sobre les imatges).

Així es començà una tasca molt instructiva que va dur a incorporar i revisar milers d’imatges al corpus. Al cap d’uns mesos s’havien processat unes 2.500 entrades sobre un total de poc més de 3.200 entrades del corpus. Un procés molt instructiu per aprendre a apreciar el que deien els experts de les variacions locals, i de la variabilitat del signari. De fet, aquí s’hagué de prendre una decisió estructural. Atès que certament hi havien signes que no estaven entre els 135 del corpus inicial d’ibers.cat (el recull més ampli publicat en mostra uns 260[6]), es decidí sacrificar la compatibilitat amb ibers.cat i afegir els signes nous que fessin falta a les dades de cathalaunia.org. Fixis que això no vol dir que les dades d’ibers.cat estiguessin malament (de fet, la taxa d’errors d’errors detectats després de la verificació feta és tan minsa que cal expressar-la com a tants per mil), sols que calia definir encara més variants. Un cop repassat el 80% de les entrades del corpus, unes 2.500 aproximadament, el signari de cathalaunia.org ha passat als 207 signes, tenint-ne pendents d’incorporar més de seixanta de molt poc freqüents (que tot i semblar molts no afectaran ni a l’1% dels continguts),  i tenint en compte que encara falta verificar un 20%, es possible que el nombre total de signes necessari per reproduir fidelment les epigrafies s’acosti als 300.

Un cop arribat a aquest punt semblà adient repetir la mesura de covariants que s’havia fet inicialment quan el signari era de ‘només’ 135 signes. Els resultats, lluny del que preveien els experts, mantenien el nombre mínim de variants requerides per preservar la variabilitat dels testimonis molt per sobre dels 50 de la proposta actual de desxiframent, en gaire bé 90, que sumant-hi els metrològics i puntuacions ens porten a una centena de signes.

Un cop recollits i publicitats els resultats[7] per tal que qui vulgui els pugui verificar, es comunicà las experts que tal i com era lògic d’esperar, atès que el nombre d’errors (signes mal transcrits) s’havia mostrat residual, tot i haver refinat molt la fidelitat de les dades, la variabilitat mínima es mantenia molt per sobre dels 50.

De manera que si en comptes d’anar a reduir els signes, fem el contrari i tenim en compte el màxim possible de signes, els resultats, continuen sent en bona mesura incompatibles amb la proposta actual de desxiframent. Fins el moment actual no sé de cap resposta formal dels experts sobre la problemàtica exposada fins aquí.

Quart experiment

Però un cop arribats aquí, i volent mirar de fer alguna aportació en positiu a la problemàtica, però des de fora de l’àmbit de la Filologia, es rumià un procediment mecànic per mirar de mostrar les semblances o diferències entre els diferents signes de l’escriptura. El punt de partida eren els 207 signes definits, més una sèrie de variacions menors que calia obviar, estructurats presumptament en una sèrie de 28 sons o categories que s’esperaven que configuressin els 50 grups corresponents als caràcters de la proposta actual de desxiframent.

La idea era similar als mapes de semblança de les distribucions de lletres entre les llengües que hem fet servir abans, on per cada llengua tenien a quina ‘distància’ volia estar de cada una de les altres. Allà en ser només 5 ítems/llengües, s’havia fet a mà, però en computació, aquesta mena de problemàtica ja fa anys que han estat estudiada i hi ha una pluralitat de maneres de fer-ho per ordenador. La idea era situar cada un dels 207 signes en un pla, tenint per cada un, a més, un grau de semblança o diferència respecte cada un de la resta de signes i deixar que el joc de forces situï els signes en una situació que minimitzi la diferència entre les distàncies que ‘volen estar’ i les que realment estiguin (el que en computació es coneix com ‘distribució de forces’).

El procediment emprat fou recomptar per a cada un dels 207 signes entre quines parelles de signes es dóna en el corpus i un cop recomptats, mesurar els graus de correlació entre els signes (el procediment real és més complicat, però per l’exposició que fem aquí és una aproximació suficient).

El resultat esperat és el càlcul d’uns mapes de signes, on els signes amb distribucions més semblants tinguin una major probabilitat de trobar-se en un mateix lloc. Dic altrament, uns mapes on els signes amb distribucions similars tenen tendència a agrupar-se.

Ara bé com que no hi ha una única disposició ‘correcta’, el que es feu fou calcular-ne una sèrie de 5 (més tres més de suplementàries amb corpus simplificats per afinar encara més l’anàlisi), i analitzar categoria a categoria com s’agrupaven els seus signes i comparar-ho amb el que s’esperaria a partir de la proposta de desxiframent actual. El mètode es basa en recomptar els grups de signes de cada categoria que es conformen en les cinc proves. El resultat permet saber no sols el nombre de grups sinó també i molt especialment interessant, els signes que conformen cada grup. És a dir, proporciona una visualització de les diferències objectives entre els signes atenen a les seves distribucions.

No entrarem aquí en els detall dels resultats, seria massa llarg, el que sí podem constatar és que de nou confirmen que la quantitat de grups que es detecten és molt superior als suposats 50 del proposta actual de desxiframent, i són a grosso modo coincidents amb els resultats obtinguts a partir d’examinar les covariants presents en el corpus, que apunten a la necessitat de contemplar poc menys de 100 signes si es vol preservar la variabilitat estructural sígnica present en el corpus. El treball, publicat en forma d’article i com sempre disponible en línia, conté totes les observacions caràcter per caràcter[8].

Consideracions

Arribats a la fi, i evitant entrar en els detalls dels resultats, només apuntar algunes de les diferències majors observades respecte la proposta de desxiframent de l’ibèric actual.

En primer lloc, que els caràcters amb E (la pròpia E i els sil·làbics Be,De/Te,Ce/Ge) doblen el nombre de glifs respecte la resta de caràcters, fet que fa pensar no en 5 vocals sinó en 6, amb dues Es (com per exemple les del grec , eta i èpsilon?).

En segon lloc, per el que fa a la morfologia dels signes ibèrics, actualment es reconeix que la diferenciació entre signari dual o no dual, majoritàriament es concreta amb l’adició d’un traç medial per diferenciar els sons fortis dels lenis. Doncs resulta que quantitativament és encara més freqüent la diferenciació per adició (o allargament) d’un traç en la part inferior. Diferenciació actualment ignorada i que es considera exclusivament com una qüestió estètica, però és un fet que presenten distribucions diferenciades i això és incompatible amb una distribució més aviat aleatòria com seria si fossin resultat de les variacions degudes a la natura autògrafa de les epigrafies.

I en tercer, que la mirada global, lluny de l’esquema actual, basat en duplicacions de signes (vocals i sil·làbics) revela una estructura més complexa. La majoria de les dualitats es detecten, certament, però al seu costat es detecten formacions més complexes, com per exemple grups de 4 en cinc dels sil·làbis (Be,To, Ka,Ke, Ko) i casos més irregulars. En conjunt, un esquema més complicat i menys simple que el de la proposta actual.

I finalment una coda per resumir l’explicat fins aquí.

Els treballs realitzats durant el darrer any, orientats a cercar maneres objectives de mesurar l’actual desxiframent de l’ibèric han dut ha pensar que el problema estructural més evident és haver estat basat excessivament en l’eusquera fins el punt que la distribució dels sons bàsic entre l’escriptura ibèrica feta fa 2.000 anys és més semblant a l’eusquera de avui en dia que no pas entre els actuals català i castellà. Per altra banda, l’anàlisi quantitatiu tant de les covariants com de les distribucions dels signes apunten a un estructuració més complexa que la que es contempla actualment. Vol dir això que el desxiframent actual està tot malament? Doncs no, probablement en bona mesura sigui correcte ja que les relacions amb l’eusquera no poden ser casualitat, el problema més aviat és que és excessiu i cal considerar altres influències.

En tot cas, haurà de ser la Filologia la que digui en què el desxiframent actual està malament, però sí cal que es faci des de fets objectius i quantificables, no des de simplificacions. De fet, personalment crec que el desllorigador vindrà de la mà de la lingüística computacional, però per tal què això sigui així, caldrà dedicar els mitjans necessaris, i havent tastat personalment el misèrrim estat de la Cultura en el nostre País, no puc ser optimista a curt plaç. De fet, si amb aquests treballs s’aconsegueix que els interessats prenguin consciència dels aspectes objectius de la problemàtica de l’ibèric, molt probablement ja ens poguem donar per satisfets.

Moltes gràcies.


Notes

Anuncis
Aquesta entrada s'ha publicat en al·lògrafs, algoritmes de distribució de forces, Carme J. Huertas, castellà, corpus epigràfic ibèric, correlació de Pearson, Filologia, Gènesis, ibèric, Institut d'Estudis Ibers, Manuel Góme-Moreno i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

S'està connectant a %s