Malcodificacions ibèriques i semblances amb l’euskera.

Aquest apunt és com un tutti frutti, d’entrada és una mena de continuació de dos apunts previs: Malcodificant l’ibèric nord-orientalEls caràcters de l’ibèric nord-oriental, i acaba demostrant estadísticament la proximitat de l’ibèric amb l’euskera.  En el primer apunt es comentava com la proposta de codificació de l’ibèric nord-oriental per a Unicode havia reduït els nombre de caràcters a poc més 50 (puntuacions incloses) quan en els originals es poden detectar més del doble de glifs diferents, i en el segon s’analitzaven quantitativament la co-presència de glifs al·lògrafs en una mateixa epigrafia i es postulava la necessitat de diferenciar no entre 50, sinó entre 85 i 96 signes diferents.

Ja fa uns mesos, que processant el darrer volum de la revista Paleohispànica (el de 2015), va cridar l’atenció un article dels mateixos autors que la proposta per a Unicode (el grup LITTERA de la UB): Ferrer i Jané, Joan + Moncunill, Noemi + Velaza Frias, Jesús Javier : 2015 : “Towards a systematisation of paleohispanic scripts in Unicode. Systhesising multiple transcription hypotheses into two consensus encodings” : Palaeohispánica – revista sobre lenguas y culturas de la Hispania antigua : 15 p.13-55. I unes setmanes més tard, es tenia accés a la proposta del mateix grup per les llengües preromanes del sud de la península ibèrica: Ferrer i Jané, Joan + Moncunill, Noemi + Velaza Frias, Jesús Javier : 2015 : “Preliminary proposal to encode the southern paleohispanic scripts for the UNICODE standard”.

La lectura d’aquests dos darrers treballs va despertar uns quants dubtes no pas menors:

  1. Es declara que en utilitzar els mateixos caràcters que l’ibèric nord-oriental, el celtibèric, no requereix de cap entrada pròpia en l’estàndard Unicode.
  2. Es diu que totes les llengües escriptures ‘hispàniques’ ‘paleohispàniques’ tenen un mateix origen.
  3. A semblança de l’ibèric nord-oriental, es codifiquen (conjuntament) el tartessi i l’ibèric sud-oriental en 48 entrades noves (code-points en terminologia codicològica).

Ja en la lectura del primer article vaig mirar de preguntar si havia realment entès bé aquests punts, i efectivament, la resposta va ser que sí. Posteriorment amb la lectura de la proposta de codificació del tartessi i del ibèric sud-oriental, vaig comprovar que efectivament, el mateix criteri reductor que s’havia aplicat a l’ibèric nord-oriental, s’aplicava també a aquelles escriptures conjuntament.

tartes-sud-est-1

Els 48 caràcters del tartessi i de l’ibèric sud-oriental en la proposta per a UNICODE.

No sabent pràcticament res en detall de les escriptures del sud de la península, vaig aprofitar les descripcions que es donen en la proposta per a Unicode, ja que són excel·lents per entendre la posició acadèmica actual. El problema és que quan més llegia menys entenia, i els dubtes, en comptes de disminuir s’incrementaven.

Al cap de poc temps, es va mirar de fer bona la proposta de codificació de l’ibèric nord-oriental i comprovar en el corpus d’epigrafia ibèrica de cathalaunia (l’únic actualment publicat, juntament amb el de na Carme Huertas i en David Folch, del qual deriva, que detalla quina variant de cada signe figura originalment en les inscripcions) si efectivament amb els 49 signes de la proposta es podia donar raó de la particularitat de totes les epigrafies. És a dir, si la teoria era correcta, mai (o casi mai) s’hauria de trobar dues variants d’un mateix signe de la proposta en una mateixa inscripció ja que això seria senyal que en origen es diferenciaven coses que en la nostra teoria actual  haurien de ser equivalents. Però ja tot just començar va quedar clar que això no era pas així, de manera que vaig tornar a demanar ajut als experts per veure si estava cometent algun error sistèmic que podés donar raó a la magnitud de la discrepància. Posteriorment, en acabar el recompte, els resultats, eren quantitativament, força similars al repertori de 95 signes definits per Untermann, de manera, que potser s’havia verificat  mecànicament, de manera aproximada , el que el filòleg germànic havia recopilat prèviament de forma manual. La discrepància amb la proposta per a Unicode estava servida.

Així que en aquest apunt parlarem dels tres dubtes anteriors, dels comentaris dels experts, i anirem una mica més enllà en la problemàtica de l’ibèric nord-oriental. Tot plegat, un totum revolutum al que mirarem de donar alguna il·lació que tingui sentit.

Lenguas hispánicas

Per començar, un apunt aïllat. En aquests dos articles esmentats del grup LITTERA, tot i que com hem dit, parlen del celtibèric (per negar-li cap especificitat que necessiti codificació), no s’esmenta, ni en la bibliografia, un treball previ del 2011, que ja havia estat citat en aquest bloc: Olcoz Yanguas, Serafin + Medrano Marqués, Manuel : 2011 : “Una propuesta de normalización de la escritura celtibérica” : Veleia – revista de prehistoria, historia antigua, arqueología y filología clásicas : 28 p.141-160. Entenent que els autors són experts en la matèria em resultà inexplicable (deixem-ho així) l’absència de tota referència a un precedent tan explícit.

celtiber-1

La proposta d’Olcoz i Medrano per l’ibèric incloent variants celtibèriques.

Però més enllà d’aquest detall, és evident que hi han signes que no es corresponen, variants si es vol d’un mateix so, però especificitats al cap i la fi, que la proposta de codificació esborra, tant per el que fa a l’adaptació celtibèrica com per els signaris meridionals. De tirar-se endavant, i em consta que no hi ha voluntat de canviar substancialment les propostes fetes, l’única opció de representar amb tecnologia informàtica estàndard els signes originals seria a base de fonts tipogràfiques alternatives. Com si per escriure amb majúscules, o amb accents en les llengües modernes, haguéssim d’emprar una font diferent per cada ‘variant’: una per majúscules, una altra per accents oberts, una més per tancats, i així anar fent. Oi que no té sentit? Doncs exactament per això Unicode no reconeix la ‘A’ majúscula com una variant de la ‘a’ minúscula (o viceversa), sinó que li atorga a cada glif un codi propi i els considera ‘caràcters’ diferents. En el cas de l’ibèric, no sabem a què responia aquella varietat sígnica, el que no sembla de cap manera raonable és esborra-la com si no existís! Però aquest punt ja el varem comentar en l’apunt sobre la codificació de l’ibèric nord-oriental, i a més, hi tornarem més endavant…

El que sí es detecta en la literatura filològica ibèrica, és una voluntat política uniformitzadora en la mirada al món ibèric, que no és en cap cas nova, ni tampoc innocent (potser inconscient en certs casos) però fàcil de detectar i de descriure. El cas del l’eliminació del celtibèric en la codificació seria un símptoma menor, un altra seria l’abandó de la nomenclatura original d’aquestes llengües, que les diferenciava per origen segons els clàssics (tartessi, ibèric, celtibèric, -l’ibèric meridional va ser detectat modernament-) per una denominació ‘ibèrica’ unificadora (nord/sud/oest),  també ho és la insistència en una localització estrictament peninsular (ignorant les evidències al nord del Pirineus!),  però potser on es mostra més clarament és en la temàtica dels orígens d’aquestes escriptures.

Comencem per l’anacronisme garrafal, i no per això menys repetit, de parlar de ‘llengües hispàniques’ per referir-se a realitats preromanes (com si Hispània no fos un terme romà!). Potser a mitjans del segle XX, quan es formà la teoria que considera el tartessi com l’escriptura mare de la resta d’escriptures preromanes peninsulars, en un context polític de dictadura franquista, es podria excusar que els erudits autors d’aquesta teoria, i que són els mateixos que fonamentaren el desxiframent actual, parlessin repetidament de ‘lenguas hispánicas’ i projectessin una unitat patriòtica espanyola ideal al passat més reculat en un pan-hispanisme/iberisme peninsular nascut en el sud-oest en el primer terç del primer mil·lenni abans de Crist. Eren els signes dels temps, certament. La teoria de l’origen africà del ibers també havia estat defensada entre altres per l’arqueòleg germànic Adolf Schulten (un enamorat de Tarragona, només cal llegir els seus treballs), i resultava plenament coincident amb els plantejaments d’un dels pares de la filologia ibèrica com Manuel Gómez-Moreno[1]. Però tal ideologia continua viva encara en els nostres dies, molt especialment en la forma del que avui en dia en diem nacionalisme banal, sols cal comprovar quanta gent, amb estudis, no pas analfabets, confonen el sentit de: península ibèrica i Espanya. No és gratuït, és induït.

L’apropiació interessada de conceptes del passat per part de la política és gairebé una constant. En aquesta cas, es vol confondre el terme administratiu[2] Hispania aplicat a la península de l’extrem occidental d’Europa per els romans com el solar nadiu i ancestral d’una unitat política mai existent en la història coneguda[3] i s’ignora convenientment la descripció prèvia dels grecs que segles abans (s. VI aC) localitzaren els ibers en la costa a l’oest del Roine i que posteriorment, quan s’aprecià que l’occident europeu tenia forma de península, la qualificaren com ‘ibèrica’, en relació probablement al poble que amb el que hi tenien més tracte, els ibers, sense que per això es parlés de cap unitat amb la resta de pobles riberencs coneguts per ells: els turdetans o tartessis en la zona de l’estret i els celtes en les costes atlàntiques, com a mínim fins les illes britàniques.

Certament, hem de pensar que els filòlegs actuals són contraris a aquesta mena de manipulacions barroeres del passat, i que basen les seves conclusions en evidències científiques. El problema sembla ser que en el tractament dels aspectes històrics, fan aigües i sovint es defensen posicions metodològicament insostenibles. Un exemple concret: en una de les obres de referència on es defensa la filiació a partir del tartessi, es considera que l’ibèric meridional, amb clars punts de contacte tant amb el tartessi com amb l’ibèric nord-oriental, ha de ser anterior al nord-oriental. El petit detall que l’evidència no ho corrobora, és ignorat, i a l’hora de datar l’ibèric meridional, es fa servir l’evidència més reculada del nord-oriental per afirmar que és anterior a tal data! Un raonament plenament circular. Es parteix d’una suposada derivació del tartessi, i com que el nord-oriental és demostrablement anterior al sud-oriental, aquest ha de ser encara més reculat, sense cap evidència[4]! Quelcom semblant tenim en les lectures ahistòriques i essencialistes que miren de minimitzar el pes de les influències exteriors i afavorir per contra una mirada localista, autòctona. Un exemple palmari seria les malinterpretacions que en aquestes obres de referència sobre paleofilologia ibèrica es fan dels testimonis de l’origen dels ibers segons els clàssics, on s’arriba a escriure que en Varró digué que els ibers eren autòctons, quan de fet, diu el exactament el contrari, els esmenta com la ocupació mes reculada, seguida per els perses,  fenicis, celtes i púnics abans dels romans[5]. Sembla ben be allò de no deixar que els fets esguerrin una bonica teoria!

Si hom però obre el focus, i contempla el conjunt, tal hipòtesi unitària resulta, a més, completament espúria. Cap clàssic parla de cap unitat. Tartessos i Ibèria són dues realitats fàcilment discernibles en la mirada històrica (completada per una Cèltica en les llunyanes costes oceàniques), i la teoria d’una una suposada difusió per via terrestre de l’escriptura tartèssia, per donar lloc presumptament a l’ibèric sud-oriental i d’aquest al seu torn al nord-oriental, no té cap mena de lògica si recordem que els contactes marítims són la norma (més en contexts tan propers, tota vegada que viatjar per aigua és molt més eficaç que fer-ho per terra[6]). La realitat acostuma a tenir un grau superior de complexitat.

Ara, ho diuen en va doncs, això de la unitat de les escriptures preromanes? Doncs no, de cap manera, ho diuen bàsicament per raons filològiques. Mirem d’explicar la posició actualment difosa.

Tal i com es resumeix en les propostes de codificació Unicode, del tartessi, tenim un centenar d’inscripcions datades entre els segle VII-IV aC, de l’ibèric nord-oriental més de dos mil que oscil·len entre el segle VaC-IdC, de l’ibèric sud-oriental una setantena d’exemples entre els segle IV-I aC i del celtibèric dues-centes inscripcions fetes entre els segles IIIaC-IdC. L’escriptura més antiga és doncs la tartèssia, propera a la posterior i veïna sud-oriental, amb la que comparteix una dependència clara dels signaris semítics (hi ha un signari ‘intermedi[7]‘ que presenta grups de signes contigus en el mateix ordre que els signaris orientals (que són molt anteriors). En l’ibèric nord-oriental els signaris que s’han trobat, són molt diferents i no mostren aquesta dependència (tampoc és que mostrin un model alternatiu, ja que les evidències fins ara trobades, encara que sí comparteixen algunes seqüències  de signes[8], difereixen entre sí).

Si el tartessi i el nord-oriental són tant diferents però propers en el temps, perquè es diu que són derivats? Doncs perquè tots ells comparteixen un tret comú: el fet de ser semisil·làbics (per les labials, dentals i velars). Així, es suposa que fou l’adaptació d’un signari eminentment consonàntic com és el semític a una parla amb menys consonants la que generà aquests signes sil·làbics[9]. El problema d’aquesta hipòtesi és que en els signaris ibèrics, que no en el tartessi, es detecta que inicialment s’emprà un sistema semisil·làbic dual que diferenciava gràficament entre sons forts/dèbils (G/K,D/T) i que posteriorment es simplificà. O sigui que si disposem temporalment els fets, tindríem un signari semisil·làbic no dual al segle VII en zona tartèssia, un de dual dos segles més tard en les nostres terres, i quelcom semblant dos cents anys més tard en la part est de l’actual Andalusia (i és de remarcar, en el sentit de mostra de voluntat de diferenciació social, que sembla ser que tot i compartir l’existència de signes duals, la interpretació so fort/so dèbil, era inversa, i el que al nord indicava so fort al sud indicava so dèbil i viceversa[10]). Un altre element que complica, si més no aparentment, el panorama, és que els glifs d’aquests sons semisil·làbics són parcialment diferents entre l’ibèric nord-oriental i el tartessi (comparant les codificacions tenim que entre els signes identificats, difereixen: bi,ke,ki,te,ti,to, i coincideixen únicament: ka,ko,ta,tu), i per tant, mal es pot defensar un pas global d’una banda a una altra, de l’extrem sud de la península als Pirineus orientals, en qüestió de 200 anys (i amb la dificultat afegida que no es detecta una fase formativa en l’ibèric nord-oriental, que apareix ja de vell antuvi amb la seva màxima complexitat).

cod-iberic-dual

La proposta de codificació per a UNICODE de l’ibèric nord-oriental.

Però el que resulta més cridaner a un ignorant, potser sigui el poc paper que es dóna a la possibilitat d’una transmissió per l’altra gran grup cultural mediterrani preromà, el d’origen greco-minoic, especialment, si recordem que un dels fundadors de la teoria ‘pan-ibèrica’, en Gòmez-Moreno, bé que identificava el paral·lelisme amb aquelles escriptures. I especialment rellevant per el que aquí estem parlant, entre aquests glifs de sons sil·làbics que segons dèiem, la teoria actual vol que s’haguessin generat en una adaptació a Tartessos d’un signari semític consonàntic. Gràficament:

minoic-silab-1

De: Gómez-Moreno, Manuel : 1949 : “La escritura ibérica y su lenguaje” : Misceláneas. Historia, arte, arqueología, (dispersa, emendata, addita, inedita). Primera serie, La Antigüedad : p.257-281

Com es pot veure, casi tots els signes sil·làbics nord-orientals tenen paral·lels (tret dels  de ba, be i do/to) en signes qualificats l’any 1949 per en Gomez-Moreno de ‘minoics’.

No seria més senzilla una hipòtesi combinada? Una influencia ‘semita’ al sud, al segle VII i una altra ‘minoica’ al nord al segle V? No seria pas l’únic cas conegut d’escriptura semisil·làbica apareguda en aquest marc temporal, a Persia, per exemple, tenim al segle VI aC la creació d’una variant del cuneïforme. Les fonts del primer mil·lenni abans de Crist són molt limitades però no són nul·les, i per tant, no es pot ignorar l’aportació de la Història en aquests afers.

No cal multiplicar aquí les especulacions, el que es vol remarcar, es que cal obrir la mirada i tractar tant els temes històrics com els filològics amb el rigor necessari, fugint d’apriorismes i essencialismes. Segur que els amants de Clio cometem innumerables aberracions filològiques, però si no mirem de corregir-nos, mai no millorarem. Aquest és l’esperit darrera aquests comentaris.

Portem l’atreviment un pas més enllà, i encarem l’altra part d’aquest apunt tornant al tema de la variabilitat sígnica de l’ibèric nord-oriental.

Variants de l’ibèric nord-oriental.

En el resum del mes passat, ens preguntàvem com s’ho haurien pogut fer els autors de la proposta de codificació per a Unicode, per dir que havien triat els glifs més habituals per a cada so, per fer la proposta. Els únics corpus publicats amb aquesta informació són el de ibers.cat, i el de cathalaunia, derivat seu, aixi que calia confirmar si potser els autors disposaven d’un corpus similar no publicat. La resposta va ser que encara no, però que s’espera que el projecte Hesperia, incorpori aquesta informació en els anys vinents. Així doncs, l’estimació havia estat feta a partir de dades parcials. Resultava trivial recomptar els glifs en el corpus de cathalaunia, i comparar-ho amb els resultats de la proposta Unicode, i d’això parlarem tot seguit. Però cal primer fer una petita explicació sobre la variabilitat sígnica dels testimonis de l’ibèric nord-oriental.

Tot i que sí tenim alguns exemples d’epigrafia sumptuosa i de qualitat, la gran massa d’exemples epigràfics són marques fetes manualment, sovint de poca qualitat, i que en una mirada inexperta semblen més gargots que no pas lletres. Hi ha doncs una feina feta per els filòlegs i epigrafistes per agrupar tots aquest testimonis en uns conjunts de símbols més o menys coherents. Na Carme Huertas, els simplificava en cent trenta i pocs glifs, Untermann abans ho havia fet en 95. La diferència, a grosso modo s’explica perquè la barrera, la diferenciació, entre un glif i un altre és en part subjectiva; un exemple: un dels signes per la ‘u’ és una fletxa que apunta cap amunt; en alguns casos la barra vertical no arriba a tocar la punta, i donat que hi han altres signes en el quals el detecta quelcom semblant, es fa difícil discernir entre una variació intencionada o una de casual, i per tant, segons la voluntat de l’expert hi veurà un o dos signes.

Sabem que l’escriptura de l’ibèric presenta senyals d’una certa sistematització sígnica; els signes duals afegeixen una barra vertical al signe base. En aquest sentit, un altra senyal que no he trobat reflectida en la literatura és la diferenciació entre tenir o no un traç vertical llarg. El trobem entre molts signes: entre ‘a’s amb forma de P o D, entre ‘i’s i ‘n’s curtes o llarges (de fet les ‘i’s i les ‘n’s sols es diferencien estructuralment en què les primeres afegeixen un traç vertical petit en la  part superior), entre les ‘m’s en forma de V o Y, entre les ‘r’s amb forma de P i D especulars, i també entre glifs de sons diferents: entre ‘r’s i ‘gu’s amb forma de rombe/rodona, i especialment entre els sons ‘to’ i ‘ti’, que es diferencien únicament en tenir o no un traç vertical a sota (i en aquest cas, fins i tot es detectava la mateix distinció en les formes de tres puntes, entreamb  una base horitzontal o una puntual).

En la detecció de co-aparicions de glifs al·lògrafs que es va presentar en aquest bloc, es postulava una forquilla entre 85 i 96 glifs diferents. Veient que eren unes xifres properes a la de Untermann però molt diferents de la dels experts, es va demanar el seu parer, per si s’estava cometent algun error sistèmic que permetés explicar tal discrepància. Les respostes, que no puc sinó agraîr públicament, van ser variades, però la més interessant i detallada es podia resumir en una paraula: incredulitat.

Els filòlegs han re-construit penosament el so de l’escriptura ibèrica, el desxiframent que dèiem, i basen sobre aquest esquema sonor (sil·làbics dobles+consonants+vocals dobles[11]), la seva representació amb un únic glif per so. El problema com hem anat repetint, creiem que rau en què no han estat sistemàticament exposats a la variabilitat sígnica en tot aquest procés de desxiframent, i ara, el concepte que aquests 49 sons puguin tenir una representació amb un centenar de glifs, els resulta estrany, potser difícil de conceptualitzar[12]. Des de aquesta posició, és fàcil entendre els possibles errors sistèmics al recompte de co-aparicions que van enumerar. Els comentem un a un.

  1. En primer lloc, el fet que el corpus és el resultat de molts segles d’escriptura, i que per tant, no es podia analitzar conjuntament. La resposta és fàcil. Encara que és evident que les epigrafies s’estenen en un període de segles, les co-aparicions en un mateix text són per definició simultànies. Com a molt, es podria plantejar la creació d’un mapa cronològic de co-variants d’un glif, i cercar patrons d’ús (una tasca no pas fàcil, atesa la pobre fiabilitat de les datacions i localitzacions de moltes de les peces).
  2. La segona estaria en part lligada amb la primera, i vindria a dir que encara que és cert que si trobem A+A’ juntes, això indica que són signes diferents, si a part trobem A+ A”, això no indica que A” tingui que ser un tercer signe (podria ser una A’ que ha mutat de forma, per exemple). El problema amb aquest argument, és metodològic. Si dic que A+A’ indica diferència, a sant de què puc ara dir que A+A” no ho fa? En altres paraules, viola la llei de l’explicació més simple. Es buida de valor? Tampoc, però caldria donar una raó a una tal violació del mètode en cada cas per poder-la acceptar, i en això tornaríem al mapa cronològic de co-aparicions que dèiem abans com a pas previ per poder plantejar la possibilitat que el signe A’ hagués mutat en el signe A” en un moment i context determinat. Sense això, si trobem A+A’ i A+A”, el més lògic és pensar que estem davant de tres signes: A, A’ i A”.
  3. El tercer ja era més tautològic. Els corpus tenia molts errors i per això es detectaven co-aparicions on no hi són. Afirmació que seria de gran valor si el que l’emet l’acompanyés del corpus ‘correcte’ i la seva comparativa corresponent. A falta de les proves, en ciència, evidentment no es pot tenir en consideració de cap mena de manera una tal afirmació. I és que sembla talment que l’evidència presentada no ha estat convenientment considerada. En un total aproximat de 3.000 epigrafies i – com veurem tot seguit – 24.000 símbols, es detectem a prop d’un miler de co-aparicions repartides en 381 epigrafies, amb desenes d’elles, presentant-ne no una ni dues, sinó entre cinc i quinze (només s’ha de repassar l’apèndix A de l’article)! Gràficament:
    geu-7

    Nombre de co-aparicions vs. nombre d’epigrafies.

    La probabilitat que una distribució tal es pugui deure a errors de transcripció més o menys aleatoris és ínfima, residual
    Altra cosa és que el tema de la correcció del corpus és certament de màxima importància. El gruix del contingut actual és hereu del corpus de ibers.cat com dèiem, i l’única manera d’evidenciar la seva correcció, crec que passa per incorporar en el màxim nombre d’entrades (a ser possible, totes) l’esquema o dibuix de les epigrafies originals (les fotos sovint resulten menys entenedores que els dibuixos). A tal fi, s’ha posat en marxa la recollida i preparació d’aquests nous continguts. De fet, crec que l’establiment d’un corpus reconegut entre els especialistes que contempli les variants hauria de ser un pas previ imprescindible en l’estudi de l’escriptura ibèrica. Que consti que la predisposició en aquest sentit és absolutament oberta per part de cathalaunia.

Tenint en compte aquestes consideracions doncs, per el moment, res obliga a replantejar sistèmicament el treball de detecció de co-aparicions[13] fet.  Potser els filòlegs tenen dificultats per explicar la pluralitat de glifs emprat conjuntament per un suposat mateix só, però això en cap cas hauria de dur a negar l’evidència i fer veure que no hi és. Sembla evident que actualment manca una explicació raonable per explicar la variabilitat sígnica de l’ibèric nord-oriental (una raó de fons, que sembla de pes, per apel·lar a la prudència abans de donar per bones les codificacions actuals per a Unicode).

Un cop vist el tema de la varietat formal de l’ibèric, passem al seu recompte, i en certa manera, a anar a l’inrevés, a agrupar més i més els signes.

Recomptes i comparacions

El corpus de cathalaunia en el moment de fer aquest apunt presenta 3.246 entrades (un mateix objecte pot tenir vàries entrades, com per exemple, un plom amb dues cares escrites) que conformen un conjunt d’uns 30.000 signes, format per un signari de 134 símbols. Total, que es redueix a 24.048 signes si ignorem espais, puntuacions i altres marques i es fixem només en els fonètics (terrible pensar que tot el que queda d’una escriptura que vam emprar durant mig mil·lenni és com a molt una dotzena de pàgines escrites!). Presentem gràficament les freqüències de cada glif:

codes-sort

Les freqüències del corpus ibèric de cathalaunia amb 3.246 entrades.

Els dos primers signes, els més freqüents, necessiten d’una mínima explicació. El primer, el de forma de quadrat, indica en la codificació de cathalaunia un glif il·legible i també codifica una discontinuïtat en el suport, per això és tant freqüent. El segon, una barra vertical, que sí és un signe ibèric, té un surplus d’aparicions ja que s’emprava numèricament per indicar unitats; un recompte aproximat en detecta uns 300 en aquesta modalitat, de forma que podem recomptar-ne aproximadament uns 1.200 en ús fonètic.

Si els promotors de la proposta Unicode haguessin triat les variants més freqüents, les hauríem de poder localitzar en la part alta del gràfic, però no és completament aixi, les marcarem en blau:

codes-sort-unicode

Els glifs de la proposta per a Unicode per el signari dual, marcats en blau.

Gràfic que també requereix d’algun comentari. En primer lloc, hi han signes que són poc freqüents, i que per tant no poden estar en cap cas en la part alta de la taula. En segon, cert és que en la proposta per a Unicode es marquen altres variants (per el signari no dual[14]) que cobreixen algunes de les manques principals, però el problema està en que no tenen codis diferenciats, i per tant no els podem marcar conjuntament amb els del dual en aquest recull. És exactament això el que volem posar de manifest, que la reducció a 49 signes és excessivament dràstica. Sense ser un expert en cap cas, sí que puc dir que després de la feina feta en el corpus del web aquests darrers anys, em resulta inimaginable reproduir les epigrafies ibèriques sense glifs tan bàsics, com el de forma de V per les ‘m’s, el que sembla una S per ‘s’s, el rombe per ‘r’s o el que sembla una R per certes ‘a’s.

Però com que els glifs s’agrupen per sons, podem veure’n també les seves freqüències (per simplificar ho fem emprant les agrupacions del signari simplificat de cathalaunia, que no diferencia entre els sil·làbics forts o febles i que agrupa les vocals en els cinc sons habituals).

simpfreqlist

Les freqüències dels sons segons les agrupacions del signari simplificat de cathalaunia.
I la reducció posterior a 5 vocals i 7 consonants.

I en la part dreta, tenim el recompte, reduint el conjunt a només dotze categories bàsiques (5 vocals i 7 consonants), com si haguéssim repassat les transcripcions a lletres llatines que usualment es fan i agrupéssim convenientment les consonants i vocals. Aquest total lògicament varia ja que els sil·làbics es compten dues vegades (per la vocal i la consonant que els formen).

  • A       4.893
  • I        3.995
  • E       3.317
  • D/T  2.985
  • C/G  2.790
  • R       2.565
  • S        2.393
  • N/M  2.311
  • B        2.184
  • U        1.701
  • O        1.466
  • L        1.339

Una distribució que certament necessitaria d’un filòleg per comentar-la. Peró arribats en aquest punt, va semblar que seria relativament fàcil comparar aquestes freqüències amb altres idiomes moderns, de manera que així s”ha fet, i el que començà com un divertimento, acabà sent inesperadament revelador…

El que es va fer va ser: agafar un mateix text (els primers cinc capítols del Gènesi) traduït en quatre idiomes diversos: català, castellà, euskera i llatí, i compara-ne les freqüències d’aquests mateixos 12 sons/lletres bàsics de cada una de les llengües amb la del corpus ibèric. Podem visualitzar la distribució de cada idioma en una gràfica, on a cada columna tenim una lletra que mesuri el percentatge que ocupa en el seu corpus (els text bíblic per aquests idiomes, i el corpus d’inscripcions en el cas de l’ibèric). Com que l’escriptura ibèrica nord-oriental és la base que estem estudiant, les columnes de la llista anterior, segueixen el seu ordenament de major (esquerra) a menor (dreta). El resultat dels cinc idiomes és:

geu-1

Les freqüències aproximades dels cinc idiomes.
L’eix vertical és el percentatge de cada lletra en el seu corpus,

I per visualitzar millor les diferències de cada lletra de cada idioma amb l’ibèric podem mostrar sols les diferències entre els percentatges (les columnes de l’ibèric estan lògicament a 0).

geu-2

Els percentatges de diferència de cada lletra de cada idioma respecte l’ibèric.
Valors positius indiquen escreix en ibèric.

I ja posats a fer, podem mesurar el grau de semblança entre aquestes distribucions. Una de les maneres més simples de comparar dos vectors, és amb l’error quadràtic mig. Que aplicat al nostre exemple, vol dir: per a cada idioma  i cada lletra, comparem la seva barra amb la barra de la lletra de la mateixa lletra en ibèric (el gràfic anterior), convertim aquesta diferència en un quadrat i en calculem la mitja de totes les lletres de l’idioma. El resultat, ordenant les llengües de més semblants (esquerra) a més diferents (dreta) a l’ibèric, és:

geu-6

Error quadràtic mig.

O el que ve a ser el mateix, si es prefereix, podem convertir aquest error quadràtic en lineal, fent-li l’arrel quadrada i així tenir una ‘diferencia percentual mitja‘ de cada llengua vs. l’ibèric:

geu-8

Error percentual mig.

Les semblances amb l’euskera (ben documentades en la literatura sobre l’escriptura de l’ibèric nord-oriental), semblen doncs existir també a nivell de freqüència d’utilització de les lletres en la seva escriptura. De mitjana te una diferència de poc més d’un 1.5% respecte l’ibèric, mentre que el català i el castellà, es situen entre el 2,5% i el 3%, amb una lleugera avantatja per el català, però el que sembla més curiós, és que la l’altra llengua antiga en aquesta comparativa, el llatí, es mostra força més allunyat de l’ibèric que els seus presumptes descendents peninsulars.

Però podem anar més enllà i emprar un estimador de correlació més complert, que tingui en compte també la covariànçia de les dades (si la seva dispersió també és similar), com per exemple el coeficient de correlació de Pearson, i tindrem:

geu-3

Correlació de Pearson entre els % de cada lletra de cada idioma respecte les de l’ibèric.
1 = correlació perfecte, 0 = no correlació, -1 = correlació inversa perfecta.

I veurem que l’euskera arriba quasi bé al 0.9, seguit (a distància) per el català amb poc més d’un 0.6 i amb un castellà en la zona del 0.5 i el llatí per sota d’aquesta marca. Uns resultats clarament contraris a una distribució aleatòria en el cas de l’eusquera.

Certament és un experiment simple, una comparativa com cal hauria de basar-se possiblement en la distribució acurada dels sons de cada llengua i a partir de conjunts de dades més amplis. Però atès que en el cas de l’ibèric la relació glif-so es encara poc definida, i la mida del conjunt de dades disponible desafortunadament molt limitada, potser sí tingui la seva part de lògica el comparar, ni que sigui matusserament, les seves transcripcions.

Per això parlàvem inicialment de demostrar estadísticament la proximitat entre l’ibèric nord-oriental i l’euskera. Arribats aquí, no sembla pas impensable que en un atac estadístic, la comparació de l’ibèric nord-oriental amb l’euskera (fins i tot l’actual) pogués ajudar a definir components del primer, i potser així ajudar a entendre’n l’estructura aglutinant de la seva llengua.

Crec que només caldria finançament per fer la prova, les dades, les tenim…

Coda

A semblança del que va passar amb l’apunt sobre els caràcters de l’ibèric nord-oriental, la part final d’aquest apunt ha acabat produint un nou article: Vilaseca i Corbera, Joan : 2016 : “Una comparació entre l’ibèric nord-oriental, l’eusquera, el català, el castellà i el llatí”. Qui així ho vulgui, allà hi trobarà les dades i els detalls dels càlculs aquí comentats.

– Actualització 2016-XI-16 –

Els dos darrers paràgrafs abans de la Coda han estats reconsiderats a: Bascoiberisme circular?


Notes

Aquesta entrada s'ha publicat en Adolf Schulten, alfabets semisil·làbics, bascs, Carme J Huertas, Castella, català, cathalaunia.org, Celtas, celtibèric, co-aparicions, codificació, coeficient de Pearson, correlació ibèric nord-oriental - euskera, covariància, cuneiforme, David Folch, Egeu, epigrafia ibèrica, error quadràtic mig, Espanca, estadística, euskera, eusquera, Garona, Gàl·lies, grup LITTERA, Hesperia, Hiberos, Hiberus, Hispania, Ibèria, ibèric nord-oriental, ibèric sud-oriental, Iberika, ibers.cat, Jürgen Untermann, Jesús Javier Velaza Frias, Joan Ferrer i Jané, Joan Vilaseca Corbera, llatí, Manuel Gómez-Moreno, Manuel Medrano Marqués, Minoics, Noemí Moncunill, Persas, Persia, Phoenicas, Pirineus, Poenos, Serafín Olcoz Yanguas, signari tartessi, Tarragona, tartessi, UB, Uncategorized, Unicode, Vall d'Aran, variants, Varró i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s