Variabilitat sígnica de l’ibèric nord-oriental.

Havent acabat -momentàniament- la incorporació d’esquemes a les epigrafies en ibèric nord-oriental del corpus de cathalaunia.org, i abans de passar a incorporar un conjunt de glifs nous als 188 actualment existents que aquesta tasca ha propiciat, un pensament s’ha colat inesperadament en els plans d’activitat prevists i ha obligat a fer-ne cas tot alterant la planificació esperada. És el que té la curiositat: quan pica t’has de rascar. D’això parlarem aquí, i com es pot veure en el títol, té a veure amb la diversitat del signari ibèric nord-oriental.

La idea directriu del corpus epigràfic ibèric de catahalaunia.org, com també ho era del seu corpus germinal, el de ibers.cat, és reflectir informàticament la varietat del signari ibèric original i evitar estudiar les dades a partir de transcripcions del seus (suposats) sons. Na Carme J. Huertas definí originalment una codificació amb poc més de 135 glifs (la idea és assignar un número únic a cada glif), i aquesta és la que s’emprà inicialment a cathalaunia (tret d’unes poques variacions en la codificació de les discontinuïtats i dels signes desconeguts). Posteriorment, es publicà la proposta de codificació Unicode de l’ibèric nord-oriental per el grup LITTERA de la UB, que definia uns quants glifs més (metrològics, i un parell de variants)[1]. Encara en un tercer moment i a partir dels comentaris fets a una anàlisi sobre las co-aparicions de variants publicat en aquest bloc, es qüestionà la fiabilitat de les dades del corpus, motiu per el qual es decidí incorporar els esquemes, les representacions gràfiques, de cada una de les epigrafies presents en el corpus com a mecanisme de verificació pública i matar d’arrel tota possible crítica en aquest sentit.

En una primera tongada, s’incorporaren gairebé el 50% de les inscripcions i es pogué comprovar que la taxa d’errors (signes mal transcrits) era baixíssima (menys de 15 signes no coincidents en més de 1.500 epigrafies). El que també es constatà, fou la conveniència d’incorporar més variants per apropar encara més la representació informàtica a l’original, que és, com dèiem, l’ànim inicial del corpus. Les novetats tenien dues tipologies ben diferenciades: o bé eren signes desconeguts (hàpax) o bé variants noves de signes ja coneguts. Els hàpax lògicament són aparicions puntuals de signes que fan de mal interpretar, mentre que les variants a afegir, tot i ser poques, sí es poden detectar en un nombre significatiu d’epigrafies, d’aquí la conveniència de la seva incorporació. En total, s’afegiren unes desenes de signes nous fins arribar als 188 actuals[1].

En la segona i darrera tongada d’incorporacions d’esquemes feta, que ha permès superar els dos terços d’epigrafies amb verificació, també s’ha plantejat la conveniència de crear uns quants glifs nous; de nou, unes poques variants i uns quants hàpax més. Però ha estat aquí, just abans de procedir a efectuar un altre canvi en profunditat en el signari (i no és sols crear el nous signes i posar-los als llocs adients de les epigrafies, cal també ajustar totes les eines de tractament informàtic i de cerca) que la idea d’un possible mètode quantitatiu per mirar detectar variants va fer aparició i ha fet aturar momentàniament el treball. Això és el que comentarem aquí, aquest mètode i els seus resultats.

Variants

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

Concretant-ho. Podem mesurar entre quines lletres apareix, i esperar que si, per exemple, hi han vàries ‘A’s, es trobin cada una d’elles, en general, al costat de les mateixes lletres. No es evidentment un principi d’obligat compliment, res impedeix que dues lletres diverses apareixin al costat d’unes mateixes lletres, ni tampoc és una qüestió de blanc o negre, ben al contrari, la qüestió però, és que sí pot ser un indici rellevant i té la gran virtut de ser perfectament objectivable. Mesurarem doncs per cada glif, al costat immediatament de quins glifs apareix, fent parelles amb el glif anterior i el posterior. És a dir, per a cada glif anotarem quantes vegades el trobem entre una parella de glifs determinats, cosa que ens proporcionarà un vector de nombres per cada glif que podrem comparar entre ells. És en entrar als detalls que la cosa es complica…

Per començar mostrem el signari amb les freqüències de cada glif en el moment de fer aquesta prova:

ibset-6

178 glifs suposadament fonètics.
Mides alterades per mostrar gràficament la diferència entre el més freqüent amb 1565 aparicions i d’els que en sabem només 10 o menys.
En gris els glifs definits però no existents en el corpus.

En principi, si tenim uns 170 glifs, en teoria, tindríem 28.900 possibles parelles, o sigui que per cada glif, anotem quantes vegades el trobem entre cada una d’aquestes 28.900 parelles. Ara bé, el corpus total existent no passa dels 25.000 caràcters, i de mitjana, un glif hauria de sortir només unes 140 vegades, de manera que és evident que la immensa majoria d’aquestes 28.900 parelles no es donaran mai, és dir, tindran sempre un valor 0.  Per mirar de reduir aquests milers de valors a 0, es podia d’entrada ignorar els de les parelles de signes que no es donen mai en el corpus. Això ens deixa amb menys de 5.000 parelles documentades al menys un cop, un nombre encara molt gran si pensem que la majoria de signes es documenten només algunes desenes o algun centenar d’aparicions i que encara seran menys les parelles de signes entre les que es trobin.  Amb tot, era un inici, i per mirar de comparar aquestes distribucions, es pensà en utilitzar el mateix coeficient de correlació de Pearson que s’havia emprat recentment per comparar les distribucions de sons entre el català, el castellà, l’eusquera i el llatí versus el desxiframent actual de l’ibèric nord-oriental[3]. La diferència està en que allí eren uns vectors petits (de 12 valors) i amb una distribució força simple i fàcilment classificable, aquí en canvi, tenim vectors amb milers de valors a 0 i sols uns pocs valors positius, és a dir, que ja d’entrada s’assemblen molt entre ells per tenir tots molt poca informació diferenciable.

Una primera prova va mostrar que una de les peculiaritats de la codificació de cathalaunia tenia uns efectes desproporcionats. Es tractava que en el corpus es codifica tant les discontinuïtats en els suports com els signes no identificats amb un mateix codi (256), que atesa la fragmentarietat de moltes de les inscripcions, resulta ser de llarg el codi numèric més freqüent, i les parelles (abans-després) que l’incloïen eren molt determinants, sense però que aquesta informació sigui de valor per la tasca que aquí ens interessa, que és determinar quines lletres van preferentment després de quines altres. La solució ha estat salomònica: eliminar totes les parelles que continguin aquest codi. Això ha reduït el total de parelles abans-després a 4.251 i és la base inicial sobre la que es van fer les mesures.

El procediment a seguir podria ser -inicialment-:

  1. Busquem els dos glifs (X i Y) amb la distribució de parelles entre les que es troben més semblant, i si efectivament, sabem que es suposen ser variants d’un mateix signe/so, els unifiquem (per exemple, convertint Y en X o viceversa).
  2. Fet això, tornem al pas 1, fins que no hi hagin més candidats a reunificar. A veure fins on s’arriba.

El procediment era simple però implicava la seva repetició desenes de vegades i l’anàlisi dels resultats va acabar recomanant un mètode diferent, com veurem tot seguit.

Una altra de les peculiaritats de la distribució de les dades que afecta directament als resultats era la seva dispersió. El coeficient de Pearson pot detectar factors de linealitat alts entre vectors que no tenen valors en comú i atès que la majoria de glifs apareixen en poques ocasions i de retruc entre encara menys parelles, la probabilitat de detectar aquesta mena de casos era molt alta. La solució, tot i que parcial, de nou va ser salomònica, eliminar de la comparació els 59 glifs que apareixen 10 o menys cops en tot el corpus; això reduí encara més el conjunt de dades, però no n’alterava la seva tipologia general.

ibset-9

El signari ibèric amb els glifs amb 10 o menys aparicions marcats en gris.

Per mirar de visualitzar el que s’està mesurant, imaginem una matriu de 4.251 columnes i 5.886 files, és adir, de més de 20 milions de nombres, on tot són 0s excepte 10.711 caselles, un únic valor positiu per cada 2.000 0s. El que fem és comparar les files de dues en dues (per definició X vs Y és idèntic a Y vs X) i mesurar-ne el grau de correlació lineal entre elles (recordem que el coeficient de Pearson es mou entre 1=correlació lineal perfecta, 0=no correlació, i -1=correlació lineal inversa perfecta). Col·loquialment: gairebé caçar mosques.

Resultats

Feta la primera mesura, els resultats eren clars: de les 5.886 comparacions, sols 205 tenien coeficients superiors al 0.1, mentre que el valor més baix era de -0.05, amb una gran acumulació de valors al voltant de 0, com era d’esperar si pensem que estem bàsicament comparant vectors quasi nuls. Mostrem aquests 205 resultats superiors a 0.1 (ordenats de dalt a baix i d’esquerra a dreta).

pg-0

Els resultats de la mesura sobre els 164 glifs (ignorant els que apareixen 10 o menys vegades).
En vermell els glifs que actualment es consideren ser variants.
En verd parelles properes per forma o so però no considerades variants.

Veiem que efectivament, la correlació més alta correspon a un parell de variants del signe Ke (codis 112 i 118). Si apliquéssim l’algoritme anterior els unificaríem, és a dir, en comptes de 164 glifs passaríem a tenir-ne 163 (les freqüències dels glifs 112 i 118 s’haurien sumat) i tornaríem a calcular-ho tot. Però també semblava evident que amb un conjunt de dades tan dispers, passar de 164 a 163 glifs, no alteraria de forma significativa les dades, de manera que veient que efectivament les parelles de variants detectades s’agrupen majoritàriament en la part alta dels valors, es procedí a fer una simplificació més gran acceptant totes les parelles detectades amb un coeficient més gran de 0.1 (les marcades en vermell en la taula anterior). Gràficament:

ibset-3

Una primera reducció, totes les parelles de variants amb un coeficient superior a 0.1.
En petit els glifs agrupats.

Això deixà un conjunt de 118 glifs amb 3.079 parelles abans-després detectades, i 1. 953 comparacions possibles, que de nou, filtrant els valors superiors a 0.1, dóna:

pg-1

Segona comparació entre 118 glifs (ignorant el que apareixen 10 o menys vegades) .

On ja es pot veure que les parelles de variants detectades són moltes menys i ja no s’acumulen en la part alta dels valors. Si agrupem encara aquestes parelles de variants, tindrem el següent signari:

ibset-8

Signari amb la segona reducció de variants.
En vermell les variants detectades en la segona comparació.

Feta aquesta segona agrupació ens deixa amb 99 glifs, 2.555 parelles abans-després i 946 comparacions possibles. Feta aquesta tercera mesura ja no és detecta cap parella de variants amb una correlació major a 0.1[4].

De manera que el conjunt de variants detectades en aquest procediment es concreta en: 89 glifs agrupats en 24 signes.

ibset-10

Agrupacions de variants amb coeficients de correlació de Pearson superiors a 0.1.

Comentaris

Presentades les dades, el procediment i els resultats, cal abans d’acabar, comentar els resultats ja que hi ha força a dir. Per començar i abans d’entrar en les consideracions generals, analitzar amb un xic de detall els resultats amb coeficients més elevats.

Ja hem vist que el coeficient més alt sí corresponia a una parella de variants, però el segon ja no, es tracta d’una parella ‘BaTe‘ (codis 83 i 103) . Els signe Ba, no sols és el més freqüent del corpus (1565 aparicions), es també emprat com a numeral de manera que tenim grups consecutius de signes Ba en moltes epigrafies, i per tant, resulta que la parella de signes entre els que es troba més freqüentment un signe Ba, és una parella de signes Ba. Per contra, el signe Te amb forma d’un rombe partit en quatres rombes, es documenta sols en 49 ocasiones, però si mirem entre quins signes apareix, resulta que la parella més freqüent és entre signes Ba (hi han set epigrafies amb la paraula BaTeBa). De manera que ja veiem el perquè d’aquest alt grau de correlació, aquest Ba i aquest Te tenen en comú que la seva principal component és trobar-se entre signes Ba.

El tercer i quarts coeficients (i també el setè) van interrelacionats, i gràcies a aquesta anàlisi s’ha detectat la necessitat d’incorporar una nova variant en el signari que havia escapat totes les mirades fins ara. El tercer coeficient més alt correlaciona un signe Te (codi 105, 95 aparicions) i un signe Tu (codi 235, 36 aparicions). Si mirem els valors de les seves  distribucions, veurem que sols tenen en comú dues parelles (una d’elles amb el valor mínim 1, i l’altra corresponen al valor màxim de cada un d’ells (una E i una I), d’aquí l’elevat coeficient.  Però és que la quarta correlació també és respecte aquest mateix glif Tu, ara però amb un signe Ka (codi 187, 35 aparicions) i el setè coeficient tanca el triangle correlacionant el Te inicial amb el signe Ka. En l’anàlisi es veu que l’evidència compartida és similar a la ja comentada, gairebé mínima, de manera que ens troben en aquella mena de casos extrems en què la correlació de Pearson resulta poc intuïtiva; però en la taula de resultats veiem que la correlació respecte del Tu codi 245 vers al signe Ka codi 187 sí està marcada com una parella de variants, com és això? Doncs la resposta és que gràcies a aquest anàlisi ha estat possible adonar-se que de glifs amb forma de V invertida no n’hi havien dos (el més freqüent amb més de 800 aparicions, codi 57, considerat una forma del so L, i el codi 235, transliterat com un Tu poc habitual), sinó tres, amb un tercer so correlacionable amb el so Ka. com veiem. El punt està en què resulta que era una possibilitat que ja s’havia fet notar prèviament[5], en constatar que si bé el signes Ke, Ka semblen girats 90º entre sí, els primers sí tenien una forma sense travesser que mancava en els Ka: que és just el que aquest joc de correlacions delata quantitativament. L”evidència es concentra aparentment en una sèrie de monedes amb la llegenda Sekaisa però atesa la semblança formal dels signes cal preguntar-se si no hi han també altres Ls que podrien ser Ka en el corpus.

Els dos coeficients següents, els cinquè i sisè corresponen a dues parelles de variants de Ke, el setè ja l’hem comentat i el vuitè, s’assembla molt al segon, tota vegada que correlaciona un signe Ti (codi 126) amb el mateix signe Ba d’abans, i és que de nou, el signe Ti forma part dels numerals i sovint es troba rodejat de signes Ba. Les sis següents correlacions corresponen totes a parelles de variants i tindrem que anar fins la quinzena correlació per trobar una parella E (codi 42) i un Ta (codi 85) que en l’anàlisi revelen no tenir cap coeficient en comú i ser per tant un altre cas atípic.

Ara, obrint la mirada i deixant el comentari detallat, per una banda resulta notable que amb unes dades amb un tal grau de dispersió i amb un corpus tan escàs tenint en compte la seva variabilitat sígnica, s’hagin pogut detectar desenes de variants per el mètode de comparar entre quins signes apareixen, especialment si considerem que la mesura de correlació emprada (la de Pearson) presenta en aquesta mena de distribucions resultats que poden semblar contraintuïtius. Alternativament, i com indicava ja la teoria, que dos signes apareixin més o menys al costats d’uns mateix signes no implica en cap cas la seva equivalència, i a mida que relaxem el grau de correlació és del tot esperable que apareixin signes clarament diversos que sols tenen en comú el fet de figurar més o menys al costat d’uns mateixos signes, que és just el que trobem en els resultats.

Si mirem les agrupacions de variants detectades, també resulta curiós notar que si bé es detecten algunes de les variants, no és així per totes, i en concret, resulta destacable que en els signes Be, es diferencien les agrupacions entre si el signe està cap amunt o avall. Una distinció que analitzant la forma dels signes ja semblava abans rellevant si considerem que estem davant d’un signari que, per exemple, en els signes Ka, Ke, com dèiem, diferencia entre una rotació de 90º; resulta per tant estrany pensar que contràriament s’unifiquin girs de 180º. Les agrupacions trobades les separen, i encara que cal evidentment atendre a altres consideracions per desbrinar el seu desxiframent, no deixa de ser una dada a tenir en compte.

Coda

Arribats aquí, i veient que el factor objectivable que més distorsió aporta a la interpretació dels resultats és el comportament de la correlació de Pearson en dades disperses, s’ha provat un conegut heurisme que mira d’escalar els resultats segons la quantitat de valors no nuls que es comparen. La idea és que a menys factors comuns, menys factor de correlació. No passa de ser un pedaç, ja que la correlació té una explicació geomètrica ben sòlida, mentre que voler que el seu resultats s’adaptin a un cert motllo, no passa de ser un problema d’interpretació, i per tant, una simple conveniència. Amb tot, havent fet ja aquest treball, fer la prova no era complicat, de manera que s’han fet uns quants intents en aquest sentit, i ja posats a fer, s’ha aprofitat per introduir alguna petita millora en el model[6], però tot i així, els resultats no són més clars que els exposats aquí. De manera, que la pràctica aconsella donar per bona l’aproximació inicial, més simple i canònica.

Les comparacions dels recomptes de com es distribueixen els glifs, en ser mesures graduals[7], no poden donar certeses, ja hem dit al començar que era evident que lletres diferents poden tenir distribucions similars, el que sí ens aporten són dades objectives. Dades que neixen de disposar d’un corpus codificat i informatitzat amb un alt grau de semblança a l’original. Sense aquest element (actualment sols disponible a ibers.cat i a cathalaunia.org), cap treball quantitatiu podrà ser verificat independentment per tercers que és un dels requisits bàsics de la Ciència.

Lo presentat en aquest apunt és una foto puntual; com diem, s’incorporaran nous glifs (i aprofitant l’avinentesa s’eliminaran els glifs no documentats) i la codificació de les dades i per tant aquests resultats canviaran lleugerament. Hagués estat millor postposar aquesta anàlisi per després dels canvis? Potser sí, però fixem-nos que si més no per el que fa al glif amb forma de V invertida i so Ka, ha estat el fet de fer aquesta prova el que l’ha posat de manifest. I és que el procés d’adequació del signari als originals és un procés retroactiu i treballós (per exemple, caldrà tornar a repassar totes les epigrafies per comprovar que es registren  totes les aparicions dels nous glifs). Un treball de codificació i publicació del corpus resultant que sembla mentida que hagi de dependre d’iniciatives no institucionals.

– Actualització 2017-II-24 –

S’ha corregit un error de transcripció dels resultats que havia comportat que el darrer quadre amb les agrupacions resultants hi manqués informació (82 glifs en 22 grups vs. 89 en 24 en el recompte correcte).

 


Notes

  • [1] No tocarem aquí el tema de la problemàtica d’aquesta codificació, ja n’hem parlat abastament en aquest bloc.
  • [2] Cal entendre que com que la incorporació de nous glifs es fa a posteriori de la seva detecció, en els casos de variants de signes ja coneguts, es possible que no totes les epigrafies hagin estat convenientment actualitzades i que caldrà una segona repassada per incorporar-los plenament.(s’anoten i actualitzen les que es detecten un cop es fa evident l’existència del nou glif, però no les processades amb anterioritat)  Amb tot, com que en la immensa majoria de casos la diferència és sols entre una variant que ja s’assembla a l’original i una d’encara més semblant, tampoc és una qüestió especialment delicada i es pensa anar ajustant gradualment..
  • [3] Treball que també va ser publicat en aquest bloc.fa poc.
  • [4] Els resultats superiors a 0.1 d’aquesta tercera mesura es poden veure en la següent taula:

    pg-2

    Resultats superiors a 0.1 de la tercera reducció de glifs.
    Cap parella de variants conegudes detectada.

  • [5] Es pot veure si es disposen els glifs segons aparença, per exemple:
    iberglifs

    Glifs per aparença per graus de complexitat.
    En verd les mateixes figures en blau amb un traç vertical inferior afegit.

    .

  • [6] Concretament: unificar tots els glifs separadors de paraula (els formats per una columna de punts) en un únic glif, ja que no sembla que estar al costat d’un separador de dos punts ens pugui aportar cap informació rellevant diferent que estar al costat d’un de tres o d’un de quatre. I en segon lloc, un tecnicisme: mirem el glif abans i després de cada un dels signes, però que fem amb els que estan a l’inici i al final d’una inscripció? En tot el procediment explicat aquí, el que es va fer va ser inserir abans i després de cada epigrafia un caràcter 256 (el de les discontinuïtats). Desafortunadament, com hem explicat, en la fase posterior totes les parelles que contenien aquest caràcter s’eliminaven, i per tant, es perdia la informació del primer i del darrer glif. La solució ha estat inserir un espai, en comptes d’un 256. Amb tot, i com es comenta amunt, cap d’aquestes millores ha resultat tenir un efecte clarament perceptible.
  • [7] La quantitat de mesures de correlació és pràcticament infinita. El fet d’emprar una mesura de correlació lineal com la de Pearson i no d’altres més genèriques com la de Spearman (monotònica) o semblants es deu a preferir sempre que sigui possible la aproximació més simple.En altres termes, caldria donar una raó per poder pensar que una mesura més complexa seria preferible en aquest domini en particular.
Anuncis
Aquesta entrada s'ha publicat en Carme J Huertas, cathlaunia.org, coeficient de Pearson, coeficient de Spearman, comparació de variants, detecció de variants, epigrafia ibèrica, grup LITTERA, ibèric nord-oriental, Iberika, ibers.cat, Signari ibèric, UB i etiquetada amb , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s