Variabilitat sígnica de l’ibèric nord-oriental (2).

El mes passat fèiem un apunt per comentar uns experiments per mirar de detectar les agrupacions sígniques en l’ibèric nord-oriental. És el cas ara de tornar-hi per exposar una sèrie de conceptes que es van ometre allí i que en una revisió més treballada creiem que poden ser d’interès.

No es cap secret que cathalaunia.org neix del creuament de dues disciplines aparentment diverses: Història i Computació. La primera aporta els continguts i la segona els mètodes, i sent un web dedicat exclusivament a la presentació de dades, omet volguda i sistemàticament publicar qualsevol mena d’opinió i/o comentari (quan resulta inevitable s’etiqueta específica i explícitament com a tal), per complementar-ho, existeix però aquest bloc, per poder donar expressió als molts aspectes relacionats amb el web i la seva confecció que no tenen lloc en ell. Un d’aquests usos, és de fer de bloc de notes públic d’algunes de les recerques que es duen a terme, aquest és l’aspecte que farem servir aquí. En concret, no tant per comentar alguns dels experiments fets, com fèiem en el post anterior, sinó per anar un pas més enllà i reflectir la recerca a mida que es va fent. Dit altrament, tenim una idea general a seguir, però no sabem en començar a escriure això quin serà el contingut final d’aquest apunt. Creuem els dits…

Parlàvem de la Computació com quelcom substancial en la confecció de cathalaunia.org[1], perquè així com la Història i en general les Humanitats són ben conegudes del públic i tothom te una imatge més o menys aproximada dels seus professionals i del què comporta la seva dedicació, això no és tan així per el que fa als professionals del món de la Computació. Una de les característiques habituals de la gent que es dedica a la programació, és una mirada naturalment analítica que cerca de forma inconscient els patrons en la realitat percebuda i que usualment mira de comprendre la realitat de lo general a lo particular. Noció, que evidentment, ni és ni nova ni exclusiva de la Computació (en el fons, estem parlant de Plató) però sí és d’efectes ben reals i quotidians, encara que usualment passin desapercebuts.

En el cas que ens ocupa, aquesta mirada analítica subjacent, es furtà en l’apunt anterior perquè no arribà a cap resultat significatiu però en canvi serà la idea directriu d’aquest exercici. La idea germinal era posar a prova un possible mètode quantitatiu de detecció de les ‘variants’ de l’ibèric nord-oriental. Dèiem llavors:

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

El que es callà és que prèvia i subjacent a aquesta formulació  hi havia una concepció analítica, matemàtica. Específicament:

En la mesura en què la noció que la semblança de les distribucions dels glifs indica pertinença a un mateix caràcter sigui certa, es podria disposar una xarxa, un graf, amb un node per a cada glif i connectar-los per els factors de ‘proximitat de distribució’, i a partir d’aquí, emprar les tècniques d’anàlisi per detectar-ne les agrupacions.

La idea resulta especialment atractiva a una ment analítica perquè cerca una solució general o ‘lliure de domini’ a un problema específic d’un camp del coneixement allunyat del de la computació[2]. Ara bé, hi han un mínim de tres consideracions ‘del domini’ que treballen en contra d’aquesta ideació:

  1. Una primera i estructural, és que certament diferents lletres poden aparèixer entre els mateixos caràcters. En la mesura en què això sigui cert, el graf agrupara no lletres iguals sinó dispars, i per tant, els resultats seran inconclusius.
  2. La segona, també estructural, però en aquest cas, específica de l’ibèric nord-oriental, és l’evidència que existeixen  glifs aparentment idèntics però que representen sons variats, per exemple: els que tenen forma de V invertida, que tan poden ser L, Ka o Tu. En la mesura que el mateix passi en altres glifs i encara no s’hagi detectat, tindrem que aquest glifs actuaran com la suma dels seus sons, i per tant, també difuminaran l’estructuració interna del graf.
  3. El darrer element que juga en contra de la idea original és la migror de les dades. Tenim un signari amb 200 glifs i un corpus d’uns 25.000, això faria un mitjana d’un centenar de casos de cada glif, però a més, la distribució és força irregular, de manera que per unes desenes de glifs tenim centenars i fins i tot algun miler d’exemples d’utilització, però per a la majoria, en tenim encara no unes poques desenes. Això implica que per a la majoria de nodes del graf, els factors de connexió amb la resta es basen en una evidència gaire bé marginal, i per tant, poden introduir un nivell significatiu de soroll en l’esquema general.

En l’apunt anterior, la idea de modelar el problema a partir d’un graf, es va obviar perquè les resultats van ser poc clars, i perquè la dispersió de les dades, derivada de la curta mida del corpus,  es revelà com el primer factor distorsionant. De manera, que el nasqué com un mètode per detectar quantitativament variants, es reduí a una manera de mesurar objectivament l’evidència de les agrupacions que els filòlegs han definit fins el moment. En la part final, es declarà que s’havien fet algunes proves per alleujar el problema de la dispersió però sense cap resultat significatiu. És el cas de tornar-hi aquí, per dos motius afegits: una millora interessant en aquest aspecte, i per què tal i com s’anunciava allí, el signari ha estat ampliat (dels 188 signes s’ha crescut fins els 207) i el corpus ja en reflecteix els canvis[3].

En un post normal, presentaríem els resultats de les proves i mesures fetes amb el nou corpus i les metodologies millorades, en aquest però, començarem per dir que fetes unes primeres mesures, s’ha pensat que seria millor provar les idees no sols sobre el cas problemàtic de l’ibèric, sinó sobre un corpus alternatiu i més ben conegut, per tal de mesurar la bondat dels nous procediments i intentar separar l’evaluació dels mètodes del de les dades. Dit altrament, miren primer un exemple conegut, per mirar de calibrar l’eina i les seves capacitats, i després ja veurem que ens apareix en l’objectiu real.

Per fer la prova tenim els corpus alternatius que es van emprar fa uns mesos en comparar la distribució de sons del desxiframent actual de l’ibèric nord-oriental amb altres llengües, i per comoditat, empraren el corpus català, que recordem, no és altra cosa que un fragment del Gènesi de mida similar al volum del corpus ibèric. De manera que agafarem els primers 15 capítols del Gènesi, posarem un verset per línia, convertirem cada lletra a un número i analitzarem quins números apareixen al costat de quins altres. L’únic coneixement del domini que emprarem serà reduir tots el signes no sonors a un  únic valor, diguem-ne ‘puntuació’, que és una simplificació que podem fer amb certes garanties també en el corpus ibèric. Tenim molta cosa a comentar…

L’exemple del català

En el corpus català tenim un total de 31.624 lletres, amb 58 signes diferents entre majúscules, minúscules i accentuades, registrem entre quines lletres es troben cada un d’ells, comparem les distribucions resultants amb el coeficient de correlació de Pearson, i creem el graf resultant. En lo que segueix, i a semblança del que ja s’ha emprat en altres apunts d’aquest bloc, farem servir per manipular els nostres grafs el programari gephi.

El primer que cal fer és presentar breument les eines d’anàlisi de xarxes que farem servir que són bàsicament dues: la seva disposició espacial i la seva modularitat. El primer considera les connexions entre els nodes com forces atractives/repulsives, i el que fa és: a partir generalment d’una disposició del nodes inicialment aleatòria, cercar una distribució que minimitzi les disparitats entre els factors de connexió i la separació entre els nodes[4]. El segon, és de natura purament topològica i cerca definir els grups de nodes que presenten una taxa d’interconnexió superior a la resta del graf. No entrarem a parlar en profunditat sobre la natura i l funcionament d’aquests mètodes (tot i que és un tema apassionant), per dos motius, ni és el lloc, ni les eines disponibles permeten gaires opcions. Anant a lo concret, per el que fa a la disposició espacial (en 2 dimensions, per poder-ho representar gràficament de forma fàcil), s’empraran els algoritmes ForceAtlas o ForceAtlas2, i per el que fa a la Modularitat, gephi aporta un únic algoritme, ben conegut, i atès que és una mesura relativa i que permet diferents graus d’agrupació el que farem és realitzar tot una sèrie de mesures en aquesta gradació natural (pensem que en un extrem, tots el nodes connectats d’un graf es poden considerar un únic grup, i en l’altre, cada node pot formar un grup propi). La mida dels nodes representarà la suma de les correlacions vers les altres lletres, i cada graf es presentarà en format gràfic (jpg) i en versió svg, que permet un zoom discrecional a gust de  l’usuari.

De manera que en el corpus català, en una primera disposició tenim 58 lletres/nodes connectats cada un d’ells amb tota la resta, és a dir, un graf amb 58 nodes i 1.652 connexions. Si mirem els factors de correlació (les connexions) veurem que segueixen d’aprop els resultats que es detectaven el cas del corpus ibèric: un factor màxim de 0.76, un mínim de -0.06 i amb poc més de 400 valors superiors a 0.1, és a dir, amb una majoria de valors al voltant del 0 (recordem que el factor de correlació de Pearson es mou entre 1 i -1). El fet que cada node es connecti a tots els altres fa que topològicament sigui una xarxa molt regular, sols els diferents valors de les connexions aporten factors de diferenciació. I en aquest sentit, el fet de tenir factors negatius, fa que la seva representació gràfica amb els algoritmes ‘de força’ sigui complicada, ja que tenen tendència a donar disposicions molt disperses. Finalment, amb l’algoritme ForceAtlas i ajustant els seus paràmetres s’ha pogut generat una disposició mínimament aprofitable.

58 lletres, 1.653 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

On podem veure clarament un grup en la part superior format per les consonants, amb les majúscules en la part superior i les minúscules en la part inferior (recordem que en el text del corpus les majúscules segueixen l’ús habitual, en inici de frase o de nom propi).  Més enllà d’aquest grup, podem observar a l’esquerra un grup dispers format bàsicament per les vocals en majúscules i en la part inferior esquerra un d’encara més dispers amb les vocals en minúscules. S’aparten d’aquesta descripció bàsica en la part superior la Q i la q, que apareixen en la part superior, i les u, ü i ú, que s’apropen més al grup de les vocals majúscules que no pas a les de les minúscules. Sembla lògic pensar que tal disposició és deguda a que les velars acostumen a anar seguides de u, i en la lluita per situar-se, les primeres han hagut d’anar a la perifèria mentre que les segones han hagut de cercar un equilibri entre acostar-s’hi i no separar-se de la resta de vocals. Ara, també sembla ben evident que les agrupacions per distribució de forces no van gaire més enllà d’evidenciar la diferenciació entre majúscules/minúscules i vocals/consonants, cosa que pot semblar poc important, però si pensem que el resultats no depenen d’informació filològica, sinó estrictament numèrica, distribucional, tampoc està tant malament.

Mirem ara l’altra estimador, la Modularitat. En la implementació de gephi, l’algoritme disposa d’un paràmetre per graduar al grau de granularitat que es desitja, diguem-li P (1, per defecte, major per tenir menys grups, menor per detectar-ne més). No tenint a priori cap pauta específica per fixar el seu valor, el que farem serà aplicar-lo de forma sistemàtica: amb dècimes entre 0.1 i 1 i un cas de valor 2 afegit. Per tal de visualitzar els resultats, sobre la mateixa disposició espacial, cada grup detectat tindrà un color propi (el programa els assigna aleatòriament). Anant de menys grups a més:

P=2. 2 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un valor P de 2, tenim que es detecta un grup (en vermell) format sols per vocals i un altre (en blau) per a la resta de lletres, que inclou les consonants més les vocals i, ï í, u, ü i ú més la à i la ó, situades a mig camí del grup consonàntic.

P=1. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el nivell de partició per defecte (P=1), tenim un grup blau format per les consonants en majúscules (exclosa les B i X i inclosa la q), un grup verd format per vocals (tret de la ü, u, ï i ó) i un grup vermell amb les consonants en minúscules (més les sis excepcions ja descrites).

P=0.9. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.9 els grups ja són quatre i corresponen a grosso modo amb l’encreuament de vocals/consonants i majúscules/minúscules, però amb excepcions interessants. Els grups de consonants del graf anterior (blau i vermell) bàsicament es mantenen, però el de les minúscules perd les us que passen al grups de les vocals en majúscula (en lila) i la i, í, à, ç, i la j, (aquesta especialment curiosa per la seva posició central en el grup de les consonants) que val al grup de vocals en minúscula (en verd).

P=0.8. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixar el factor a 0.8 no incrementa el número de grups però si n’altera significativament la seva disposició, cosa que fa pensar que l’estructuració interna de les dades no és simple. De fet, hem tornat a la partició en tres grups del P=1, però amb un grup nou format per: u, ü i s, i amb una ó que ha passat, ara sí, al grup vocàlic.

P=0-7. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.7 el nombre de grups creix a 5, però més que res, a base de subdividir les consonants en minúscules, mentre que les vocal encara conserven un gran grup.

P=0.6. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Per sota de 0.6, la fragmentació de les consonants i de les vocals ‘a mig camí’ anirà en augment fins arribar als 23 grups amb un factor de 0.1, sense que sigui evident cap raó extracomputacional que justifiqui la separació en tals grups (potser un filòleg hi pugui veure més…).

P=0.5. 14 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg..

El que sí és manifest que es manté en tota aquesta gradació és la presència de dos grups vocàlics, un especialment ben definit per a les majúscules i un de més variable per el que fa a les vocals en minúscula.

De moment, veiem que en el cas del català, una mesura segons el coeficient de Pearson tradicional ens detecta la separació entre vocals i consonants i entre majúscules i minúscules i poca cosa més. De moment, la cosa no pinta gaire bé per el que fa a separar variants segons la seva distribució…

Però també és evident que el corpus català és força diferent de l’ibèric; minúscules i majúscules tenen rols ben diferenciats i els signes són unívocs (no hi ha -gaire- superposició de rols entre les lletres). L’ibèric sembla molt diferent, ja que en teoria presenta més d’una i més de dues maneres d’escriure una mateixa lletra i a penes fa servir la separació per espais (si però la de puntuació). El que farem serà ‘iberitzar’ el corpus català. Ho passarem tot a minúscules, eliminarem els espais, i de forma aleatòria, introduirem fins un màxim de tres variants de cada lletra, és a dir, tindrem fins tres  as (etiquetades com: a, a+, a-), tres bs, etc.

El resultat és un graf plenament connectat amb 102 lletres/nodes i per tant, amb 5.152 connexions (correlacions entre signes), un valor màxim de connexió de 0.7, un mínim de -0.11 i amb un miler de connexions per sobre d’un 0.1 i gaire bé la meitat amb valor negatiu.

102 glifs, 5.152 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

La disposició espacial del graf és francament pobre. En el cas anterior, jugant amb els paràmetres encara s’havia pogut trobar una configuració raonable, en aquest, i probablement degut a la influència dels valors negatius, els algoritmes oscil·len salvatgement entre unes disposicions estiradíssimes, que fan de molt mal llegir o únic amàs molt regular; finalment, ha semblat millor capturar un dels moments intermedis.

A l’extrem dret tenim majoritàriament les vocals sense accent, i en el grup principal es poden discernir sense massa esforç a la banda esquerra les consonants continues, a la dreta les vocals accentuades i en mig les oclusives. De fet, no és pas gaire difícil veure que les ternes de variants introduïdes artificialment en el corpus sí s’ajunten entre sí en el graf. En l’extrem dret, tenim les variants de a, e i o. En la part dreta de l’amàs gran, troben les is i en la d’abaix, les us. En l’extrem esquerra del graf, les ms, ns, ss, ls, rs, en la part dreta les és, òs, ós. Mentre que en la part central les oclusives són les que mostren una agrupació més laxa. El que no fa el graf és individualitzar els triplets de cada lletra. En conjunt, doncs diríem que encara que en la disposició espacial el dibuix és força desagraït, sí sembla evident que la organització quantitativa mesurada per la correlació de Pearson sí és capaç de reflectir realitats de caire filològic. Mirem a veure que tal respon amb les mesures de modularitat.

P=2. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el coeficient més elevat, es detecten tres grups que corresponen a les us, excepte les d’accent tancat (en vermell), a la resta de vocals més les ys i les qs però sense les ós i les ïs (en verd) i en blau la resta, tot consonants tret de les excepcions enumerades.

P=1. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el valor per defecte de 1. l’algoritme detecta 5 grups. En vermell els triplets de n,l,s,u,ü,ï i ú. En rosa, els de m,d,b,r,t,x,q,g,ó,f i dues de les z. En verd, els de p,v,c,h,ç,i,j i una ú. En groc un grup dedicat a les ys. I en blau els triplets de les altres vocals. És de remarcar que en les agrupacions de detectades es mantenen junts els triplets de les variants, tret d’unes poques excepcions.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A 0.9, es detecten 7 grups. En blau clar els triplets de n,r,l,s,u,ü,ï, dues de les ús. En rosa, les d,m,p,t,f,b i dues de les zs. En blau fosc, les v,c,h,j,ç,à, una de les z i una de les ú. En verd fosc, els triplets de g i q. En groc els de y i é. I en verd clar els de les vocals a,e,o a l’extrem, i i,è,ò,í a tocar de l’amàs gran. Els triplets es continuen mantenint agrupats, tret dels cas de les zs i ús, que són lletres certament poc freqüents.

Si mirem de resumir la seqüencia que continua, direm que les tripletes es mantenen unides fins el factor de 0.4.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Aquí tenim 17 grups on 10 d’ells corresponen als triplets aïllats de: l,r,m,v,c,t,f,b,p, i y, més un grup per les ss i una de les ús. Un gran grup per les a,à,ç,e,é,è,i,í,o,ò i una de les js.  Un per les d i zs. Un per les ï,n i una de les ús. Un per les ó i x. Un per les g,q i un per les l,u i ü. I finalment, un per les h, més un parell de js i una ú.

Per sota de 0.4, continuen creixen el nombre de grups però a costa ja de partir els triplets de variants.

P=0.3. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Resumint i simplificant: mesurant per el grau de correlació de Pearson, en el cas el català ‘iberitzat’ es poden arribar a detectar aïlladament les variants de les consonants continues i de les labials, les vocals es detecten com a grup, no individualment i les velars es detecten però no es distingeixen entre elles. No està gens malament, però cal recordar que això passa en un corpus amb un grau de dispersió menor que el que es vol estudiar, i per tant, potser menys afectat per el soroll d’una pluralitat d’evidències disperses. Mirem d’anar més enllà.

Dispersions i confiances

Fins aquí, hem estat fent proves amb un corpus, el català, de poc més de 30.000 lletres, que en les seves dues caracteritzacions estudiades (l’original, amb majúscules i minúscules i 58 glifs, i l’iberitzat, sense caixa diferenciada, sense espais i amb fins a tres variants de cada lletra, amb un total de 102 glifs) té un grau de dispersió menor que l’ibèric que per un signari de 200 glifs només disposa d’un corpus de 25.000 lletres. Un dels efectes de la dispersió, si estem utilitzant la correlació de Pearson és que molts valors esdevenen correlacions negatives i a més fets a partir de molts pocs valors. En la part final de l’apunt anterior es va comentar que s’havia intentat un heurisme conegut per tal de mitigar aquest casos però que el seu efecte no havia estat satisfactori. Ara és el cas d’incorporar les millores pensades en aquest aspecte.

La idea general, de nou és força simple: valorem cada factor de correlació entre dos glifs o lletres segons el nombre de parelles comuns entre les que apareguin.

Podem visualitzar-ho com dos segments rectilinis, un per cada lletra. Suposem que el glif X, es detecta entre 20 parelles de signes i que el glif Y ho fa entre 30 i que ho fan conjuntament en 10 parelles. En aquest cas, el nombre total de parelles amb evidència serà de 40 (20+30-10), o geomètricament: els dos segments es sobreposen en 10 unitats. Imaginem ara un altra cas, on els glifs A i B es detecten cada un entre 20 parelles, però amb 18 d’elles comunes. El factor de correlació entre XY, tenia un 25% de factors en comú (10 de 40) i el de AB en tindrà un 81% (18 de 22). Sembla raonable pensar que si dos glifs apareixen entre les mateixes parelles de signes, la seva mesura sigui més ‘fiable’. Entenguis bé, la correlació pot ser alta o baixa, el que estem introduint és un factor de ‘confiança’ en la mesura. De manera que podem multiplicar la correlació de Pearson entre XY per el percentatge de parelles comunes, diguem-li E; sent un factor normalitzat a 1, el seu efecte numèric serà deprimir el valors però no en canvia ni el rang ni el signe.

Però si ho pensem una mica més, també veurem que no hauria de tenir el mateix valor o generar semblant confiança dos percentatge de parelles comunes iguals (per exemple entre CD i entre VW) si la primera es basa en tenir 2 parelles en comú i la segona en tenir-ne 30. Eś a dir, la magnitud també hauria de tenir-se en compte, i per poder-la normalitzar entre 0 i 1, podem escalar-la segons el valor màxim que es doni en el corpus, diguem-li: Q.

Així que tenim dos coeficients de ‘confiança’, el percentual E i el de quantitat Q, una manera típica de combinar dos factors normalitzats, i molt emprat en problemes classificació estadística, és la anomenada F-mesura, diguem-li, F, que les combina així: F=(2EQ)/(E+Q). Funció que dibuixa una superfície corba on només es donen valors alts si els dos factors, E i Q són alts.

La idea va ser doncs multiplicar la correlació de Pearson per aquests factors, fent una primera prova per E, i una de posterior per F. En teoria, la de F hauria de ser preferible (la de E ignora les magnituds i pot ser fruit d’una evidència marginal), però aquestes primeres temptatives sobre el corpus ibèric van revelar que E s’ajustava millor a les evidències conegudes…?! Raonant sobre aquesta aparent contradicció, l’explicació que sembla més probable és: la dispersió de les dades fa que moltes correlacions tinguin un nombre baix de parelles comunes, és a dir de factors Q baixos, de manera, que tot i haver-ho dissenyat per mitigar els efectes de la dispersió, la mesura F l’hi torna a donar un paper predominant; d’aquí probablement que l’ús de E sembli tenir millors resultats en la pràctica.

Però l’ús d’aquests factors de ‘confiança'(ja sigui E o F) té un efecte profund sobre el graf resultant, ja que si dos glifs no tenen cap parella en comú, la correlació serà de 0, i per tant no hi haurà connexió entre ells. A més els valors es veuran disminuïts per els coeficient de confiança, i per acabar-ho d’adobar, en les probes s’ha vist que el programari gephi no discerneix en les connexions més enllà de les mil·lèsimes, de manera que finalment s’ha dissenyat un sistema que permeti filtrar les connexions per sobre d’un cert valor de tall. Tot plegat, fa que ens podem trobar amb nodes sense cap connexió (pensem en els casos dels hàpax), així que a partir d’ara tindrem grafs amb connexions positives però baixes i de topologia no del tot regular (això es posa interessant…).

Començarem per comparar com es comporten E i F en el corpus català, i com que l’objectiu és aplicar-ho després al corpus ibèric, ho farem amb la seva versió ‘iberitzada’ de tres variants per lletra.

Confiança E

Provem primer amb el factor de confiança E, (i per defecte, amb el factor de tall del propi programari de gephi, 0.001). El resultat és un graf amb 99 lletres en comptes de les 102 ‘variants’ que teníem abans (s’han perdur per manca de connexions positives superiors a 0.001, dues ús i una ó) i ‘només’ 1.297 connexions en comptes de les més de 5.100 dels grafs plenament connectats que hem estat provant fins ara. Les connexions es mouen entre un màxim de 0.46 (aquí es veu l’efecte depressiu de la mesura de confiança) i el mínim prefixat de 0.001 amb poc més de 60 connexions per sobre del 0.1 i una gran majoria en valors baixos.

99 glifs, 1.297 connexions positives i superiors a 0.001 del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Com es pot observar, a diferencia del graf anterior, aquest presenta una estructuració força més clara i fins i tot es poden apreciar ternes de variants aïllades. L’agrupació de la part superior correspon a les consonants (amb n,s,m,r,t,d,v i l en la part nuclear i f,b,p,q,h i j en la corona superior, i  z,y,ç,x i ó,u,ï disposades en franja en la part central del graf), mentre que el gruix de les vocats es troben en la part inferior i no agrupades en un únic amàs, tot i que sí es distingeix clarament l’agrupació de les variants de a,e, i o, i aïlladament, les i , les ü i finalment un grup dispers formats per les variants de è,é,à,ò i í. Sembla innegable que l’estructura espacial del graf reflecteix informació de natura alfabètica Passem a la Modularitat.

P=2. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

En el nivell d’agrupació més alt (P=2) tenim un grup amb les ternes de u i ü (en groc), un per les de la q (en lila), un ‘estrany’ només amb una variant de ï i una de ú (en vermell), i dos grups grans: un de consonants (en verd) que les conté totes, tret del grup de les q i una variant de ç però que també abraça les dues ós. una variant de ï i les ys. I finalment un grup de vocals (en blau) que també les conté totes tret de les ja esmentades en els altres grups però també incorpora una variant de ç.

P=1. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el factor P a 1. l’estructuració anterior es manté idèntica però apareix un grup partint les consonants (en vermell) que diferencia les ternes de m,r,s,l,n amb una variant de z i una de ï; de nou, categories d’àmbit fonètic detectades numèricament gaire bé de manera exacta.

P=0.9. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixant P a 0.9, apareixen nous grups de ternes. Es mantenen els grups de les us, el dels qs i l’estrany d’abans (en morat, blau clar i verd-groc) , però els altres grups es veuen alterats. En les vocals apareix un grup per a les ternes de a, e, i, o i è (en vermell) i la resta del grup vocàlic d’abans (ara en verd) s’expandeix per incorporar la terna de les y i dues de les ç. I en la part de les consonants, si abans s’havia partit en dos, ara ho ha fet en tres. El gros, (abans en verd ara en ocre), un (en rosa) per les ternes de ts i ss més una variant de f,z, i g, i un tercer grup consonàntic amb les ternes de l,m,n,r i una variant de j i una de ï.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P a 0.8 es manté la divisió en 8 grups. El canvi principal és que el grup que abans tenia les as,es,etc (en lila) ara incorpora també la terna de les és i dues de les às. I en la part consonàntica el grup de ts i ss (en blau fosc) es perfila millor reduint-se a les seves ternes i una variant aïllada de z.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7 eleva en nombre de grups fins a 10. En les vocals, el grup (en rosa), de les as i es, torna a perdre les és i às que havia guanyat en el nivell anterior, i l’altre grup de vocals (en vermell clar) torna a perdre les ys i una variant de ç. Es mantenen els grups de les us, les qs i l’estrany, mentre que els nous grups apareixen en les consonants. Ara tenim un grup (en vermell) per la terna de les ss mes una de les zs, un per les rs (en groc), un per les ternes de m,n i l (en blau clar) i dos grups grans més dispersos: un en blau focs amb les ternes de d,c,p,b,j i dues de les variants de f i de g. i l’altre (en ocre) amb les ternes de t,v,x,y, parelles de çs, ós i zs i una variant aïllada de f i de g.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P=0.6 el nombre de grups creix fins el 15, però comencen a aparèixer agrupacions inesperades. Els grups petits i els de les vocals es mantenen (tret del de les accentuades que perd una variant de à), però entre les consonants, si bé es continuen detectant grups basats en ternes, apareixen un parell de grups no menors que agrupen ‘menes’ de variants: en taronja tenim un grup amb la variant sense marca de b,c,d,f,g,h i j, i en verd clar un amb les variants del signe + de b,c,d,f,g,h més una variant de ç. Amb tot, la resta de consonants sí presenten agrupacions més a o menys clares. Un grup (en rosa) amb les ternes de l i m. El grup de les ss i una de les zs. Un per les qs, un per les ps, un per les ns, i un grup amb les  ys, ts més una variant de c,f,i g. Ara, que la modularitat detecti agrupacions per menes de variants és extraordinàriament significatiu, tota vegada que és una regularitat introduïda artificialment en el procés de creació de tals variants, ja que s’ha mirat de tenir quantitats similars de cada mena (en el moment de convertir de lletres a codis, per a cada lletra s’ha llençat – metafòricament parlant – un dau de tres cares i s’ha assignat la variant d’aquella lletra en particular al seu resultat). En altres termes, que la modularitat detecti aquesta regularitat induïda, vol dir que ha de ser superior a la pròpia de les distribucions, i si tenim en compte que aquesta regularitat no afecta a la aleatorietat de la seva distribució, això vol dir que estem mesurant soroll, caçant mosques – metafòricament parlant – i que incrementar la sensibilitat de la modularitat aportarà més grups però no més informació, i efectivament això és que el tenim per sota de P=0.6.

P=0.5. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 18 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 21 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 24 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Podríem pensar que és una limitació pròpia del mètode, però vèiem que en la mesura per correlació de Pearson ‘pelada’, si es podien arribar a detectar un nombre no pas petit de tripletes sense que la regularitat de tenir parts iguales de cada mena de variant semblés afectar. És llavors que revisant aquest darrer pas, que s’ha considerat que de fet, hem aplicat un canvi doble: emprar el factor de confiança E, que certament disminueix els coeficients, però també l’eliminació de coeficients inferiors a 0.001 per la limitació de l’eina de grafs que estem fent servir, però potser hem anat massa lluny, i la informació de les correlacions negatives sí siguin necessàries per la detecció per la modularitat. De manera que cal provar que passa si només evitem les connexions entre +0.001 i -0.001. Si feta la prova, la modularitat presenta la mateixa limitació, indicarà en principi que hem topat amb un límit del mètode d’aplicar el factor E (a menys que sigui l’atenuació del coeficients la responsable, però costa creure que sigui un problema d’escalabilitat).

El resultat és un graf amb els mateixos 99 nodes/variants però amb 1.628 connexions. El fet de tornar a incorporar connexions negatives aporta el problema de l’estabilitat de les disposicions per ‘distribució de forces’, per això, aquest cop ens hem decantat per la variant ‘regular’ de l’algoritme.

99 glifs, 1628 connexions del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Un simple cop d’ull permet veure que la majoria de ternes es disposen certament properes entre elles, encara que no individualitzades (com ja vèiem en la mesura per Pearson pur). Per no repetir la descripció detallada de l’evolució dels resultats de la partició per modularitat, diem que tot i tenir 400 connexions negatives més que el previ, respon de forma gaire bé idèntica al anterior. Entre P=2 i P=0.5 detecta agrupacions clares de ternes de vocals i consonants.

P=2.. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1.. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9.. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8.. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7.. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6.. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

I quan arriba a 0.6 apareixen els mateixos grups no de ternes sinó de ‘menes de variants’, i així continua fins P=0.2, mantenint bé sí algunes ternes però amb presència de grups espuris, i a P=0.1 es trenquen també algunes de les ternes que s’havien mantingut estables en tota la gradació.

P=0.5.. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4.. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3.. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2.. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1.. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

O sigui, queda clar que no és el fet d’incorporar o no les connexions negatives les que produeix aquest efecte de ‘barrera’ en la modularitat si apliquem el factor de confiança E.

Confiança F

Provem ara doncs el factor F (amb connexions superiors a 0,001, ja que sembla que no afecta de forma significativa la pèrdua de connexions negatives i sí produeix unes disposicions espacials més expressives) i si ens tornem a trobar amb aquest fenomen en la modularitat, caldrà pensar que es tracta d’un efecte de la depressió en la magnitud del valor de les connexions que provoquen aquests factors de confiança. En aquest sentit, el graf redueix encara més el nombre de nodes/ lletres i el deixa a 94 ja que s’han quedat sense connexions ï-,ó-,z,z+,z-,ú,ú+,ú- (com dèiem, el factor F sols dóna valors alts si E i Q són alts, i per tant, en general te un efecte depressor més intents) i amb un total de connexions superiors a 0.001 de 1.274, i és el següent:

94 glifs, 1274 connexions superios a 0.001 del corpus català iberitzat i modulat per el factor de confiança F i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Quina diferència!!! Aquest graf d’aspecte anodí, mirat amb cura revela ser extraordinari. No sols presenta la més clara separació entre vocals i consonants (i entre menes de vocals i de consonants) calculada fins ara, és que presenta TOTES les ternes de variants correctament agrupades i properes entre elles (tret de la variant ò que està lleugerament més allunyada de les seves companyes). Quelcom més que remarcable. Aquí tenim un corpus de 30.000 lletres, amb un signari de 102 glifs però 34 caràcters, reduït a un esquema que en retrata perfectament més del 90% en la seva disposició espacial calculada exclusivament a partir de les semblances entre les seves distribucions. Només per aquest graf ja paga la pena tota la feina feta fins aquí!

Però mirem si la modularitat pateix o no d’aquell efecte barrera que es donava amb el factor E. Per tal de no repetir la descripció de cada nivell de granularitat es fixarem especialment en si les grups que marca parteixen o no ternes de variants.

P=2.0. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A P=2, tenim 5 grups, separació vocals/consonants en grups grans, grups petits coherents, 1 terna partida (la de la ò), 1 terna individualitzada.

P=1.0. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1. Igual, amb més grups coherents, 1 terna partida, 1 terna individualitzada.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9, mateix nombre de grups, partició lleugerament diferent, 1 terna partida, 1 terna individualitzada.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8, 8 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.7. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7, 12 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6, 15 grups, tots coherents, 1 terna partida, 5 ternes individualitzades.

P=0.5. 16 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5, 16 grups tots coherents, 1 terna partida, 7 ternes individualitzades.

P=0.4. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4, 19 grups tos coherents, 1 terna partida, 9 ternes individualitzades.

P=0.3. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3, 23 grups, 5 ternes partides, 11 ternes individualitzades.

P=0.2. 26 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2, 26 grups, 5 ternes partides, 14 ternes individualitzades.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1, 31 grups, 8 ternes partides, 9 ternes individualitzades.

Ni rastre de les agrupacions per menes de variants, i a més, un comportament magnífic fins els nivells de granularitat més elevats (fins 0.3 es manté una única terna mal detectada, que ho és en tots en nivells provats i que fa pensar en una situació particular com també presenta la seva disposició espacial lleugerament desviada) i tot i que les deteccions directes de ternes aïllades per modularitat són modestes, és a dir, que la majoria ajunta en un mateix grup més d’una lletra, el fet rellevant és que les particions rarament trenquin les ternes, i per tant dibuixin grups que es poden analitzar bé.

Arribats en aquest punt, queda clar que la correlació de Pearson modulada amb el factor de confiança F i eliminant les correlacions negatives dóna en aquest corpus uns resultats extraordinaris. Ara, la pregunta és: com es comportarà amb el corpus ibèric que és bastant mes dispers? Però aquest apunt ja s’ha fet massa llarg de manera que el tanquem i n’obrirem un altre per comentar-ne els resultats a mida que es vagin produint.

– Actualització 2017-III-14 –

Encara que ja s’està escrivint el tercer apunt d’aquesta inesperada sèrie, ha semblat convenient afegir el que segueix a aquest per què expandeix els seus continguts i per claredat en l’exposició.

Les divisions per modularitat que s’estan emprant en aquestes proves generen una gran quantitat d’informació, que resulta difícil de captar en conjunt. El dibuix del graf per codis de colors és molt útil per una partició en concret, però no per una mirada en conjunt. Rumiant com fer visible aquesta superposició de particions, s’ha dissenyat un mètode que pot ser d’utilitat en la problemàtica concreta que estem tractant aquí.

Per variar, la idea és simple: Si fem un conjunt concret de particions,  ens podem situar en cada un dels nodes del graf, apuntar amb quins altres nodes es veu ajuntat en cada una d’aquestes particions i així construir una llista de nodes ‘propers’, cada un amb una quantitat concreta de grups on es documenta.

En el cas que ens ocupa, hem fet fins a 11 particions, el que farem serà presentar la llista de nodes de cada graf d’aquest apunt, i per cada un, al seu costat els nodes més ‘propers’ (es a dir, de tota la llista, sols els que tenen el nombre més alt de particions en comú). En vermell, anirà el nom del node, i en negre els nodes acumulativament més propers (a més, la mida del font reflectirà també aquesta quantitat).

Per el primer graf, el del corpus en català original, el resultat és:

Mapa d’acumulació de grups per modularitat del corpus català, per coeficient de Pearson.

En aquest primer cas, en no tenir variants a detectar la utilitat del mapa és molt relativa. Sí però permet objectivar que les lletres més properes a una determinada sí tenen la mateixa caixa i que segueixen més o menys la separació vocal/consonant.

El segon, el del corpus iberitzat i connectat per la mesura de Pearson, tenim:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson.

Aquí sí que ja podem avaluar si cada variant té o no les altres en el grup de nodes més ‘proper’. En aquest cas, per exemple, es fa evident que les vocals resulten indiscernibles entre elles per aquest mètode.

La tercera prova feta ha estat el mateix corpus però amb el factor de confiança E i connexions superiors a 0.001, el seu mapa és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001.

Aquí la separació millora, (les vocals per exemple, es diferencien millor, tot i que la a i la e continuen ajuntant-se) però hi han mancances evidents en les consonants.

Afegir-hi els factors negatius ha estat la quarta prova feta, i el seu map resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001 i < -0.001.

Que presenta les mateixes mancances que la prova anterior amb només factors positius.

La darrera prova ha estat fet servir el factor F, també amb connexions > 0.001. El mapa resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson,  amb factor de confiança F i connexions > 0.001.

On podem comprovar que efectivament, gaire bé totes les variants tenen entre els nodes més propers els d’altres variants. La indefinició, (en el sentit que al costat de nodes de variants també trobem nodes aliens) es concentra en algunes de les variants de: a,c,ç,ï,j,n,ò,ó,s,t,u i x. En total, dels 94 glifs del graf, 24 presenten alguna vacil·lació, o dit altrament, un sistema de detecció automatitzada de variants, en aquest corpus, en detectaria correctament com a mínim un 75%.

 


Notes

  • [1] A nivell estructural, cathalaunia.org sembla un creuament entre un wiki i una base de dades. Una forma aproximada i incorrecta seria definir-lo com una base de dades XML amb una presentació web, una de més correcta seria dir que és un programa que pot exportar els continguts que presenta en format XML.
  • [2] Quelcom que els analistes i programadors, i en general al gent del món de la computació fa, com diem, de manera constant i natural. A les solucions genèriques se les acostuma a descriure com ‘lliures de domini’ per expressar que funcionen sense aportacions de cap domini del coneixement aliè al matemàtic. Altra cosa és que a nivell pràctic les tècniques més fructíferes usualment neixin del creuament de tècniques genèriques o ‘lliures de domini’ amb coneixements del ‘domini’ dels problema a tractar. Un exemple relativament recent: en el camp del tractament informatitzat de la veu humana, no s’ha avançat de forma significativa en la seva síntesi fins que no s’han emprat models que reprodueixen els sistemes fonadors biològics. De nou, el principi general i la seva particularització (variant els paràmetres que defineixen el model ens podem aproximar més o menys a la ‘particularitat’ de cada una de les veus existents en la natura)
  • [3] Una altra millora ha estat l’eliminació d’epigrafies duplicades. En el corpus inicial hi havia aproximadament un 1% d’entrades que eren relectures o simples duplicacions d’altres entrades. En l’actual, han estat eliminades (tot i que no es descartable que n’hagi escapat alguna).
  • [4] Com que les connexions no tenen perquè formar una mètrica, la seva disposició no té per què ajustar-se a les restriccions d’un espai euclidià (per exemple: tres punts formen sempre un triangle i en un tal espai els angles interns hauran de sumar 180º, però si en comptes de longituds estem parlant de connexions, això no s’ha de complir).
Anuncis
Aquesta entrada s'ha publicat en català, cathlaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, ForceAtlas2, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric i etiquetada amb , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s