Variabilitat sígnica de l’ibèric nord-oriental (3).

En l’apunt anterior ens havíem quedat  a les portes de crear un graf a partir del corpus en ibèric nord-oriental amb un node per cada un dels seus glifs i connectats segons el grau positiu de correlació de Pearson de la seva distribució, modulat per el factor de confiança F allí descrit[1]. El signari ibèric emprat defineix 207 signes però 6 són considerats separadors (línies verticals de punts), 4 són marques metrològiques i 3 no figuren el corpus, aixo deixa un signari hàbil de 194 glifs, xifra que es veurà encara més reduïda per els cassos sense connexions/correlacions superiors a 0.001[2]. El graf resultant (disposat amb l’algoritme ForceAtlas) presenta 155 nodes amb 1603 connexions.

El corpus ibèric 155 glifs, 1603 connexions.
Cliqueu per imatge a mida gran o en format svg.

Un graf que il·lustra molt bé la complexitat del problema. Per una banda, en una mirada superficial i segons el desxiframent actual, es poden percebre tres grups: a l’esquerra tenim les vocals, en la part més alta, un de consonants no oclusives i en la part dreta i poc dibuixat, n’hi ha un que és un autèntic tuttifrutti (potser nascut del pes de les evidències marginals?). Però més enllà d’aquestes agrupacions el graf presenta un alt nombre de nodes dispersos, tot i que la seva distribució està lluny de semblar aleatòria i de fet, planteja algunes possibilitats interessants. Fem un breu repàs.

Entre les vocals i les consonants contínues tenim agrupats tres variants amb forma de V i Y (codis 62,63 i 65 en el signari de cathalaunia) que per posició suggereix que podem estar davant d’un cas de doble sonoritat i que caldria desdoblar-les en una m? i una vocal (o/u?), o potser un sil·làbic?. També resulta estrany que si bé en general les vocals presenten una localització força clara, les is, tenen també variants en la dispersió del quadrant inferior/dreta. En la part central i aïllada dels tres grups més clars, figura el signe Ba (el més freqüent), amb dos Tis aprop, probablement aquesta disposició sigui provocada per el pes dels numerals en el corpus. En la línia de les 7h (com si el graf fos un rellotge) tenim un grup de tres signes Bo/Ta. En la de les 6h, trobem tres Pis. Entre les 4 i les 5h tenim fins a nou signes Ke, i ben curiosament, al seu costat el signe Ba corbat, que ens faria pensar si no hi han casos en que caldria llegir-lo com un Ke. Al costat dels Kes i fins les 3h trobem fins a 6 signes Be. Entre les 12 i les 3h tenim l’amàs dispers que dèiem, però en la part exterior de les 3h tenim tres variants de Ka, i en la de les 2h quatre Tes junts.

En conjunt, queda clar que tot i que a semblança del corpus en català els grups de consonants contínues i de vocals fan de fàcil delimitar, el problema està en la resta de signes que es comporten de manera ben diferent i que fa pensar efectivament en una natura dual, sil·làbica, funcionant com a consonant a una banda i com a vocal en l’altra. Sent la idea base comparar entre quins signes apareixen els glifs, queda clar que una escriptura alfabètica amb només dues menes de signes, serà més fàcil de detectar tota vegada que l’alternança és la pauta a esperar, mentre que la presència de signes compostos, multiplica les possibilitats, que sembla que és el que reflecteix el graf. Amb tot, la complexitat del graf fa pensar en alguna raó afegida, ja que no sembla evident que la presència de signes sil·làbics per se hagi de produir un graf més dispers…

Això per el que fa a la distribució espacial, provem ara amb l’altra eina, la modularitat, però en comptes d’intercalar les onze particions/mesures com hem fet en l’apunt anterior, el que farem serà deixar-les en nota[3] i fer servir el seu mapa resum (tècnica que s’ha descrit en una actualització del l’apunt anterior).

El resultat és força variat i el que farem serà marcar amb verd els glifs per els quals entre els glifs més propers – segons modularitat acumulada – es detecti una majoria de glifs equivalents segons el desxiframent actual, i amb vermell els que no sigui així, és a dir, els que resulten més interessants…!

Mapa de glifs propers per modularitat acumulada
(els nombres indiquen la quantitat d’agrupacions compartides).

En verd els que presenten majoria de glifs acords amb el desxiframent actual..
En vermell els que no.

Els comentem per ordre:

  1. En primer lloc el glif que sembla una E inclinada a l’esquerra (codi 41, 6 entrades) sembla ser una I.
  2. El signe espiga de 2 branques (codi 43, 17 entrades) segons això seria una O.
  3. Curiosament una de les Os de 2 travessers (codi 51, 5 entrades) sembla confondre’s amb una E, tot i que figura com a companya dels altres signes O…
  4. En els dos signes de L (codis 56 i 57, 374+537 entrades) apareixen com properes i formant un grup coherent entre ells amb un signe M (codi 60, 99 entrades) i un glif com una L especular (codi 59, 8 entrades).
  5. El signe de forma de F (codi58, 29 entrades), apareix com una E.
  6. La A amb forma de R oberta  (codi 61, 85 entrades) sembla funcionar com una O.
  7. El signe Ba (codi 83, 717entrades) situat al centre del graf no presenta cap glif proper amb sentit evident tot i que forma un grup coherent amb quatre glifs més: un Te (codi 103, 34 entrades), un Ki (codi 193, 18 entrades), una nasal (codi 239, 14 entrades) i un de desclassificat (codi 213 , 2 entrades).
  8. El Ba corbat (codi 84, 26 entrades) que per posició està proper a signes Ke, per modularitat ho esta de signes Ka, un altre exemple de classificació contradictòria.
  9. El Ta amb forma de creu de Sant Andreu (codi 87, 480 entrades), també en posició central en el graf, s’associa majoritàriament amb signes Ka,
  10. Tot i que els signes Ka més habituals semblen agrupar-se de manera correcta, la variant amb el traç afegir a l’esquerra (codi 91, 77 entrades) forma un grup coherent amb dos Tes (codis 101 i 102, 32+45 entrades) i un signe Be (codi 183, 1 entrada).
  11. Un altre grup estrany però coherent el formen dos signes Be (codis 95 i 186, 13+43 entrades), dues Is (codis 145 i 197, 12+22 entrades) i un signe Bo (codi 212, 4 entrades).
  12. El signe Te amb forma de rombe partit per una línia vertical (codi 107, 20 entrades) s’agrupa amb glifs de sibilants.
  13. Un dels grups coherents però sense sentit evident més grans està format per 8 signes (codis 127,219,206,203,195,189,161 i 128, 1+8+20+24+62+3+10+1 entrades).
  14. Un de més petit ajunta un signe Pi (codi 141, 4 entrades), una Be (codi 174, 3 entrades) i una O de quatre travessers (codi 185, 3 entrades).
  15. Les sibilants s’ajunten de manera quasi perfecte tret de d’una variant de la de forma de M (codi 142, 91 entrades) que ho fa amb les sibilants simples.
  16. Una hàpax de Te (codi 143, 1 entrada) s’ajunta amb signes Ti, en un grup que comentarem un xic més avall).
  17. Una variant de S poc habitual (codi 144, 19 entrades) amb tres signes Ka ben documentats (codis 88,89 i 90, 140+23+227 entrades).
  18. Un grups curiós està format per dos Kes poc freqüents (codis 169 i 204, 3+4 entrades) i dos Kis (codis 194 i 196, 8+23 entrades).
  19. Una tripleta també aparentment espúria esta formada per una I ben documentada (codi 180, 23 entrades) , un hàpax de Ke (codi 129, 1 entrada)  i un Tu poc freqüent (codi 233, 22 entrades) .
  20. El grup esmentat en el punt 11, apareix però en comptes d’un signe Bo, presenta una tercera I al grup (codi 182, 18 entrades).
  21. El signe Bo de sis puntes (codi 205, 58 entrades) apareix amb dos signes To (codis 207 i 209, 38+86 entrades).
  22. Un dels signes To (codi 210, 25 entrades) de branques inclinades s’agrupa amb un signe Ku (codi 236, 111 entrades).
  23. Peró el més curiós és que l’altre To que té una base puntual (codi 211, 25 entrades) s’ajunta amb un grups de signes Ti, amb els quals comparteix figura (de fet hi han variants de Ti – no registrades en el signari – que dibuixen l’asta no per baix sinó en la part alta del traç medial). De manera que potser sí calgui considerar-lo una forma de Ti i no de To.
  24. Un altre binomi inesperat és el format per un signe Ko (codi 217, 39 entrades) i un signe rar, una espiga de tres ramificacions (codi 240, 8 entrades).
  25. I el signe Ko semblant a l’anterior però sense traç medial, i encara més ben documentat (codi 220,366 entrades), es veu inclòs en un grups de tres signes Ku, (codis 236, 237 i 238, 111+101+80 entrades) més el signe To del punt 22.
  26. Hi ha un grup coherent de fins a 5 signes Tu que incorporen però dues excepcions, un signe Te(codi 222, 2 entrades) i un signe M? (codi 243, 5 entrades).
  27. El signe To en forma de V invertida (codi 235, 19 entrades) es veu ajuntat amb dos signes Bu (codis 224 i 225, 13+9 entrades). En la situació espacial es veia situat a prop del seu homòglif de valor Ka (codi 92, 8 entrades) i per tant, potser es tracta d’una lectura incorrecta.
  28. Un signe inusual i interpretat com una nasal (codi 241, 3 entrades) es veu però consistentment agrupat amb sibilants. Potser una altra assignació a contemplar?
  29. I finalment, un encert inesperat. Un signe com una R especular (codi 248, 10 entrades) usualment interpretada com una R es veu efectivament agrupat a altres glifs de R.

En les agrupacions per modularitat, tenim doncs fins a 103 glifs de 155 correctament agrupats, és a dir, un 66% d’encert. I el terç restant aporta algunes possibilitats de relectura que caldria verificar, en concret, els punts 1, 2, 3, 5, 6, 8, 12, 17, 23, 27, 28  de la llista anterior. Cal entendre que en ser una anàlisi estrictament quantitativa, ha de ser en tot cas la Filologia la que dictamini l’encert o l’error de tals possibilitats.

En conjunt, doncs tenim una barreja d’encerts i d’errades en la mesura de les distribucions dels diferents glifs del corpus ibèric segons la correlació de Pearson modulada per el factor de confiança F, si l’expressem com una xarxa formada per els seus signes connectats segon les correlacions entre les seves distribucions, i n’analitzem la seva disposició espacial i l’estructuració de les agrupacions per grau de modularitat.

Coda

On ens deixa aquest experiment? Doncs amb una certa ambivalència. El mètode descrit funciona perfectament en un corpus alfabètic com és el del català, i per tant, buida de contingut la primera objecció sistèmica que ens fèiem al començar (la derivada del fet que lletres diferents poden tenir distribucions semblants), no per què sigui falsa (les agrupacions espacials de vocals i consonants ho testimonia clarament) sinó per què amb una anàlisi quantitativa els detalls entre les diferents distribucions tenen un pes suficient com per discriminar entre signes propers. Queden però les altres dues.

I el fet és que la mateixa mesura aplicada al corpus ibèric es mostra d’entrada, limitada. La dispersió de les dades segurament està introduint un nivell de soroll que supera el del ordenament natural de l’escriptura, i no es pot descartar que no hagin més glifs de sonoritat múltiple per detectar i desdoblar (la segona objecció). Però segurament el factor principal sigui la dispersió deguda a la manca d’evidència (la tercera objecció) , tota vegada que es pot observar com la majoria de grups espuris i glifs mal situats per la modularitat estan formats per signes molt poc evidenciats. Una altra consideració genèrica a fer és que probablement sigui apropiat canviar la idea inicial de considerar només els glifs immediatament al costat d’un signe determinat. En signaris alfabètics, l’alternança vocal/consonant hauria de ser la norma, de manera que si el signe és vocàlic, cal esperar que la majoria de parelles que l’envolten siguin consonants i viceversa si el signe és una consonant. Aquest esquema tant regular – i que tan bé funciona en aquesta metodologia d’anàlisi – desapareix si tenim signes sil·làbics, ja que aquests podran aparèixer també tant abans com desprès i per tant això fa que les distribucions de les parelles que envolten a un signe determinat seran més complicades. Queda clar que cal seguir pensant, la bona nova és que certament, de vies a explorar no en falten…

En resum, i per tancar ni que sigui provisionalment aquesta inesperada minisèrie d’apunts, diríem que l’anàlisi quantitatiu del corpus (i en concret de les correlacions entre les distribucions dels glifs) es revela com una eina molt efectiva i amb un alt potencial d’ajut en l’estudi de l’escriptura ibèrica, amb la virtut estructural de ser completament objectiva.

 


Notes

  • [1] Per distribució entenem el recompte de entre quines parelles de signes es documenta cada un dels glifs del corpus. F és una F-mesura feta a partir del percentatge i la quantitat normalitzada de factors comuns entre dos distribucions.
  • [2] Els codis no presents en el graf son: 55, 64, 99, 100, 106, 117, 127, 128, 129, 130, 132, 133, 134, 135, 136, 137, 139, 162, 163, 164, 165, 168, 170, 171, 172, 175, 176, 177, 178, 179, 181, 188, 199, 202, 214, 215, 216, 218, 223, 229, 230.
  • [3] Els grafs de les particions per Modularitat del mapa-resum són:

    P=2. 3 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=1. 4 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.9. 7 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.8 8 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.7. 8 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.6. 10 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.5. 12 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.4. 14 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.3. 17 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.2. 25 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.1. 34 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Publicat dins de cathalaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric | Etiquetat com a , , , , , , , , , , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental (2).

El mes passat fèiem un apunt per comentar uns experiments per mirar de detectar les agrupacions sígniques en l’ibèric nord-oriental. És el cas ara de tornar-hi per exposar una sèrie de conceptes que es van ometre allí i que en una revisió més treballada creiem que poden ser d’interès.

No es cap secret que cathalaunia.org neix del creuament de dues disciplines aparentment diverses: Història i Computació. La primera aporta els continguts i la segona els mètodes, i sent un web dedicat exclusivament a la presentació de dades, omet volguda i sistemàticament publicar qualsevol mena d’opinió i/o comentari (quan resulta inevitable s’etiqueta específica i explícitament com a tal), per complementar-ho, existeix però aquest bloc, per poder donar expressió als molts aspectes relacionats amb el web i la seva confecció que no tenen lloc en ell. Un d’aquests usos, és de fer de bloc de notes públic d’algunes de les recerques que es duen a terme, aquest és l’aspecte que farem servir aquí. En concret, no tant per comentar alguns dels experiments fets, com fèiem en el post anterior, sinó per anar un pas més enllà i reflectir la recerca a mida que es va fent. Dit altrament, tenim una idea general a seguir, però no sabem en començar a escriure això quin serà el contingut final d’aquest apunt. Creuem els dits…

Parlàvem de la Computació com quelcom substancial en la confecció de cathalaunia.org[1], perquè així com la Història i en general les Humanitats són ben conegudes del públic i tothom te una imatge més o menys aproximada dels seus professionals i del què comporta la seva dedicació, això no és tan així per el que fa als professionals del món de la Computació. Una de les característiques habituals de la gent que es dedica a la programació, és una mirada naturalment analítica que cerca de forma inconscient els patrons en la realitat percebuda i que usualment mira de comprendre la realitat de lo general a lo particular. Noció, que evidentment, ni és ni nova ni exclusiva de la Computació (en el fons, estem parlant de Plató) però sí és d’efectes ben reals i quotidians, encara que usualment passin desapercebuts.

En el cas que ens ocupa, aquesta mirada analítica subjacent, es furtà en l’apunt anterior perquè no arribà a cap resultat significatiu però en canvi serà la idea directriu d’aquest exercici. La idea germinal era posar a prova un possible mètode quantitatiu de detecció de les ‘variants’ de l’ibèric nord-oriental. Dèiem llavors:

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

El que es callà és que prèvia i subjacent a aquesta formulació  hi havia una concepció analítica, matemàtica. Específicament:

En la mesura en què la noció que la semblança de les distribucions dels glifs indica pertinença a un mateix caràcter sigui certa, es podria disposar una xarxa, un graf, amb un node per a cada glif i connectar-los per els factors de ‘proximitat de distribució’, i a partir d’aquí, emprar les tècniques d’anàlisi per detectar-ne les agrupacions.

La idea resulta especialment atractiva a una ment analítica perquè cerca una solució general o ‘lliure de domini’ a un problema específic d’un camp del coneixement allunyat del de la computació[2]. Ara bé, hi han un mínim de tres consideracions ‘del domini’ que treballen en contra d’aquesta ideació:

  1. Una primera i estructural, és que certament diferents lletres poden aparèixer entre els mateixos caràcters. En la mesura en què això sigui cert, el graf agrupara no lletres iguals sinó dispars, i per tant, els resultats seran inconclusius.
  2. La segona, també estructural, però en aquest cas, específica de l’ibèric nord-oriental, és l’evidència que existeixen  glifs aparentment idèntics però que representen sons variats, per exemple: els que tenen forma de V invertida, que tan poden ser L, Ka o Tu. En la mesura que el mateix passi en altres glifs i encara no s’hagi detectat, tindrem que aquest glifs actuaran com la suma dels seus sons, i per tant, també difuminaran l’estructuració interna del graf.
  3. El darrer element que juga en contra de la idea original és la migror de les dades. Tenim un signari amb 200 glifs i un corpus d’uns 25.000, això faria un mitjana d’un centenar de casos de cada glif, però a més, la distribució és força irregular, de manera que per unes desenes de glifs tenim centenars i fins i tot algun miler d’exemples d’utilització, però per a la majoria, en tenim encara no unes poques desenes. Això implica que per a la majoria de nodes del graf, els factors de connexió amb la resta es basen en una evidència gaire bé marginal, i per tant, poden introduir un nivell significatiu de soroll en l’esquema general.

En l’apunt anterior, la idea de modelar el problema a partir d’un graf, es va obviar perquè les resultats van ser poc clars, i perquè la dispersió de les dades, derivada de la curta mida del corpus,  es revelà com el primer factor distorsionant. De manera, que el nasqué com un mètode per detectar quantitativament variants, es reduí a una manera de mesurar objectivament l’evidència de les agrupacions que els filòlegs han definit fins el moment. En la part final, es declarà que s’havien fet algunes proves per alleujar el problema de la dispersió però sense cap resultat significatiu. És el cas de tornar-hi aquí, per dos motius afegits: una millora interessant en aquest aspecte, i per què tal i com s’anunciava allí, el signari ha estat ampliat (dels 188 signes s’ha crescut fins els 207) i el corpus ja en reflecteix els canvis[3].

En un post normal, presentaríem els resultats de les proves i mesures fetes amb el nou corpus i les metodologies millorades, en aquest però, començarem per dir que fetes unes primeres mesures, s’ha pensat que seria millor provar les idees no sols sobre el cas problemàtic de l’ibèric, sinó sobre un corpus alternatiu i més ben conegut, per tal de mesurar la bondat dels nous procediments i intentar separar l’evaluació dels mètodes del de les dades. Dit altrament, miren primer un exemple conegut, per mirar de calibrar l’eina i les seves capacitats, i després ja veurem que ens apareix en l’objectiu real.

Per fer la prova tenim els corpus alternatius que es van emprar fa uns mesos en comparar la distribució de sons del desxiframent actual de l’ibèric nord-oriental amb altres llengües, i per comoditat, empraren el corpus català, que recordem, no és altra cosa que un fragment del Gènesi de mida similar al volum del corpus ibèric. De manera que agafarem els primers 15 capítols del Gènesi, posarem un verset per línia, convertirem cada lletra a un número i analitzarem quins números apareixen al costat de quins altres. L’únic coneixement del domini que emprarem serà reduir tots el signes no sonors a un  únic valor, diguem-ne ‘puntuació’, que és una simplificació que podem fer amb certes garanties també en el corpus ibèric. Tenim molta cosa a comentar…

L’exemple del català

En el corpus català tenim un total de 31.624 lletres, amb 58 signes diferents entre majúscules, minúscules i accentuades, registrem entre quines lletres es troben cada un d’ells, comparem les distribucions resultants amb el coeficient de correlació de Pearson, i creem el graf resultant. En lo que segueix, i a semblança del que ja s’ha emprat en altres apunts d’aquest bloc, farem servir per manipular els nostres grafs el programari gephi.

El primer que cal fer és presentar breument les eines d’anàlisi de xarxes que farem servir que són bàsicament dues: la seva disposició espacial i la seva modularitat. El primer considera les connexions entre els nodes com forces atractives/repulsives, i el que fa és: a partir generalment d’una disposició del nodes inicialment aleatòria, cercar una distribució que minimitzi les disparitats entre els factors de connexió i la separació entre els nodes[4]. El segon, és de natura purament topològica i cerca definir els grups de nodes que presenten una taxa d’interconnexió superior a la resta del graf. No entrarem a parlar en profunditat sobre la natura i l funcionament d’aquests mètodes (tot i que és un tema apassionant), per dos motius, ni és el lloc, ni les eines disponibles permeten gaires opcions. Anant a lo concret, per el que fa a la disposició espacial (en 2 dimensions, per poder-ho representar gràficament de forma fàcil), s’empraran els algoritmes ForceAtlas o ForceAtlas2, i per el que fa a la Modularitat, gephi aporta un únic algoritme, ben conegut, i atès que és una mesura relativa i que permet diferents graus d’agrupació el que farem és realitzar tot una sèrie de mesures en aquesta gradació natural (pensem que en un extrem, tots el nodes connectats d’un graf es poden considerar un únic grup, i en l’altre, cada node pot formar un grup propi). La mida dels nodes representarà la suma de les correlacions vers les altres lletres, i cada graf es presentarà en format gràfic (jpg) i en versió svg, que permet un zoom discrecional a gust de  l’usuari.

De manera que en el corpus català, en una primera disposició tenim 58 lletres/nodes connectats cada un d’ells amb tota la resta, és a dir, un graf amb 58 nodes i 1.652 connexions. Si mirem els factors de correlació (les connexions) veurem que segueixen d’aprop els resultats que es detectaven el cas del corpus ibèric: un factor màxim de 0.76, un mínim de -0.06 i amb poc més de 400 valors superiors a 0.1, és a dir, amb una majoria de valors al voltant del 0 (recordem que el factor de correlació de Pearson es mou entre 1 i -1). El fet que cada node es connecti a tots els altres fa que topològicament sigui una xarxa molt regular, sols els diferents valors de les connexions aporten factors de diferenciació. I en aquest sentit, el fet de tenir factors negatius, fa que la seva representació gràfica amb els algoritmes ‘de força’ sigui complicada, ja que tenen tendència a donar disposicions molt disperses. Finalment, amb l’algoritme ForceAtlas i ajustant els seus paràmetres s’ha pogut generat una disposició mínimament aprofitable.

58 lletres, 1.653 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

On podem veure clarament un grup en la part superior format per les consonants, amb les majúscules en la part superior i les minúscules en la part inferior (recordem que en el text del corpus les majúscules segueixen l’ús habitual, en inici de frase o de nom propi).  Més enllà d’aquest grup, podem observar a l’esquerra un grup dispers format bàsicament per les vocals en majúscules i en la part inferior esquerra un d’encara més dispers amb les vocals en minúscules. S’aparten d’aquesta descripció bàsica en la part superior la Q i la q, que apareixen en la part superior, i les u, ü i ú, que s’apropen més al grup de les vocals majúscules que no pas a les de les minúscules. Sembla lògic pensar que tal disposició és deguda a que les velars acostumen a anar seguides de u, i en la lluita per situar-se, les primeres han hagut d’anar a la perifèria mentre que les segones han hagut de cercar un equilibri entre acostar-s’hi i no separar-se de la resta de vocals. Ara, també sembla ben evident que les agrupacions per distribució de forces no van gaire més enllà d’evidenciar la diferenciació entre majúscules/minúscules i vocals/consonants, cosa que pot semblar poc important, però si pensem que el resultats no depenen d’informació filològica, sinó estrictament numèrica, distribucional, tampoc està tant malament.

Mirem ara l’altra estimador, la Modularitat. En la implementació de gephi, l’algoritme disposa d’un paràmetre per graduar al grau de granularitat que es desitja, diguem-li P (1, per defecte, major per tenir menys grups, menor per detectar-ne més). No tenint a priori cap pauta específica per fixar el seu valor, el que farem serà aplicar-lo de forma sistemàtica: amb dècimes entre 0.1 i 1 i un cas de valor 2 afegit. Per tal de visualitzar els resultats, sobre la mateixa disposició espacial, cada grup detectat tindrà un color propi (el programa els assigna aleatòriament). Anant de menys grups a més:

P=2. 2 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un valor P de 2, tenim que es detecta un grup (en vermell) format sols per vocals i un altre (en blau) per a la resta de lletres, que inclou les consonants més les vocals i, ï í, u, ü i ú més la à i la ó, situades a mig camí del grup consonàntic.

P=1. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el nivell de partició per defecte (P=1), tenim un grup blau format per les consonants en majúscules (exclosa les B i X i inclosa la q), un grup verd format per vocals (tret de la ü, u, ï i ó) i un grup vermell amb les consonants en minúscules (més les sis excepcions ja descrites).

P=0.9. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.9 els grups ja són quatre i corresponen a grosso modo amb l’encreuament de vocals/consonants i majúscules/minúscules, però amb excepcions interessants. Els grups de consonants del graf anterior (blau i vermell) bàsicament es mantenen, però el de les minúscules perd les us que passen al grups de les vocals en majúscula (en lila) i la i, í, à, ç, i la j, (aquesta especialment curiosa per la seva posició central en el grup de les consonants) que val al grup de vocals en minúscula (en verd).

P=0.8. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixar el factor a 0.8 no incrementa el número de grups però si n’altera significativament la seva disposició, cosa que fa pensar que l’estructuració interna de les dades no és simple. De fet, hem tornat a la partició en tres grups del P=1, però amb un grup nou format per: u, ü i s, i amb una ó que ha passat, ara sí, al grup vocàlic.

P=0-7. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.7 el nombre de grups creix a 5, però més que res, a base de subdividir les consonants en minúscules, mentre que les vocal encara conserven un gran grup.

P=0.6. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Per sota de 0.6, la fragmentació de les consonants i de les vocals ‘a mig camí’ anirà en augment fins arribar als 23 grups amb un factor de 0.1, sense que sigui evident cap raó extracomputacional que justifiqui la separació en tals grups (potser un filòleg hi pugui veure més…).

P=0.5. 14 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg..

El que sí és manifest que es manté en tota aquesta gradació és la presència de dos grups vocàlics, un especialment ben definit per a les majúscules i un de més variable per el que fa a les vocals en minúscula.

De moment, veiem que en el cas del català, una mesura segons el coeficient de Pearson tradicional ens detecta la separació entre vocals i consonants i entre majúscules i minúscules i poca cosa més. De moment, la cosa no pinta gaire bé per el que fa a separar variants segons la seva distribució…

Però també és evident que el corpus català és força diferent de l’ibèric; minúscules i majúscules tenen rols ben diferenciats i els signes són unívocs (no hi ha -gaire- superposició de rols entre les lletres). L’ibèric sembla molt diferent, ja que en teoria presenta més d’una i més de dues maneres d’escriure una mateixa lletra i a penes fa servir la separació per espais (si però la de puntuació). El que farem serà ‘iberitzar’ el corpus català. Ho passarem tot a minúscules, eliminarem els espais, i de forma aleatòria, introduirem fins un màxim de tres variants de cada lletra, és a dir, tindrem fins tres  as (etiquetades com: a, a+, a-), tres bs, etc.

El resultat és un graf plenament connectat amb 102 lletres/nodes i per tant, amb 5.152 connexions (correlacions entre signes), un valor màxim de connexió de 0.7, un mínim de -0.11 i amb un miler de connexions per sobre d’un 0.1 i gaire bé la meitat amb valor negatiu.

102 glifs, 5.152 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

La disposició espacial del graf és francament pobre. En el cas anterior, jugant amb els paràmetres encara s’havia pogut trobar una configuració raonable, en aquest, i probablement degut a la influència dels valors negatius, els algoritmes oscil·len salvatgement entre unes disposicions estiradíssimes, que fan de molt mal llegir o únic amàs molt regular; finalment, ha semblat millor capturar un dels moments intermedis.

A l’extrem dret tenim majoritàriament les vocals sense accent, i en el grup principal es poden discernir sense massa esforç a la banda esquerra les consonants continues, a la dreta les vocals accentuades i en mig les oclusives. De fet, no és pas gaire difícil veure que les ternes de variants introduïdes artificialment en el corpus sí s’ajunten entre sí en el graf. En l’extrem dret, tenim les variants de a, e i o. En la part dreta de l’amàs gran, troben les is i en la d’abaix, les us. En l’extrem esquerra del graf, les ms, ns, ss, ls, rs, en la part dreta les és, òs, ós. Mentre que en la part central les oclusives són les que mostren una agrupació més laxa. El que no fa el graf és individualitzar els triplets de cada lletra. En conjunt, doncs diríem que encara que en la disposició espacial el dibuix és força desagraït, sí sembla evident que la organització quantitativa mesurada per la correlació de Pearson sí és capaç de reflectir realitats de caire filològic. Mirem a veure que tal respon amb les mesures de modularitat.

P=2. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el coeficient més elevat, es detecten tres grups que corresponen a les us, excepte les d’accent tancat (en vermell), a la resta de vocals més les ys i les qs però sense les ós i les ïs (en verd) i en blau la resta, tot consonants tret de les excepcions enumerades.

P=1. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el valor per defecte de 1. l’algoritme detecta 5 grups. En vermell els triplets de n,l,s,u,ü,ï i ú. En rosa, els de m,d,b,r,t,x,q,g,ó,f i dues de les z. En verd, els de p,v,c,h,ç,i,j i una ú. En groc un grup dedicat a les ys. I en blau els triplets de les altres vocals. És de remarcar que en les agrupacions de detectades es mantenen junts els triplets de les variants, tret d’unes poques excepcions.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A 0.9, es detecten 7 grups. En blau clar els triplets de n,r,l,s,u,ü,ï, dues de les ús. En rosa, les d,m,p,t,f,b i dues de les zs. En blau fosc, les v,c,h,j,ç,à, una de les z i una de les ú. En verd fosc, els triplets de g i q. En groc els de y i é. I en verd clar els de les vocals a,e,o a l’extrem, i i,è,ò,í a tocar de l’amàs gran. Els triplets es continuen mantenint agrupats, tret dels cas de les zs i ús, que són lletres certament poc freqüents.

Si mirem de resumir la seqüencia que continua, direm que les tripletes es mantenen unides fins el factor de 0.4.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Aquí tenim 17 grups on 10 d’ells corresponen als triplets aïllats de: l,r,m,v,c,t,f,b,p, i y, més un grup per les ss i una de les ús. Un gran grup per les a,à,ç,e,é,è,i,í,o,ò i una de les js.  Un per les d i zs. Un per les ï,n i una de les ús. Un per les ó i x. Un per les g,q i un per les l,u i ü. I finalment, un per les h, més un parell de js i una ú.

Per sota de 0.4, continuen creixen el nombre de grups però a costa ja de partir els triplets de variants.

P=0.3. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Resumint i simplificant: mesurant per el grau de correlació de Pearson, en el cas el català ‘iberitzat’ es poden arribar a detectar aïlladament les variants de les consonants continues i de les labials, les vocals es detecten com a grup, no individualment i les velars es detecten però no es distingeixen entre elles. No està gens malament, però cal recordar que això passa en un corpus amb un grau de dispersió menor que el que es vol estudiar, i per tant, potser menys afectat per el soroll d’una pluralitat d’evidències disperses. Mirem d’anar més enllà.

Dispersions i confiances

Fins aquí, hem estat fent proves amb un corpus, el català, de poc més de 30.000 lletres, que en les seves dues caracteritzacions estudiades (l’original, amb majúscules i minúscules i 58 glifs, i l’iberitzat, sense caixa diferenciada, sense espais i amb fins a tres variants de cada lletra, amb un total de 102 glifs) té un grau de dispersió menor que l’ibèric que per un signari de 200 glifs només disposa d’un corpus de 25.000 lletres. Un dels efectes de la dispersió, si estem utilitzant la correlació de Pearson és que molts valors esdevenen correlacions negatives i a més fets a partir de molts pocs valors. En la part final de l’apunt anterior es va comentar que s’havia intentat un heurisme conegut per tal de mitigar aquest casos però que el seu efecte no havia estat satisfactori. Ara és el cas d’incorporar les millores pensades en aquest aspecte.

La idea general, de nou és força simple: valorem cada factor de correlació entre dos glifs o lletres segons el nombre de parelles comuns entre les que apareguin.

Podem visualitzar-ho com dos segments rectilinis, un per cada lletra. Suposem que el glif X, es detecta entre 20 parelles de signes i que el glif Y ho fa entre 30 i que ho fan conjuntament en 10 parelles. En aquest cas, el nombre total de parelles amb evidència serà de 40 (20+30-10), o geomètricament: els dos segments es sobreposen en 10 unitats. Imaginem ara un altra cas, on els glifs A i B es detecten cada un entre 20 parelles, però amb 18 d’elles comunes. El factor de correlació entre XY, tenia un 25% de factors en comú (10 de 40) i el de AB en tindrà un 81% (18 de 22). Sembla raonable pensar que si dos glifs apareixen entre les mateixes parelles de signes, la seva mesura sigui més ‘fiable’. Entenguis bé, la correlació pot ser alta o baixa, el que estem introduint és un factor de ‘confiança’ en la mesura. De manera que podem multiplicar la correlació de Pearson entre XY per el percentatge de parelles comunes, diguem-li E; sent un factor normalitzat a 1, el seu efecte numèric serà deprimir el valors però no en canvia ni el rang ni el signe.

Però si ho pensem una mica més, també veurem que no hauria de tenir el mateix valor o generar semblant confiança dos percentatge de parelles comunes iguals (per exemple entre CD i entre VW) si la primera es basa en tenir 2 parelles en comú i la segona en tenir-ne 30. Eś a dir, la magnitud també hauria de tenir-se en compte, i per poder-la normalitzar entre 0 i 1, podem escalar-la segons el valor màxim que es doni en el corpus, diguem-li: Q.

Així que tenim dos coeficients de ‘confiança’, el percentual E i el de quantitat Q, una manera típica de combinar dos factors normalitzats, i molt emprat en problemes classificació estadística, és la anomenada F-mesura, diguem-li, F, que les combina així: F=(2EQ)/(E+Q). Funció que dibuixa una superfície corba on només es donen valors alts si els dos factors, E i Q són alts.

La idea va ser doncs multiplicar la correlació de Pearson per aquests factors, fent una primera prova per E, i una de posterior per F. En teoria, la de F hauria de ser preferible (la de E ignora les magnituds i pot ser fruit d’una evidència marginal), però aquestes primeres temptatives sobre el corpus ibèric van revelar que E s’ajustava millor a les evidències conegudes…?! Raonant sobre aquesta aparent contradicció, l’explicació que sembla més probable és: la dispersió de les dades fa que moltes correlacions tinguin un nombre baix de parelles comunes, és a dir de factors Q baixos, de manera, que tot i haver-ho dissenyat per mitigar els efectes de la dispersió, la mesura F l’hi torna a donar un paper predominant; d’aquí probablement que l’ús de E sembli tenir millors resultats en la pràctica.

Però l’ús d’aquests factors de ‘confiança'(ja sigui E o F) té un efecte profund sobre el graf resultant, ja que si dos glifs no tenen cap parella en comú, la correlació serà de 0, i per tant no hi haurà connexió entre ells. A més els valors es veuran disminuïts per els coeficient de confiança, i per acabar-ho d’adobar, en les probes s’ha vist que el programari gephi no discerneix en les connexions més enllà de les mil·lèsimes, de manera que finalment s’ha dissenyat un sistema que permeti filtrar les connexions per sobre d’un cert valor de tall. Tot plegat, fa que ens podem trobar amb nodes sense cap connexió (pensem en els casos dels hàpax), així que a partir d’ara tindrem grafs amb connexions positives però baixes i de topologia no del tot regular (això es posa interessant…).

Començarem per comparar com es comporten E i F en el corpus català, i com que l’objectiu és aplicar-ho després al corpus ibèric, ho farem amb la seva versió ‘iberitzada’ de tres variants per lletra.

Confiança E

Provem primer amb el factor de confiança E, (i per defecte, amb el factor de tall del propi programari de gephi, 0.001). El resultat és un graf amb 99 lletres en comptes de les 102 ‘variants’ que teníem abans (s’han perdur per manca de connexions positives superiors a 0.001, dues ús i una ó) i ‘només’ 1.297 connexions en comptes de les més de 5.100 dels grafs plenament connectats que hem estat provant fins ara. Les connexions es mouen entre un màxim de 0.46 (aquí es veu l’efecte depressiu de la mesura de confiança) i el mínim prefixat de 0.001 amb poc més de 60 connexions per sobre del 0.1 i una gran majoria en valors baixos.

99 glifs, 1.297 connexions positives i superiors a 0.001 del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Com es pot observar, a diferencia del graf anterior, aquest presenta una estructuració força més clara i fins i tot es poden apreciar ternes de variants aïllades. L’agrupació de la part superior correspon a les consonants (amb n,s,m,r,t,d,v i l en la part nuclear i f,b,p,q,h i j en la corona superior, i  z,y,ç,x i ó,u,ï disposades en franja en la part central del graf), mentre que el gruix de les vocats es troben en la part inferior i no agrupades en un únic amàs, tot i que sí es distingeix clarament l’agrupació de les variants de a,e, i o, i aïlladament, les i , les ü i finalment un grup dispers formats per les variants de è,é,à,ò i í. Sembla innegable que l’estructura espacial del graf reflecteix informació de natura alfabètica Passem a la Modularitat.

P=2. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

En el nivell d’agrupació més alt (P=2) tenim un grup amb les ternes de u i ü (en groc), un per les de la q (en lila), un ‘estrany’ només amb una variant de ï i una de ú (en vermell), i dos grups grans: un de consonants (en verd) que les conté totes, tret del grup de les q i una variant de ç però que també abraça les dues ós. una variant de ï i les ys. I finalment un grup de vocals (en blau) que també les conté totes tret de les ja esmentades en els altres grups però també incorpora una variant de ç.

P=1. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el factor P a 1. l’estructuració anterior es manté idèntica però apareix un grup partint les consonants (en vermell) que diferencia les ternes de m,r,s,l,n amb una variant de z i una de ï; de nou, categories d’àmbit fonètic detectades numèricament gaire bé de manera exacta.

P=0.9. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixant P a 0.9, apareixen nous grups de ternes. Es mantenen els grups de les us, el dels qs i l’estrany d’abans (en morat, blau clar i verd-groc) , però els altres grups es veuen alterats. En les vocals apareix un grup per a les ternes de a, e, i, o i è (en vermell) i la resta del grup vocàlic d’abans (ara en verd) s’expandeix per incorporar la terna de les y i dues de les ç. I en la part de les consonants, si abans s’havia partit en dos, ara ho ha fet en tres. El gros, (abans en verd ara en ocre), un (en rosa) per les ternes de ts i ss més una variant de f,z, i g, i un tercer grup consonàntic amb les ternes de l,m,n,r i una variant de j i una de ï.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P a 0.8 es manté la divisió en 8 grups. El canvi principal és que el grup que abans tenia les as,es,etc (en lila) ara incorpora també la terna de les és i dues de les às. I en la part consonàntica el grup de ts i ss (en blau fosc) es perfila millor reduint-se a les seves ternes i una variant aïllada de z.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7 eleva en nombre de grups fins a 10. En les vocals, el grup (en rosa), de les as i es, torna a perdre les és i às que havia guanyat en el nivell anterior, i l’altre grup de vocals (en vermell clar) torna a perdre les ys i una variant de ç. Es mantenen els grups de les us, les qs i l’estrany, mentre que els nous grups apareixen en les consonants. Ara tenim un grup (en vermell) per la terna de les ss mes una de les zs, un per les rs (en groc), un per les ternes de m,n i l (en blau clar) i dos grups grans més dispersos: un en blau focs amb les ternes de d,c,p,b,j i dues de les variants de f i de g. i l’altre (en ocre) amb les ternes de t,v,x,y, parelles de çs, ós i zs i una variant aïllada de f i de g.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P=0.6 el nombre de grups creix fins el 15, però comencen a aparèixer agrupacions inesperades. Els grups petits i els de les vocals es mantenen (tret del de les accentuades que perd una variant de à), però entre les consonants, si bé es continuen detectant grups basats en ternes, apareixen un parell de grups no menors que agrupen ‘menes’ de variants: en taronja tenim un grup amb la variant sense marca de b,c,d,f,g,h i j, i en verd clar un amb les variants del signe + de b,c,d,f,g,h més una variant de ç. Amb tot, la resta de consonants sí presenten agrupacions més a o menys clares. Un grup (en rosa) amb les ternes de l i m. El grup de les ss i una de les zs. Un per les qs, un per les ps, un per les ns, i un grup amb les  ys, ts més una variant de c,f,i g. Ara, que la modularitat detecti agrupacions per menes de variants és extraordinàriament significatiu, tota vegada que és una regularitat introduïda artificialment en el procés de creació de tals variants, ja que s’ha mirat de tenir quantitats similars de cada mena (en el moment de convertir de lletres a codis, per a cada lletra s’ha llençat – metafòricament parlant – un dau de tres cares i s’ha assignat la variant d’aquella lletra en particular al seu resultat). En altres termes, que la modularitat detecti aquesta regularitat induïda, vol dir que ha de ser superior a la pròpia de les distribucions, i si tenim en compte que aquesta regularitat no afecta a la aleatorietat de la seva distribució, això vol dir que estem mesurant soroll, caçant mosques – metafòricament parlant – i que incrementar la sensibilitat de la modularitat aportarà més grups però no més informació, i efectivament això és que el tenim per sota de P=0.6.

P=0.5. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 18 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 21 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 24 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Podríem pensar que és una limitació pròpia del mètode, però vèiem que en la mesura per correlació de Pearson ‘pelada’, si es podien arribar a detectar un nombre no pas petit de tripletes sense que la regularitat de tenir parts iguales de cada mena de variant semblés afectar. És llavors que revisant aquest darrer pas, que s’ha considerat que de fet, hem aplicat un canvi doble: emprar el factor de confiança E, que certament disminueix els coeficients, però també l’eliminació de coeficients inferiors a 0.001 per la limitació de l’eina de grafs que estem fent servir, però potser hem anat massa lluny, i la informació de les correlacions negatives sí siguin necessàries per la detecció per la modularitat. De manera que cal provar que passa si només evitem les connexions entre +0.001 i -0.001. Si feta la prova, la modularitat presenta la mateixa limitació, indicarà en principi que hem topat amb un límit del mètode d’aplicar el factor E (a menys que sigui l’atenuació del coeficients la responsable, però costa creure que sigui un problema d’escalabilitat).

El resultat és un graf amb els mateixos 99 nodes/variants però amb 1.628 connexions. El fet de tornar a incorporar connexions negatives aporta el problema de l’estabilitat de les disposicions per ‘distribució de forces’, per això, aquest cop ens hem decantat per la variant ‘regular’ de l’algoritme.

99 glifs, 1628 connexions del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Un simple cop d’ull permet veure que la majoria de ternes es disposen certament properes entre elles, encara que no individualitzades (com ja vèiem en la mesura per Pearson pur). Per no repetir la descripció detallada de l’evolució dels resultats de la partició per modularitat, diem que tot i tenir 400 connexions negatives més que el previ, respon de forma gaire bé idèntica al anterior. Entre P=2 i P=0.5 detecta agrupacions clares de ternes de vocals i consonants.

P=2.. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1.. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9.. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8.. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7.. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6.. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

I quan arriba a 0.6 apareixen els mateixos grups no de ternes sinó de ‘menes de variants’, i així continua fins P=0.2, mantenint bé sí algunes ternes però amb presència de grups espuris, i a P=0.1 es trenquen també algunes de les ternes que s’havien mantingut estables en tota la gradació.

P=0.5.. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4.. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3.. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2.. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1.. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

O sigui, queda clar que no és el fet d’incorporar o no les connexions negatives les que produeix aquest efecte de ‘barrera’ en la modularitat si apliquem el factor de confiança E.

Confiança F

Provem ara doncs el factor F (amb connexions superiors a 0,001, ja que sembla que no afecta de forma significativa la pèrdua de connexions negatives i sí produeix unes disposicions espacials més expressives) i si ens tornem a trobar amb aquest fenomen en la modularitat, caldrà pensar que es tracta d’un efecte de la depressió en la magnitud del valor de les connexions que provoquen aquests factors de confiança. En aquest sentit, el graf redueix encara més el nombre de nodes/ lletres i el deixa a 94 ja que s’han quedat sense connexions ï-,ó-,z,z+,z-,ú,ú+,ú- (com dèiem, el factor F sols dóna valors alts si E i Q són alts, i per tant, en general te un efecte depressor més intents) i amb un total de connexions superiors a 0.001 de 1.274, i és el següent:

94 glifs, 1274 connexions superios a 0.001 del corpus català iberitzat i modulat per el factor de confiança F i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Quina diferència!!! Aquest graf d’aspecte anodí, mirat amb cura revela ser extraordinari. No sols presenta la més clara separació entre vocals i consonants (i entre menes de vocals i de consonants) calculada fins ara, és que presenta TOTES les ternes de variants correctament agrupades i properes entre elles (tret de la variant ò que està lleugerament més allunyada de les seves companyes). Quelcom més que remarcable. Aquí tenim un corpus de 30.000 lletres, amb un signari de 102 glifs però 34 caràcters, reduït a un esquema que en retrata perfectament més del 90% en la seva disposició espacial calculada exclusivament a partir de les semblances entre les seves distribucions. Només per aquest graf ja paga la pena tota la feina feta fins aquí!

Però mirem si la modularitat pateix o no d’aquell efecte barrera que es donava amb el factor E. Per tal de no repetir la descripció de cada nivell de granularitat es fixarem especialment en si les grups que marca parteixen o no ternes de variants.

P=2.0. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A P=2, tenim 5 grups, separació vocals/consonants en grups grans, grups petits coherents, 1 terna partida (la de la ò), 1 terna individualitzada.

P=1.0. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1. Igual, amb més grups coherents, 1 terna partida, 1 terna individualitzada.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9, mateix nombre de grups, partició lleugerament diferent, 1 terna partida, 1 terna individualitzada.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8, 8 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.7. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7, 12 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6, 15 grups, tots coherents, 1 terna partida, 5 ternes individualitzades.

P=0.5. 16 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5, 16 grups tots coherents, 1 terna partida, 7 ternes individualitzades.

P=0.4. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4, 19 grups tos coherents, 1 terna partida, 9 ternes individualitzades.

P=0.3. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3, 23 grups, 5 ternes partides, 11 ternes individualitzades.

P=0.2. 26 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2, 26 grups, 5 ternes partides, 14 ternes individualitzades.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1, 31 grups, 8 ternes partides, 9 ternes individualitzades.

Ni rastre de les agrupacions per menes de variants, i a més, un comportament magnífic fins els nivells de granularitat més elevats (fins 0.3 es manté una única terna mal detectada, que ho és en tots en nivells provats i que fa pensar en una situació particular com també presenta la seva disposició espacial lleugerament desviada) i tot i que les deteccions directes de ternes aïllades per modularitat són modestes, és a dir, que la majoria ajunta en un mateix grup més d’una lletra, el fet rellevant és que les particions rarament trenquin les ternes, i per tant dibuixin grups que es poden analitzar bé.

Arribats en aquest punt, queda clar que la correlació de Pearson modulada amb el factor de confiança F i eliminant les correlacions negatives dóna en aquest corpus uns resultats extraordinaris. Ara, la pregunta és: com es comportarà amb el corpus ibèric que és bastant mes dispers? Però aquest apunt ja s’ha fet massa llarg de manera que el tanquem i n’obrirem un altre per comentar-ne els resultats a mida que es vagin produint.

– Actualització 2017-III-14 –

Encara que ja s’està escrivint el tercer apunt d’aquesta inesperada sèrie, ha semblat convenient afegir el que segueix a aquest per què expandeix els seus continguts i per claredat en l’exposició.

Les divisions per modularitat que s’estan emprant en aquestes proves generen una gran quantitat d’informació, que resulta difícil de captar en conjunt. El dibuix del graf per codis de colors és molt útil per una partició en concret, però no per una mirada en conjunt. Rumiant com fer visible aquesta superposició de particions, s’ha dissenyat un mètode que pot ser d’utilitat en la problemàtica concreta que estem tractant aquí.

Per variar, la idea és simple: Si fem un conjunt concret de particions,  ens podem situar en cada un dels nodes del graf, apuntar amb quins altres nodes es veu ajuntat en cada una d’aquestes particions i així construir una llista de nodes ‘propers’, cada un amb una quantitat concreta de grups on es documenta.

En el cas que ens ocupa, hem fet fins a 11 particions, el que farem serà presentar la llista de nodes de cada graf d’aquest apunt, i per cada un, al seu costat els nodes més ‘propers’ (es a dir, de tota la llista, sols els que tenen el nombre més alt de particions en comú). En vermell, anirà el nom del node, i en negre els nodes acumulativament més propers (a més, la mida del font reflectirà també aquesta quantitat).

Per el primer graf, el del corpus en català original, el resultat és:

Mapa d’acumulació de grups per modularitat del corpus català, per coeficient de Pearson.

En aquest primer cas, en no tenir variants a detectar la utilitat del mapa és molt relativa. Sí però permet objectivar que les lletres més properes a una determinada sí tenen la mateixa caixa i que segueixen més o menys la separació vocal/consonant.

El segon, el del corpus iberitzat i connectat per la mesura de Pearson, tenim:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson.

Aquí sí que ja podem avaluar si cada variant té o no les altres en el grup de nodes més ‘proper’. En aquest cas, per exemple, es fa evident que les vocals resulten indiscernibles entre elles per aquest mètode.

La tercera prova feta ha estat el mateix corpus però amb el factor de confiança E i connexions superiors a 0.001, el seu mapa és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001.

Aquí la separació millora, (les vocals per exemple, es diferencien millor, tot i que la a i la e continuen ajuntant-se) però hi han mancances evidents en les consonants.

Afegir-hi els factors negatius ha estat la quarta prova feta, i el seu map resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001 i < -0.001.

Que presenta les mateixes mancances que la prova anterior amb només factors positius.

La darrera prova ha estat fet servir el factor F, també amb connexions > 0.001. El mapa resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson,  amb factor de confiança F i connexions > 0.001.

On podem comprovar que efectivament, gaire bé totes les variants tenen entre els nodes més propers els d’altres variants. La indefinició, (en el sentit que al costat de nodes de variants també trobem nodes aliens) es concentra en algunes de les variants de: a,c,ç,ï,j,n,ò,ó,s,t,u i x. En total, dels 94 glifs del graf, 24 presenten alguna vacil·lació, o dit altrament, un sistema de detecció automatitzada de variants, en aquest corpus, en detectaria correctament com a mínim un 75%.

 


Notes

  • [1] A nivell estructural, cathalaunia.org sembla un creuament entre un wiki i una base de dades. Una forma aproximada i incorrecta seria definir-lo com una base de dades XML amb una presentació web, una de més correcta seria dir que és un programa que pot exportar els continguts que presenta en format XML.
  • [2] Quelcom que els analistes i programadors, i en general al gent del món de la computació fa, com diem, de manera constant i natural. A les solucions genèriques se les acostuma a descriure com ‘lliures de domini’ per expressar que funcionen sense aportacions de cap domini del coneixement aliè al matemàtic. Altra cosa és que a nivell pràctic les tècniques més fructíferes usualment neixin del creuament de tècniques genèriques o ‘lliures de domini’ amb coneixements del ‘domini’ dels problema a tractar. Un exemple relativament recent: en el camp del tractament informatitzat de la veu humana, no s’ha avançat de forma significativa en la seva síntesi fins que no s’han emprat models que reprodueixen els sistemes fonadors biològics. De nou, el principi general i la seva particularització (variant els paràmetres que defineixen el model ens podem aproximar més o menys a la ‘particularitat’ de cada una de les veus existents en la natura)
  • [3] Una altra millora ha estat l’eliminació d’epigrafies duplicades. En el corpus inicial hi havia aproximadament un 1% d’entrades que eren relectures o simples duplicacions d’altres entrades. En l’actual, han estat eliminades (tot i que no es descartable que n’hagi escapat alguna).
  • [4] Com que les connexions no tenen perquè formar una mètrica, la seva disposició no té per què ajustar-se a les restriccions d’un espai euclidià (per exemple: tres punts formen sempre un triangle i en un tal espai els angles interns hauran de sumar 180º, però si en comptes de longituds estem parlant de connexions, això no s’ha de complir).
Publicat dins de català, cathlaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, ForceAtlas2, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric | Etiquetat com a , , , , , , , , , , , , , , | Deixa un comentari

2017-febrer a cathalaunia.org

De cop, final de mes. Febrer ha estat un mes ibèric a cathalaunia.org, més del que es preveia.

El web ha rebut una millora global en forma de sistema de navegació entre les dades que es presenten. Com és manifest, és l’objectiu de  cathalaunia.org publicar un seguit de dades objectives sobre la història de Catalunya anterior al segle XII. I per fer-ho defineix i agrupa una sèrie de tipologies de dades, ja siguin: documents altmedievals, epigrafies ibèriques, bibliografia sobre el període visigot, antroponímia altmedieval o el que sigui, i per cada tipus, un conjunt de pàgines numerades, una per a cada ítem rellevant en la seva classe. La millora consisteix en uns botons de navegació en forma de fletxa situats en la part superior esquerra cada ítem, que amb un sol clic, permeten anar al extrems (primer o darrer) o als ítems immediats (previ o següent) del conjunt de dades que s’estigui consultant en un moment donat. És una millora aparentment simple i que feia temps que es volia incorporar, però que no ha trobat la manera adient de fer-la realitat fins aquest mes.

Aquest bloc ha tingut una entrada dedicada a descriure un mètode quantitatiu per mesurar el grau de correlació existent entre les ‘variants’ d’un mateix ‘caràcter’ del signari de l’ibèric nord-oriental (segons les agrupacions fetes per els filòlegs) atenent entre quins glifs es troben. No estava pas previst, però sorgí la idea i calia fer la prova. El resultat és que es poden documentar graus de correlació de Pearson positius (però baixos, la majoria per sota 0.5) per a 89 glifs del signari que s’agrupen en 24 ‘caràcters’. La dispersió de les dades (a prop de 200 glifs en un corpus de menys de 25.000 lletres) fa que – si més no de moment – no es pugui parlar d’evidències gaire clares, tret d’uns pocs glifs.

La Secció Ibèrica i Romana ha concentrat la feina. Per una banda s’ha incorporat un nou gruix d’esquemes d’inscripcions per tal de validar els continguts presentats, i ja són més de dos terços les epigrafies que disposen d’aquest mecanisme. També hi ha hagut la prova estadística comentada abans, sobre l’evidència real de les agrupacions sígniques actuals. A més ja ha aparegut el volum del 2016 de la revista Paleohispànica i cal incorporar les novetats epigràfiques registrades (tot i que en aquesta vegada, una bona part ja estaven presents en el corpus). I per si fos poc, altres obres d’aquest mateix any documenten desenes de noves inscripcions que també caldrà incorporar. De manera que semblava al començar el mes que amb quinze dies endreçàvem la carpeta ibèrica, i arribats a fi de mes encara hi ha un munt de feina per fer. Ars longa, vita brevis

A darrera hora s’ha decidit incorporat una millora programàtica en el mecanisme de cerca del corpus epigràfic i detecció de seqüències. Esperem haver-ho fet bé, però si es detecta alguna disfunció inesperada, s’agrairà que es faci saber per tal de corregir-ho el més ràpid possible (la cerca en el corpus és una de les sub-seccions més actives).

La secció de l’Alta Edat Mitjana i en especial el Fons Cathaluania són els grans absents del més. Hi han millores puntuals però s’esperava que si més no en la segona mitat del mes ja es pogués tornar a dedicar-s’hi plenament; no ha estat així. Afortunadament, el poc que hi ha hagut ha estat de qualitat, encara que no tingui per ara visualització.

La Bibliografia del mes reflecteix el predomini ibèric i les noves aportacions han compensat les lectures  fetes, de manera que la cua de ‘pendent de llegir’ continua en els 360 títols (no hi ha manera que baixi…).

Com és habitual, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.684 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathlaunia.org, Fons Cathalaunia, Iberika | Etiquetat com a , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental.

Havent acabat -momentàniament- la incorporació d’esquemes a les epigrafies en ibèric nord-oriental del corpus de cathalaunia.org, i abans de passar a incorporar un conjunt de glifs nous als 188 actualment existents que aquesta tasca ha propiciat, un pensament s’ha colat inesperadament en els plans d’activitat prevists i ha obligat a fer-ne cas tot alterant la planificació esperada. És el que té la curiositat: quan pica t’has de rascar. D’això parlarem aquí, i com es pot veure en el títol, té a veure amb la diversitat del signari ibèric nord-oriental.

La idea directriu del corpus epigràfic ibèric de catahalaunia.org, com també ho era del seu corpus germinal, el de ibers.cat, és reflectir informàticament la varietat del signari ibèric original i evitar estudiar les dades a partir de transcripcions del seus (suposats) sons. Na Carme J. Huertas definí originalment una codificació amb poc més de 135 glifs (la idea és assignar un número únic a cada glif), i aquesta és la que s’emprà inicialment a cathalaunia (tret d’unes poques variacions en la codificació de les discontinuïtats i dels signes desconeguts). Posteriorment, es publicà la proposta de codificació Unicode de l’ibèric nord-oriental per el grup LITTERA de la UB, que definia uns quants glifs més (metrològics, i un parell de variants)[1]. Encara en un tercer moment i a partir dels comentaris fets a una anàlisi sobre las co-aparicions de variants publicat en aquest bloc, es qüestionà la fiabilitat de les dades del corpus, motiu per el qual es decidí incorporar els esquemes, les representacions gràfiques, de cada una de les epigrafies presents en el corpus com a mecanisme de verificació pública i matar d’arrel tota possible crítica en aquest sentit.

En una primera tongada, s’incorporaren gairebé el 50% de les inscripcions i es pogué comprovar que la taxa d’errors (signes mal transcrits) era baixíssima (menys de 15 signes no coincidents en més de 1.500 epigrafies). El que també es constatà, fou la conveniència d’incorporar més variants per apropar encara més la representació informàtica a l’original, que és, com dèiem, l’ànim inicial del corpus. Les novetats tenien dues tipologies ben diferenciades: o bé eren signes desconeguts (hàpax) o bé variants noves de signes ja coneguts. Els hàpax lògicament són aparicions puntuals de signes que fan de mal interpretar, mentre que les variants a afegir, tot i ser poques, sí es poden detectar en un nombre significatiu d’epigrafies, d’aquí la conveniència de la seva incorporació. En total, s’afegiren unes desenes de signes nous fins arribar als 188 actuals[1].

En la segona i darrera tongada d’incorporacions d’esquemes feta, que ha permès superar els dos terços d’epigrafies amb verificació, també s’ha plantejat la conveniència de crear uns quants glifs nous; de nou, unes poques variants i uns quants hàpax més. Però ha estat aquí, just abans de procedir a efectuar un altre canvi en profunditat en el signari (i no és sols crear el nous signes i posar-los als llocs adients de les epigrafies, cal també ajustar totes les eines de tractament informàtic i de cerca) que la idea d’un possible mètode quantitatiu per mirar detectar variants va fer aparició i ha fet aturar momentàniament el treball. Això és el que comentarem aquí, aquest mètode i els seus resultats.

Variants

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

Concretant-ho. Podem mesurar entre quines lletres apareix, i esperar que si, per exemple, hi han vàries ‘A’s, es trobin cada una d’elles, en general, al costat de les mateixes lletres. No es evidentment un principi d’obligat compliment, res impedeix que dues lletres diverses apareixin al costat d’unes mateixes lletres, ni tampoc és una qüestió de blanc o negre, ben al contrari, la qüestió però, és que sí pot ser un indici rellevant i té la gran virtut de ser perfectament objectivable. Mesurarem doncs per cada glif, al costat immediatament de quins glifs apareix, fent parelles amb el glif anterior i el posterior. És a dir, per a cada glif anotarem quantes vegades el trobem entre una parella de glifs determinats, cosa que ens proporcionarà un vector de nombres per cada glif que podrem comparar entre ells. És en entrar als detalls que la cosa es complica…

Per començar mostrem el signari amb les freqüències de cada glif en el moment de fer aquesta prova:

ibset-6

178 glifs suposadament fonètics.
Mides alterades per mostrar gràficament la diferència entre el més freqüent amb 1565 aparicions i d’els que en sabem només 10 o menys.
En gris els glifs definits però no existents en el corpus.

En principi, si tenim uns 170 glifs, en teoria, tindríem 28.900 possibles parelles, o sigui que per cada glif, anotem quantes vegades el trobem entre cada una d’aquestes 28.900 parelles. Ara bé, el corpus total existent no passa dels 25.000 caràcters, i de mitjana, un glif hauria de sortir només unes 140 vegades, de manera que és evident que la immensa majoria d’aquestes 28.900 parelles no es donaran mai, és dir, tindran sempre un valor 0.  Per mirar de reduir aquests milers de valors a 0, es podia d’entrada ignorar els de les parelles de signes que no es donen mai en el corpus. Això ens deixa amb menys de 5.000 parelles documentades al menys un cop, un nombre encara molt gran si pensem que la majoria de signes es documenten només algunes desenes o algun centenar d’aparicions i que encara seran menys les parelles de signes entre les que es trobin.  Amb tot, era un inici, i per mirar de comparar aquestes distribucions, es pensà en utilitzar el mateix coeficient de correlació de Pearson que s’havia emprat recentment per comparar les distribucions de sons entre el català, el castellà, l’eusquera i el llatí versus el desxiframent actual de l’ibèric nord-oriental[3]. La diferència està en que allí eren uns vectors petits (de 12 valors) i amb una distribució força simple i fàcilment classificable, aquí en canvi, tenim vectors amb milers de valors a 0 i sols uns pocs valors positius, és a dir, que ja d’entrada s’assemblen molt entre ells per tenir tots molt poca informació diferenciable.

Una primera prova va mostrar que una de les peculiaritats de la codificació de cathalaunia tenia uns efectes desproporcionats. Es tractava que en el corpus es codifica tant les discontinuïtats en els suports com els signes no identificats amb un mateix codi (256), que atesa la fragmentarietat de moltes de les inscripcions, resulta ser de llarg el codi numèric més freqüent, i les parelles (abans-després) que l’incloïen eren molt determinants, sense però que aquesta informació sigui de valor per la tasca que aquí ens interessa, que és determinar quines lletres van preferentment després de quines altres. La solució ha estat salomònica: eliminar totes les parelles que continguin aquest codi. Això ha reduït el total de parelles abans-després a 4.251 i és la base inicial sobre la que es van fer les mesures.

El procediment a seguir podria ser -inicialment-:

  1. Busquem els dos glifs (X i Y) amb la distribució de parelles entre les que es troben més semblant, i si efectivament, sabem que es suposen ser variants d’un mateix signe/so, els unifiquem (per exemple, convertint Y en X o viceversa).
  2. Fet això, tornem al pas 1, fins que no hi hagin més candidats a reunificar. A veure fins on s’arriba.

El procediment era simple però implicava la seva repetició desenes de vegades i l’anàlisi dels resultats va acabar recomanant un mètode diferent, com veurem tot seguit.

Una altra de les peculiaritats de la distribució de les dades que afecta directament als resultats era la seva dispersió. El coeficient de Pearson pot detectar factors de linealitat alts entre vectors que no tenen valors en comú i atès que la majoria de glifs apareixen en poques ocasions i de retruc entre encara menys parelles, la probabilitat de detectar aquesta mena de casos era molt alta. La solució, tot i que parcial, de nou va ser salomònica, eliminar de la comparació els 59 glifs que apareixen 10 o menys cops en tot el corpus; això reduí encara més el conjunt de dades, però no n’alterava la seva tipologia general.

ibset-9

El signari ibèric amb els glifs amb 10 o menys aparicions marcats en gris.

Per mirar de visualitzar el que s’està mesurant, imaginem una matriu de 4.251 columnes i 5.886 files, és adir, de més de 20 milions de nombres, on tot són 0s excepte 10.711 caselles, un únic valor positiu per cada 2.000 0s. El que fem és comparar les files de dues en dues (per definició X vs Y és idèntic a Y vs X) i mesurar-ne el grau de correlació lineal entre elles (recordem que el coeficient de Pearson es mou entre 1=correlació lineal perfecta, 0=no correlació, i -1=correlació lineal inversa perfecta). Col·loquialment: gairebé caçar mosques.

Resultats

Feta la primera mesura, els resultats eren clars: de les 5.886 comparacions, sols 205 tenien coeficients superiors al 0.1, mentre que el valor més baix era de -0.05, amb una gran acumulació de valors al voltant de 0, com era d’esperar si pensem que estem bàsicament comparant vectors quasi nuls. Mostrem aquests 205 resultats superiors a 0.1 (ordenats de dalt a baix i d’esquerra a dreta).

pg-0

Els resultats de la mesura sobre els 164 glifs (ignorant els que apareixen 10 o menys vegades).
En vermell els glifs que actualment es consideren ser variants.
En verd parelles properes per forma o so però no considerades variants.

Veiem que efectivament, la correlació més alta correspon a un parell de variants del signe Ke (codis 112 i 118). Si apliquéssim l’algoritme anterior els unificaríem, és a dir, en comptes de 164 glifs passaríem a tenir-ne 163 (les freqüències dels glifs 112 i 118 s’haurien sumat) i tornaríem a calcular-ho tot. Però també semblava evident que amb un conjunt de dades tan dispers, passar de 164 a 163 glifs, no alteraria de forma significativa les dades, de manera que veient que efectivament les parelles de variants detectades s’agrupen majoritàriament en la part alta dels valors, es procedí a fer una simplificació més gran acceptant totes les parelles detectades amb un coeficient més gran de 0.1 (les marcades en vermell en la taula anterior). Gràficament:

ibset-3

Una primera reducció, totes les parelles de variants amb un coeficient superior a 0.1.
En petit els glifs agrupats.

Això deixà un conjunt de 118 glifs amb 3.079 parelles abans-després detectades, i 1. 953 comparacions possibles, que de nou, filtrant els valors superiors a 0.1, dóna:

pg-1

Segona comparació entre 118 glifs (ignorant el que apareixen 10 o menys vegades) .

On ja es pot veure que les parelles de variants detectades són moltes menys i ja no s’acumulen en la part alta dels valors. Si agrupem encara aquestes parelles de variants, tindrem el següent signari:

ibset-8

Signari amb la segona reducció de variants.
En vermell les variants detectades en la segona comparació.

Feta aquesta segona agrupació ens deixa amb 99 glifs, 2.555 parelles abans-després i 946 comparacions possibles. Feta aquesta tercera mesura ja no és detecta cap parella de variants amb una correlació major a 0.1[4].

De manera que el conjunt de variants detectades en aquest procediment es concreta en: 89 glifs agrupats en 24 signes.

ibset-10

Agrupacions de variants amb coeficients de correlació de Pearson superiors a 0.1.

Comentaris

Presentades les dades, el procediment i els resultats, cal abans d’acabar, comentar els resultats ja que hi ha força a dir. Per començar i abans d’entrar en les consideracions generals, analitzar amb un xic de detall els resultats amb coeficients més elevats.

Ja hem vist que el coeficient més alt sí corresponia a una parella de variants, però el segon ja no, es tracta d’una parella ‘BaTe‘ (codis 83 i 103) . Els signe Ba, no sols és el més freqüent del corpus (1565 aparicions), es també emprat com a numeral de manera que tenim grups consecutius de signes Ba en moltes epigrafies, i per tant, resulta que la parella de signes entre els que es troba més freqüentment un signe Ba, és una parella de signes Ba. Per contra, el signe Te amb forma d’un rombe partit en quatres rombes, es documenta sols en 49 ocasiones, però si mirem entre quins signes apareix, resulta que la parella més freqüent és entre signes Ba (hi han set epigrafies amb la paraula BaTeBa). De manera que ja veiem el perquè d’aquest alt grau de correlació, aquest Ba i aquest Te tenen en comú que la seva principal component és trobar-se entre signes Ba.

El tercer i quarts coeficients (i també el setè) van interrelacionats, i gràcies a aquesta anàlisi s’ha detectat la necessitat d’incorporar una nova variant en el signari que havia escapat totes les mirades fins ara. El tercer coeficient més alt correlaciona un signe Te (codi 105, 95 aparicions) i un signe Tu (codi 235, 36 aparicions). Si mirem els valors de les seves  distribucions, veurem que sols tenen en comú dues parelles (una d’elles amb el valor mínim 1, i l’altra corresponen al valor màxim de cada un d’ells (una E i una I), d’aquí l’elevat coeficient.  Però és que la quarta correlació també és respecte aquest mateix glif Tu, ara però amb un signe Ka (codi 187, 35 aparicions) i el setè coeficient tanca el triangle correlacionant el Te inicial amb el signe Ka. En l’anàlisi es veu que l’evidència compartida és similar a la ja comentada, gairebé mínima, de manera que ens troben en aquella mena de casos extrems en què la correlació de Pearson resulta poc intuïtiva; però en la taula de resultats veiem que la correlació respecte del Tu codi 245 vers al signe Ka codi 187 sí està marcada com una parella de variants, com és això? Doncs la resposta és que gràcies a aquest anàlisi ha estat possible adonar-se que de glifs amb forma de V invertida no n’hi havien dos (el més freqüent amb més de 800 aparicions, codi 57, considerat una forma del so L, i el codi 235, transliterat com un Tu poc habitual), sinó tres, amb un tercer so correlacionable amb el so Ka. com veiem. El punt està en què resulta que era una possibilitat que ja s’havia fet notar prèviament[5], en constatar que si bé el signes Ke, Ka semblen girats 90º entre sí, els primers sí tenien una forma sense travesser que mancava en els Ka: que és just el que aquest joc de correlacions delata quantitativament. L”evidència es concentra aparentment en una sèrie de monedes amb la llegenda Sekaisa però atesa la semblança formal dels signes cal preguntar-se si no hi han també altres Ls que podrien ser Ka en el corpus.

Els dos coeficients següents, els cinquè i sisè corresponen a dues parelles de variants de Ke, el setè ja l’hem comentat i el vuitè, s’assembla molt al segon, tota vegada que correlaciona un signe Ti (codi 126) amb el mateix signe Ba d’abans, i és que de nou, el signe Ti forma part dels numerals i sovint es troba rodejat de signes Ba. Les sis següents correlacions corresponen totes a parelles de variants i tindrem que anar fins la quinzena correlació per trobar una parella E (codi 42) i un Ta (codi 85) que en l’anàlisi revelen no tenir cap coeficient en comú i ser per tant un altre cas atípic.

Ara, obrint la mirada i deixant el comentari detallat, per una banda resulta notable que amb unes dades amb un tal grau de dispersió i amb un corpus tan escàs tenint en compte la seva variabilitat sígnica, s’hagin pogut detectar desenes de variants per el mètode de comparar entre quins signes apareixen, especialment si considerem que la mesura de correlació emprada (la de Pearson) presenta en aquesta mena de distribucions resultats que poden semblar contraintuïtius. Alternativament, i com indicava ja la teoria, que dos signes apareixin més o menys al costats d’uns mateix signes no implica en cap cas la seva equivalència, i a mida que relaxem el grau de correlació és del tot esperable que apareixin signes clarament diversos que sols tenen en comú el fet de figurar més o menys al costat d’uns mateixos signes, que és just el que trobem en els resultats.

Si mirem les agrupacions de variants detectades, també resulta curiós notar que si bé es detecten algunes de les variants, no és així per totes, i en concret, resulta destacable que en els signes Be, es diferencien les agrupacions entre si el signe està cap amunt o avall. Una distinció que analitzant la forma dels signes ja semblava abans rellevant si considerem que estem davant d’un signari que, per exemple, en els signes Ka, Ke, com dèiem, diferencia entre una rotació de 90º; resulta per tant estrany pensar que contràriament s’unifiquin girs de 180º. Les agrupacions trobades les separen, i encara que cal evidentment atendre a altres consideracions per desbrinar el seu desxiframent, no deixa de ser una dada a tenir en compte.

Coda

Arribats aquí, i veient que el factor objectivable que més distorsió aporta a la interpretació dels resultats és el comportament de la correlació de Pearson en dades disperses, s’ha provat un conegut heurisme que mira d’escalar els resultats segons la quantitat de valors no nuls que es comparen. La idea és que a menys factors comuns, menys factor de correlació. No passa de ser un pedaç, ja que la correlació té una explicació geomètrica ben sòlida, mentre que voler que el seu resultats s’adaptin a un cert motllo, no passa de ser un problema d’interpretació, i per tant, una simple conveniència. Amb tot, havent fet ja aquest treball, fer la prova no era complicat, de manera que s’han fet uns quants intents en aquest sentit, i ja posats a fer, s’ha aprofitat per introduir alguna petita millora en el model[6], però tot i així, els resultats no són més clars que els exposats aquí. De manera, que la pràctica aconsella donar per bona l’aproximació inicial, més simple i canònica.

Les comparacions dels recomptes de com es distribueixen els glifs, en ser mesures graduals[7], no poden donar certeses, ja hem dit al començar que era evident que lletres diferents poden tenir distribucions similars, el que sí ens aporten són dades objectives. Dades que neixen de disposar d’un corpus codificat i informatitzat amb un alt grau de semblança a l’original. Sense aquest element (actualment sols disponible a ibers.cat i a cathalaunia.org), cap treball quantitatiu podrà ser verificat independentment per tercers que és un dels requisits bàsics de la Ciència.

Lo presentat en aquest apunt és una foto puntual; com diem, s’incorporaran nous glifs (i aprofitant l’avinentesa s’eliminaran els glifs no documentats) i la codificació de les dades i per tant aquests resultats canviaran lleugerament. Hagués estat millor postposar aquesta anàlisi per després dels canvis? Potser sí, però fixem-nos que si més no per el que fa al glif amb forma de V invertida i so Ka, ha estat el fet de fer aquesta prova el que l’ha posat de manifest. I és que el procés d’adequació del signari als originals és un procés retroactiu i treballós (per exemple, caldrà tornar a repassar totes les epigrafies per comprovar que es registren  totes les aparicions dels nous glifs). Un treball de codificació i publicació del corpus resultant que sembla mentida que hagi de dependre d’iniciatives no institucionals.

– Actualització 2017-II-24 –

S’ha corregit un error de transcripció dels resultats que havia comportat que el darrer quadre amb les agrupacions resultants hi manqués informació (82 glifs en 22 grups vs. 89 en 24 en el recompte correcte).

 


Notes

  • [1] No tocarem aquí el tema de la problemàtica d’aquesta codificació, ja n’hem parlat abastament en aquest bloc.
  • [2] Cal entendre que com que la incorporació de nous glifs es fa a posteriori de la seva detecció, en els casos de variants de signes ja coneguts, es possible que no totes les epigrafies hagin estat convenientment actualitzades i que caldrà una segona repassada per incorporar-los plenament.(s’anoten i actualitzen les que es detecten un cop es fa evident l’existència del nou glif, però no les processades amb anterioritat)  Amb tot, com que en la immensa majoria de casos la diferència és sols entre una variant que ja s’assembla a l’original i una d’encara més semblant, tampoc és una qüestió especialment delicada i es pensa anar ajustant gradualment..
  • [3] Treball que també va ser publicat en aquest bloc.fa poc.
  • [4] Els resultats superiors a 0.1 d’aquesta tercera mesura es poden veure en la següent taula:

    pg-2

    Resultats superiors a 0.1 de la tercera reducció de glifs.
    Cap parella de variants conegudes detectada.

  • [5] Es pot veure si es disposen els glifs segons aparença, per exemple:
    iberglifs

    Glifs per aparença per graus de complexitat.
    En verd les mateixes figures en blau amb un traç vertical inferior afegit.

    .

  • [6] Concretament: unificar tots els glifs separadors de paraula (els formats per una columna de punts) en un únic glif, ja que no sembla que estar al costat d’un separador de dos punts ens pugui aportar cap informació rellevant diferent que estar al costat d’un de tres o d’un de quatre. I en segon lloc, un tecnicisme: mirem el glif abans i després de cada un dels signes, però que fem amb els que estan a l’inici i al final d’una inscripció? En tot el procediment explicat aquí, el que es va fer va ser inserir abans i després de cada epigrafia un caràcter 256 (el de les discontinuïtats). Desafortunadament, com hem explicat, en la fase posterior totes les parelles que contenien aquest caràcter s’eliminaven, i per tant, es perdia la informació del primer i del darrer glif. La solució ha estat inserir un espai, en comptes d’un 256. Amb tot, i com es comenta amunt, cap d’aquestes millores ha resultat tenir un efecte clarament perceptible.
  • [7] La quantitat de mesures de correlació és pràcticament infinita. El fet d’emprar una mesura de correlació lineal com la de Pearson i no d’altres més genèriques com la de Spearman (monotònica) o semblants es deu a preferir sempre que sigui possible la aproximació més simple.En altres termes, caldria donar una raó per poder pensar que una mesura més complexa seria preferible en aquest domini en particular.
Publicat dins de Carme J Huertas, cathlaunia.org, coeficient de Pearson, coeficient de Spearman, comparació de variants, detecció de variants, epigrafia ibèrica, grup LITTERA, ibèric nord-oriental, Iberika, ibers.cat, Signari ibèric, UB | Etiquetat com a , , , , , , , , , , , , | Deixa un comentari

2017-gener a cathalaunia.org

Gener ha estat un mes llegit, molt llegit. I és complicat per un amant dels llibres com el que escriu reconèixer que des de fa ja un temps la pantalla ha substituït el paper. No en el plaer específic de la imitació de Sant Agustí d’Hipona, on el paper venç de llarg, però és que la practicitat de poder llegir i al mateix temps anar anotant i a més, integrar tant els texts com les notes en un sistema integrat de consulta no té parangó. Potser si Hefaistos i Enki volen podrem tenir aviat paper electrònic per poder llegir sota el sol amb dispositius informàtics, com fem amb el paper normal (si no vaig errat la tecnologia base ja està esbossada de fa temps) i a l’hora poder fer la tasca de Nisaba. I posats a demanar, anem un pas més enllà i creem una tecnologia de  presentació que funcioni contínuament entre llum reflectida i llum emesa i així poder llegir en qualsevol condició de llum (això sí que no hem sona que estigui ja en els laboratoris).

La secció Ibèrica i Romana ha rebut el gruix de la feina del mes, bàsicament consistent en continuar la tasca de incorporar els esquemes de les inscripcions per poder-ne validar la seva correcció. La bona nova està en què ja hi han més entrades amb esquema no pas sense. Encara s’està a mig incorporar un bloc d’epigrafies, de manera que es previsible que el mes que ve també estigui marcat per aquesta activitat. El treball resulta interessant perquè a part de repassar les entrades una a una, permet concretar la pluralitat de formes dels glifs, la darrera tongada en va aportar una trentena de nous i en aquesta també s’esperen algunes incorporacions més. Convé no deixar-ho a mig fer, ja que un cop recopilats els nous glifs cal incorporar-los en el corpus, en la font TrueType iber.ttf i en les eines de cerca del web i és una tasca delicada.

Aquest bloc ha tingut una entrada de temàtica altmedieval (ja era hora!) dedicada a Santa Maria de Riudaura en la generació dels pares del Pilós. Un tema que dóna molt de si i que així que es pugui continuarem comentant. Ganes no en falten.

La Bibliografia, amb tanta lectura, hauria de reflectir-ho més del que ho fa; i el motiu que no ho faci és perquè la majoria de lectures del mes ja havien estat incorporades en el web prèviament. L’acumulació de lectures pendents, havia arribat a superat els 450 títols el desembre, i en acabar el gener està en els 360; continuant al mateix ritme en quatre mesos fem net… (Ni de conya!) Però sí resulta curiós observar la llista cronològicament, ja que indirectament hi pots veure les temàtiques o tòpics que en van propiciar la seva incorporació i fins a cert punt els viaranys per on ha anat circulant l’atenció o si voleu, la curiositat. I encara més de retruc, el motiu particular de cada volum per estar encara en la cua dels pendents tot i que la temàtica que el va dur allí sí va estar raonablement analitzada, més enllà del fet genèric que sempre hi ha més a aprendre del que un voldria…

Per variar, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.652 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathlaunia.org, Fons Cathalaunia, Iberika | Etiquetat com a , , , | Deixa un comentari

L’alou de Santa Maria de Riudaura l’any 850.

Aquest apunt arriba amb més de mig any de retràs i encara bo, ja que es podria endarrerir força més si es volgués tractar amb un mínim de fonament les moltes derivades que la seva temàtica planteja, però les ganes de tornar a parlar sobre l’alta edat mitjana catalana han pogut més que l’insaciable desig de completesa.

L’alou de Santa Maria de Riudaura serà objecte de disputa en els segles X i XI i donarà lloc a un conjunt de documents manipulats que genèricament podem denominar com els falsos de Riudaura, tema apassionant, però que no tractarem en profunditat aquí, tota vegada que fer-ho requereix tenir un coneixement cabal dels contexts en els que tingueren lloc els fets i el que això escriu no els té pas. Sí podem, però, fer un breu resum de situació i apuntar algunes consideracions derivades de l’anàlisi de dos dels seus documents que estan interrelacionats i que sí han estat incorporats ja en el Fons Cathalaunia:  la consagració de l’any 850 i uns regests d’una altra consagració presumptament feta l’any 950[1].

Si hem d’esquematitzar la posició actual, diríem que segons la lletra, Santa Maria de Riudaura es consagrà en un primer moment l’any 850, en la generació dels pares del Pilós. Ja entrat el segle X, el matrimoni comtal Sunyer I de Barcelona i Riquila hi feren reformes i cediren l’alou al llunyà monestir de la Grassa, casa de la seva predilecció on representa que hi morirà el propi Sunyer (la majoria de la documentació a: Magnou-Nortier, Elisabeth + Magnou, Anne-Marie : 1996 : “Recueil des chartes de l’abbaye de la Grasse”). Cessió de la qual tenim varis documents de donació comtal i que es veu confirmada en el testament de la seva muller; texts que van del 936 al 954 i que també han estat qualificats de sospitosos[2]. Serà per fi en el segle XI quan la disputa per el seu control esclatarà obertament, moment en el qual es suposa que es confeccionaren/alteraren la majoria de documents relacionats (si és que no s’havia fet abans). De fet, els dos documents que comentarem han estat considerats fins i tot invencions del monestir[3], de manera que la consagració inicial podria no ser el 850 sinó en algun moment desconegut anterior a la mort de Sunyer. Posició no pas sense fonament ja que certament els documents mostren signes d’alteració, però és precisament d’això que parlarem, ja que a semblança del que hem comentat en aquest bloc sobre l’herència de Radulf a Ripoll i d’Emma a Sant Joan de les Abadesses, el que expliquen els documents no pot ser rebutjat sense més per poder haver estat manipulats en algun moment posterior als fets, tota vegada que mostren una disposició coherent tant en el plantejament general com en els detalls. En el cas de Riudaura creiem que passa quelcom similar, però és un exemple més complicat i cal desfer primer un bon grapat de nusos. Entrem al detall.

Riudaura 850

Per començar, el document de la consagració de l’any 850, tardaner, incomplet i amb clars anacronismes (per exemple, una formulació similar a la consagració de Santa Maria de Ripoll del 977[4]), presenta un comte i marquès Guifré, que havia estat identificat tradicionalment com el Guifré d’Arrià de la Gesta Comitis Barchinonensium[5], el pare biològic del Pilós, de manera que les incoherències del text han estat llargament comentades i analitzades per els contraris al que diu la GCB, que formen des de fa temps el gruix de la historiografia acadèmica. No entrarem aquí en el tema de la paternitat del Pilós tota vegada que es mereix un apunt propi, però si avençar que es poden reconciliar les dues versions existents, l’actual i la tradicional, sense masses dificultats (tret de les derivades de la inèrcia acadèmica a l’hora de construir el consens, però aquestes, són evidentment rèmores extrahistoriogràfiques). El fet, és que sí tenim documentació d’un comte Guifré a Girona en la generació dels pares del Pilós[6] i si recordem que la titulació de marquès es multiplicarà en els segles X i XI a casa nostra,  el comte i marquès Guifré del text, podria ser índex del moment d’una refacció posterior del text (per exemple, en temps del propi Sunyer, aquesta doble qualificació és molt freqüent).

L’altra gran dificultat està en l’altre protagonista, un bisbe de Girona Soniofredus, i va relacionada amb la datació del document, l’única part de l’escatocol que ens ha arribat, i que diu:

Perhacta sunt enim haec anno Incarnationis dominicae DCCCL. , VIII. kalendas octobris , anno XI. regnante Karulo , gloriosissimo rege.

Com que el VIII tant es pot entendre com referit a les kalendas o a l’any de l’Encarnació, tradicionalment el document ha estat datat en el 858. Any que d’entrada no s’avé amb l’onzè de Carles i en que qual sabem segur que no pogué existir un bisbe Soniofredus[7] ja que tenim a Elies a partir del 853, seguit de Teuter l’any 870 i el que és més definitiu, un document de finals del s. IX que explicita que Teuter succeí a Elies. De manera que un Soniofredus a l’any 858 ha estat llegit per els que consideren el document com una falsificació completa com una mostra més de la inventiva dels de La Grassa, al igual que el marquès Guifré (i no els hi falten indicis, cal recordar que Seniofred és un nom molt conegut del monestir, sense anar més lluny, l’abat homònim de la generació del Pilós). De fet, fins i tot es pot donar raó d’aquest onzè de Carles en un any 858, com fruit de la utilització de la cronologia de Gotmar (escrita a mitats del s.X) que sí presenta un rei Carles a partir de l’any 848, i sumar-ho als paral·lelismes amb la consagració del 977.

Però també és evident que aquesta lectura es pot obviar si recordem que l’any onzè de Carles el Calb sí correspongué efectivament al 850, i que per tant, el VIII es pot referir al dia i no a l’any. I de retruc tenim que un bisbe de Girona Soniofredus a l’any 850 ja no és tan fàcil de rebutjar ja que la darrera menció del bisbe Gotmar és a inicis d’aquest mateix any i la primera d’Elies no serà fins el 853. Cal recordar a més, que el context de l’any 850 és extremadament volàtil, ja que s’està en la part final de la revolta de Guillem, el fill de Bernat de Septimània, que segons el contemporani Sant Eulogi tenia revoltada tota la Gòtia.

wikipedia-800px-riudaura_01_catalonia

El monestir de Santa Maria de Riudaura avui en dia.
Imatge de wikipedia.org

Un tercer element que es pot intentar examinar, en aquest cas, prosopogràficament, són la resta de figurants del document. El text manca d’escatocol i la seva habitual corrua de signants, però sí esmenta a sis religiosos al costat del bisbe: dos arxiprestes, Giscafredus i Adalardus, i quatre sacerdots, Persinetus, Argibadus, Durandus i Rodegarius. Desafortunadament, el bisbat de Girona del 850 és un context molt poc documentat (no serà fins el darrer terç del segle que començarem a tenir un volum significatiu de documents), i per si fos poc, a més, aquests documents encara no han estat processats en el Fons, de manera que la verificació prosopogràfica, només s’ha pogut fer per ara respecte a documents posteriors. Tot i així, el resultat és força interessant. Dels sis, en tenim cinc que tenen homònims i amb titulació semblant en l’acta d’entronització feta cinquanta-vuit anys més tard del bisbe de Girona Wigo, un document on hi trobem la flor i nata del bisbat a inicis del s. X i amb més de mig centenar de signants. Allà hi podem trobar entre ells, un arxipreste Giscafredus i uns preveres Perasicius, Argibadus, Durandus i Rodegarius; gent no pas indocumentada, ans bé que podem localitzar en altres documents del bisbat a inicis del segle X. Però estem parlant de l’any 850, i per tant, no és concebible que es tracti dels mateixos individus, de manera que si volem pensar en un text inventat, els documents del bisbat d’inics del segle X serien una possible font. Ara, en sentit contrari també podem enumerar una sèrie de consideracions. En primer lloc, que la correspondència no és completa, sols aproximada. En segon, que són noms bastant freqüents. En tercer, que tampoc es pot descartar una certa recurrència onomàstica pròpia del context, ja sigui per tradicions familiars o de la casa. I finalment, que fins no haver processat la minsa documentació del context i poder verificar qui apareix o no en el bisbat de Girona aquells anys no es pot descartar que es tractin de coincidències. Ara, com indici de falsificació no pot ser ignorat, com els anacronismes evidents i les proximitats terminològiques i de formulació amb documents de finals del s. X.

Però queda un element més per examinar i és precisament en aquest que trobarem els elements que fan pensar que tot i les més que possible refaccions, el que expliquen els texts té la seva part de veritat. Parlem de l’alou de Santa Maria i de com s’incardina amb el de Sant Joan de les Abadesses.

L’alou

La vall de Riudaura i la de Vallfogona, formen part d’un mateix plegament geològic que va en sentit est-oest que es veu ortogonalment partit per la serra de Santa Magdalena en el vessant sud i amb el coll de Canes com a punt de separació. A l’est, la vall de Riudaura, ens portarà fins la part nord de la Vall d’en Bas, mentre que a l’oest, la vall de Vallfogona corre a l’oest en direcció a Ripoll, però es veurà tancada abans d’arribar-hi i es desviarà cap al sud per anar a desaiguar al Ter a l’alçada del Cap de la Fogonella. En comentar en aquest bloc els documentes de la fundació del monestir de la Sant Joan de les Abadesses, donàvem en nota la delimitació del seu alou i un petit gràfic:

Et donamus ibidem terra nostra quod ibidem habemus , sicut dividet de oriente parte usque in terminio Bisuldunense , de australi vero parte jungit in serra Valle Facunda , de occiduo autem annititur in serra Arzamala vel in via publica que discurrit , de circi namque in flumen Tezere

sant-joan-abadessses-ter

L’alou de Sant Joan de les Abadesses l’any 887.En blanc les terres inicials del monestir.

Un alou en el comtat d’Osona delimitat per l’est de forma genèrica amb el terminio Bisuldunense i en el sud per la pròpia Valle Facunda. L’alou de Riudaura es descriu in comitatu Bisuldunense vel Ausonense, i efectivament veurem que limitarà per el nord-oest amb el terme de Sant Joan, mentre que per el sud-est anirà fins la Vall d’en Bas. El text en dóna les finques posades sota la jurisdicció del la casa així com la descripció del perímetre de l’alou. Diu el text:

villulis & villaribus quorum nomina sunt haec : Riodazarii , Crosaunas , Artigas , Bacholardario , Cuguciago , Felgars , Tarnadela , Abíetem , Galindono , Vilareto , Collo Iuvino , villare Aliario , in Bisuldunense territorio nostro. Sic concedimus praelibatae ecclesiae cimíterium in circuitu ecclesiam dex[…] XXX. Nam & domnus comes Vifredus nostro assensu donat eidem ecclesiae ecclesiam Sanctae Margaritae cum decimis & prímitiis de villulis & villaribus ad ipsa ecclesiam pertinentibus cum terminis & aiacentii ssuis. Et ego supramemoratus comes dono eidem ecclesiae supramemoratae in valle Riodazari ,iuxta ipsam ecclesiam , domos meos cum terras & vineas , cum omnibus pertinentiis , & in Collo Iuvino terras & vineas quos in dominicum teneo cum terminis & aiacentiis suis. Et habent afrontationes haec omnia suprascripta : de oriente in Frarago , de meridie in terminis de ipsos Balbos per ipsa media serra , & sic pervadit per ipsa serra usque in Gurgo Nigro , & iniungit ad Aqua Bella usque supercilio montís , & pervadit in collo Frigido per ipsa serra usque in collo de Cannas & pergit ad ipsa Sentigosa ; & de circi vero parte vadit per ipso medio rio quae dicunt Bianna.

L’esment truncat a les trenta passes, és evidentment un altre clar anacronisme del segle XI (les sagreres), però més enllà d’això, posem sobre el mapa aquests topònims, ja que la majoria encara es poden reconèixer o si més no localitzar temptativament. Gràficament:

riudaura12

L’alou de Santa Maria de Riudaura l’any 850.
En blau l’aigua, al nord la riera de Bianya, al centre la riera de Vallfogona i la de Riudaura. A l’est el Fluvià.
En vermell les fites i el límit aproximat de l’alou fundacional de Santa Maria de Riudaura.
En groc les finques identificades de la dotalia del 850.

Hi ha un munt de coses a comentar ja que el procés de mirar de localitzar aquestes localitzacions va ser d’allò més interessant. Per començar, recordar lo molt hàbil que resultà el volum coral: Alcalde, Gabriel + Saña, Maria : 2009 : “Sis mil anys vivint a la vora dels aiguamolls de la vall d’en Bas”, tant per el que fa específicament al text de la consagració (amb especial menció al capítol: Folch, Cristian + Gibert. Jordi : 2009 : “Als segles IX-XI- vil·les, vilars, esglésies i castells” : Sis mil anys vivint a la vora dels aiguamolls de la vall d’en Bas : p.113-131) com al del context geogràfic. No tots els vilars s’han sabut localitzar, falten els de Cucuciago, Abiete i Galindono i altres són ben dubtosos, com el de Tarnadela i Vilareto, però tot i així, el resultat resulta força detallat. Ens estalviem parlar dels més evidents com la pròpia església de Santa Maria de Riudaura o la de Santa Margarita de Bianya cedida a la casa per el comte segons el text.

wikipedia-800px-margbianya3

Santa Margarida de Bianya en l’actualitat.
Imatge de wikipedia.org.

Per el que fa al perímetre, el límit nord sí està clar en la riera que es forma al sud de la serra de Malforat (la de Sant Ponç i la de Bianya)[8]. El límit oriental però, aquell Frarago del text, és l’altre topònim que tampoc s’ha sabut localitzar; potser es refereix al pas del Riudaura entre La Pinya i la serra de Sant Miquel del Mont a l’actual Hostal de la Corda? O potser, a la pròpia Pinya? El que sí sembla clar és que el límit de l’alou ressegueix el peu de la serralada a l’oest de la Vall d’en Bas on tenim Sant Joan dels Balbs en direcció sud fins a trobar el Gurn i pujar vers l’oest, aigües amunt on trobem certament topònims molt propers al Gurgo Nigro del text, com la Gorga blava de Gorners, fins l’Aqua Bella que per context hauria de correspondre a l’espectacular salt de Sallent. En aquest punt la línia de demarcació es torna poc definida, probablement el més senzill sigui seguir aigües amunt fins passar a l’altra banda de la serra Freixeneda per el coll de l’Home Mort per anar fins la collada de Collfred (el coll Frigido del text). Tampoc es detalla com anar a cercar la carena nord de la Serra de Santa Magdalena que és la que ens portarà al coll de Canes, però el més probable sigui salvar el desnivell per on es construirà posteriorment l’església de Santa Magdalena de Cambrils.

Arribats al coll de Canes, que és, com dèiem, on neixen les rieres de Riudaura a l’est i Vallfogona a l’oest,  estem en la part que més ens interessa avui, ja que és a partir d’aquí que el text de Riudaura es complementa amb la descripció de l’alou fundacional de Sant Joan de les Abadesses del 887 i ens permet posar sobre el mapa per on anava el terme entre Besalú i Osona en aquest sector. El text ens indica que l’alou de Riudaura, del coll de Canes anava a una Sentigosa, que correspon al coll, torre, mas i serra encara existents a l’altra banda del Puig d’Estela (passant potser per l’actual coll d’en Roca?) per d’aquí enllaçar amb el límit septentrional del perímetre, la Riera de Sant Ponç/Bianya. Probablement el terminio Bisuldunense seguia per el torrent del Vedellar i d’Escamarc fins et Ter, aigües amunt de Sant Joan de les Abadesses. Gràficament:

riudaura-g5

El teminio Bisuldunense entre l’alou de Sant Joan de les Abadesses i el de Santa Maria de Riudaura.
En blanc les terres de Sant Joan, en marró les de Riudaura, i en vermell el traçat proposat del límit entre Besalú i Osona al segle IX.

És un fragment petit del perímetre, tot just uns pocs kilòmetres, però lliga amb un pensament que em va venir al cap fa uns mesos veient l’especificitat dels mapes moderns dels comtat catalans altmedievals: quin percentatge d’aquestes delimitacions tenen cobertura documental explícita com l’exemple que estem comentant? No tinc la resposta, però no crec que sigui molt alt (són molts kilòmetres), encara que això no vol dir pas que els límits proposats no siguin correctes[9] (les alternatives sovint són reduïdes). En tot cas, aquí tenim un primer element que mostra la veridicitat de les descripcions de bens que presenta el text de la consagració de Riudaura del 850, ja que la complementarietat amb el terminus Bisuldunense dels documents de Sant Joan del 887, sense ser explicita, ja que el text de Riudaura tot i situar els bens en el comtat de Besalú mai parla específicament de la delimitació del comtat, posada sobre el mapa resulta manifesta (la situació fronterera del coll de Canes i d’aquella Sentigosa es veu corroborada per aparèixer descrits en la documentació posterior el primer a Vallfogona i la segona sota el control de Sant Joan).

Aprofitem en aquest punt per fer un comentari lateral sobre un dels topònims del text, el de Balbos (de meridie in terminis de ipsos Balbos per ipsa media serra). Un topònim recurrent en la documentació de la zona a cavall dels segles IX i X i que en la literatura de vegades s’ha reduït a una única localització. Creiem que és un error, ja que els testimonis apunten a no menys de tres Balbos diferents. El de Riudaura, és correspon clarament, com veiem, a l’actual Sant Joan dels Balbs en el marge oest de la Vall d’en Bas. Una altra menció a aïllar és la que es farà el 913 en una transacció entre dos matrimonis d’una finca in territorio transmuntano vel Hausonense , in apendicio de castro qui dicitur Ribopullo , infra fines vel agencias de villa que dicitur Balbos.  que probablement es pugui relacionar amb l’actual Baubs, al nord de Ripoll. Mentre que la resta, és a dir, el gruix de les mencions a una vila de Balbos es troben en les compres que Emma feu per el seu monestir i la situen explícitament en la vall de Vallfogona (per exemple: in locum ubi dicitur ad Valle Facunda , infra terminio de ipsa villa que nominant Balbos). Atesa la seva importància en aquells temps fundacionals però la seva aparent inexistència actual potser es podria proposar si no seria la vila de Balbos d’Emma l’origen de l’actual vila de Vallfogona? Sobre el mapa:

balbos

Els Balbos altmedievals.

L’etimologia del terme, que sovint acostuma a ser una ajuda en la identificació toponímica, en aquest cas, resultava inconcloent. El català Balb, del llatí balbus, tartamut, resulta de difícil interpretació si estem parlant d’orografia i altres possibilitats eren encara més rebuscades. Finalment, el Du Cange aporta la que potser en aquest cas sigui la millor interpretació de balbus: “Agger, quo aliquid defenditur et munitur.”, el que avui en dia en diríem un post, un sentit que resulta lògic si estem parlant del segle IX  i que sí és compatible amb les tres localitzacions proposades (especialment clar en el cas de la orografia de Vallfogona i La Sala).

Però més enllà de descriure indirectament el terme Bisuldunense de l’alou de Sant Joan de les Abadesses, l’altre text a comentar, la presumpta consagració del 950, ens aportarà una dada encara més rellevant per el que fa a la historicitat del que descriuen els documents.

Riudaura 950

Si la consagració del 850, com veiem, està farcida de dificultats, la del 950 no és pas millor ja que no ens ha arribat cap versió completa del text, en tenim sols tres regests, i a més, el que expliquen no pot ser cert.

Segons sembla, el document original, fet per un sotsdiaca i escrivà anomenat Oliba, explicava que l’anno incarnationis Dominicae DCCCCL. , indictione IX. , kalendis octubris , els bisbes de Barcelona Teuderic i el de Girona Wigo, a precs del comte Sunyer, reconsagraren Riudaura sota les tres mateixes advocacions del document del 850: Santa Maria, Sant Pere i Sant Joan, en motiu d’unes ‘novo opere‘. També es recorda la consagració del bisbe Soniofredus i al comte i marquès Wifredus del document del 850 i es precisa que s’afegeixen als bens de la casa l’església de Sancti Andreae conjunta al vilar d’Aliario així com la vila de Rabacolam. El problema és que l’any 950 ni Teuderic ni Wigo eren ja bisbes; a Girona en la dècada dels 940 tenim un bisbe Gotmar i a Barcelona sabem d’un Guilarà des de finals dels 930. Ara, també és cert que Teuderic i Wigo actuaren conjuntament, de manera que la seva presència conjunta sí és un detall versemblant. Per mirar de fer bones totes les mencions, s’ha suposat modernament que a partir de la indicció IX, l’any d’aquesta segona consagració podria haver estat el 936, que és el mateix any en què representa que Sunyer cedí Riudaura al monestir de La Grassa[10]. Els nous topònims, també es poden situar sobre el mapa.

riudaura-a950

Les finques afegides al patrimoni de Santa Maria l’any 950.

La vila de Rabacolam probablement correspongui al mas de Gimferrers, situat en una plana que encara ara està rodejada per el sud i l’est per els Bacs de Rabassola. I l’església de Sancti Andreae no és altra que la de Sant Andreu del Coll[11], que com un dels regests indica va ser associada al vilar d’Aliario en temps del Guifré del 850 (Soniarius commes addidit bonis huic ecclesiae a Vifredo collatis in Villare Aliari)[12]. Recordem que la primera consagració sí esmentava conjuntament el vilar de Collo Iuvino (probablement l’actual Castell del Coll)  i el vilar d’Aliario (amb el coll de jou situat entre ells i per on passaria el camí que connectaria la vall de Riudaura amb la de Bianya, un lloc certament estratègic) però no cap església de Sant Andreu. Com que l’església existeix, si sembla clar que el vilar d’Aliario havia d’estar situat ben a prop seu (potser en la plana al costat de l’actual El Saiol, sobre l’església, en la cota 650?).

Podem pensar que en comptes del Guifré del 850, fou Sunyer el que feu construir Sant Andreu ja ben entrat el segle X, potser fins i tot dintre la seva activitat constructora en la zona que el document esmenta, aquell ‘novo opere‘, però en aquest cas, i si els documents són falsificats, per què voler situar una església en temps de Guifré si la consagració del 850 no l’esmenta? És evident que el redactor de la del 950 coneixia el text ja que n’esmenta els seus actors i en recorda detalls. És aquesta evolució toponímica no concordant entre els dos documents presumptament falsificats la que fa pensar que si més no, la descripció de l’evolució dels bens sí pot ser verídica.

Conclusions

Tot i que les preguntes més punyents que plantegen els falsos de Riudaura (motiu, ocasió, actors, context, etc) no poden ser tractats per qui això escriu (més enllà de les obvietats, com la importància del paper del comte Sunyer, o la rellevància del terme de Santa Maria de Riudaura, evident si comparem la seva extensió amb la del de Sant Joan de les Abadesses) l’anàlisi dels dos documents més clarament manipulats, els de les consagracions de Santa Maria, revela dades que sí semblen versemblants i que apunten a una possible creació de l’alou el segle IX. Mirem d’enumerar-les.

  1. En primer lloc, la situació de l’alou, en el terme de Besalú, al est de Ripoll, a Osona, territori que no serà organitzat fins la generació del Pilós, sí és congruent amb una data anterior si pensem que la influencia carolíngia s’anà estenen des de la costa vers l’interior i de nord a sud. I la seva mida, que fa penar en una acció d’envergadura, poc adient a una fase posterior on el territori ja estarà més parcel·lat entre les diferents autoritats.
  2. La datació de la primera consagració en el 850, permet esvair els dubtes que tradicionalment s’han expressat sobre la identitat dels seus actors. Existí un comte Guifré relacionat amb Girona en la generació dels pares del Pilós i pot haver existit un bisbe Soniofredus entre Gotmar(850) i Elias(853). A més resultaria difícil pensar que un falsificador s’havia pres la molèstia de fer aparèixer (anacrònicament) figurants del context del bisbe Wigo, però s’inventà el bisbe…!
  3. La correcció de la concreció geogràfica del text del 850 es pot veure en la complementarietat a banda i banda del terminio Bisuldunense entre Santa Maria de Riudaura a Besalú i Sant Joan de les Abadesses a Osona l’any 887.
  4. La menció en el text de l’església de Sant Andreu al 950 però no en el 850, tot i que el primer sí la remet als temps de Guifré, tampoc és coherent amb una falsificació conjunta de les dues consagracions. No podem afirmar en quin moment es construí Sant Andreu del Coll, si en el segle X, per obra de Sunyer o si en temps del seu avi com diu un dels regests. En tot cas, com acostuma a passar en aquesta mena de temes, probablement haurà de ser l’arqueologia la que potser ens tregui de dubtes.
  5. Les advocacions de Riudaura: Santa Maria, Sant Pere i Sant Joan es corresponen perfectament a les de la generació del Pilós a Osona i a les de la seva família. I en aquest sentit, fer notar que la de Sant Andreu també s’adiu amb la generació dels pares del Pilós (tot i ser anterior[13]), pensem en Sant Andreu d’Eixalada, el monestir fundat probablement sota la tutela de la família comtal en la vall del Tet, aigües amunt de Rià l’any 840, quan començaven els temps de Carles el Calb.

La generació anterior al Pilós, en la part central del s.IX disposa d’un registre documental molt minso i és per tant un període mal conegut. L’alou de Riudaura és lo prou gran com per fer evident la seva importància en el context si efectivament va ser organitzat llavors. Sembla raonable mirar de no deixar de banda informacions potencialment rellevants en un període especialment borrós per el fet que els pocs testimonis que ens han arribat hagin estat manipulats. Cal filar més prim i, amb totes les prevencions que calguin, mirar de rescatar les dades versemblants, ja que de fet, la manipulació documental en aquests primers temps és més la norma que no pas l’excepció.

Santa Maria de Riudaura a l’any 850 havia de ser una peça important per el comte Guifré ‘de Girona’ quan l’alou era frontera amb la deserta Osona. També ho serà per els seus descendents, encara que ben probablement per motius força diferents.


Notes

  • [1] El de l’any 850.diu:

    In nomine sanctae & individuae Trinitatis. Post corpoream Domini nostri Iesu Christi venerabilem adscensionem & post salutiferam apostolorum suorumque sequacium praedicationem , purgato iam mundo ab idolorum turpissima servitute , non parvae gentilium turbae praebentes colla suavissimo Salvatoris iugo , innumera per totum orbem construxere episcopia atque coenobia , ubi Deo dicati clerici sive monachi religiose viventes , divina celebrare misteria communis utilitatis existimantes commodum , sic per terrenum habitaculum Deo dicatum , fidelium membra Spiritus Sancti fierent receptaculum. Proinde venerandus domnus comes cum omni veneratione vel reverentia nominandus Vifredus ecclesiam quae est in comitatu Bisuldunense vel Ausonense , in villa Riodazari constructa habetur , cum propria voluntate episcopi domni Soniofredi in cuius dioecesi sita dignoscitur , studuit consecrare , quo proficeret ad remedium sui atque suorum. Peracta autem consecratione praedictae ecclesiae paterno affectu locumque semper in honore permaneret & Deo ibi servientibus quae necessaria forent subministrare largissime posset , praesente coetu episcoporum , abbatum ,canonicorum , ceterorum fidelíum suorum , qui praesentes aderant , solercia ingenii & consilio cunctorum , firmissimo sancivit decreto , quatenus praefatum coenobium Sanctae Mariae virginis cum titulis suis , incontaminato statu semper iugi libertate vigeret & quidquid iam adquisierat vel in reliquum adquirere posset , libere possideret , sicut sequens libellus declarat. Sub Dei nutu haec est membrana concessionis seu confirmationis quem fecit Soniofredus , Gerundensis sedis episcopus , cum universo coetu archidiaconorum , canonicorum seu aliorum clericorum in eadem sede sanctae virginis Mariae Deo agonizantium , domno itaque Vifredo , comite atque marchione , iubente atque precante , ut ecclesiae suae quae constructa esse dignosciturin valle Riodazari , ut eam consecraremus , & nos itaque inter nos concordantes quia humana fragilitas magis potest dilabi in inferiora quam ascendere ad suprema & potius delectare terrena quam amare caelestia , & sine peccati contagione nemo possit in hoc aevo mortali vivere & sciamus quia iudex iustus venturus sit in die examinationis reddere unicuique secundum opera sua supplicium iniquis , vitam aeternam iustis. Ob hoc ego Soniofredus , episcopus , Giscafredus , Adalardus , archipresbyteri , Persinetus , Argibadus , Durandus , Rodegarius , sacerdotes , atque canonicorum seu clerícorum coetus , valde expavescentes , consideravimus in animo nostro concedere cellae eidem supramemoratae Sanctae Mariae cum titulis suis , videlicet Sancti Iohannis & Sancti Petri , in die eius dedicationis decimas & primitias & oblationes fidelium de villulis & villaribus quorum nomina sunt haec : Riodazarii , Crosaunas , Artigas , Bacholardario , Cuguciago , Felgars , Tarnadela , Abíetem , Galindono , Vilareto , Collo Iuvino , villare Aliario , in Bisuldunense territorio nostro. Sic concedimus praelibatae ecclesiae cimíterium in circuitu ecclesiam dex[…] XXX. Nam & domnus comes Vifredus nostro assensu donat eidem ecclesiae ecclesiam Sanctae Margaritae cum decimis & prímitiis de villulis & villaribus ad ipsa ecclesiam pertinentibus cum terminis & aiacentii ssuis. Et ego supramemoratus comes dono eidem ecclesiae supramemoratae in valle Riodazari ,iuxta ipsam ecclesiam , domos meos cum terras & vineas , cum omnibus pertinentiis , & in Collo Iuvino terras & vineas quos in dominicum teneo cum terminis & aiacentiis suis. Et habent afrontationes haec omnia suprascripta : de oriente in Frarago , de meridie in terminis de ipsos Balbos per ipsa media serra , & sic pervadit per ipsa serra usque in Gurgo Nigro , & iniungit ad Aqua Bella usque supercilio montís , & pervadit in collo Frigido per ipsa serra usque in collo de Cannas & pergit ad ipsa Sentigosa ; & de circi vero parte vadit per ipso medio rio quae dicunt Bianna. Modo vero excellentissimi & reverentissimi viri domni Vifredi , marchionis , confirmo ego Soniofredus , episcopus , cum voluntate omnium clericorum nostrae sedis Gerundae & statuimus ut ab hodierno die , id est a dedicatione sanctae Virginis Mariae quae est sita in valle Riodazari , & deincebs ipsas decimas & primitias cum oblationibus fidelium de villulis & villaribus suprascriptis cum ecclesiam Sanctae Margaritae cum illorum terminis sic concedimus supramemoratae ecclesiae suisque ministris , sicut superius scriptum est , ab omni integritate , assensu bonorum omnium clericorum seu laicorum qui ibi aderant , omni tempore inconvulsa permaneant , sub ea tamen definitione ut per singulos annos sacerdotes & ministri qui in eadem ecclesia ministraturi erunt , nobis quoque successorumque nostrorum non aliud solvant , nisi veniant ad concilia & chrismale ministerium , secundum instituta canonorum , & cum episcopus confirmationem exercere voluerit obedientiam paratissime exibere procurent.
    Perhacta sunt enim haec anno Incarnationis dominicae DCCCL. , VIII. kalendas octobris , anno XI. regnante Karulo , gloriosissimo rege.

  • [2] Documents 52,67, 68 en: Magnou-Nortier, Elisabeth + Magnou, Anne-Marie : 1996 : “Recueil des chartes de l’abbaye de la Grasse”
  • [3] Martí i Castelló, Ramon : 1997 : “Col·lecció diplomàtica de la seu de Girona – 817-1100” p.128
  • [4] L’edició de : Ordeig i Mata, Ramon : 1993 : “Les Dotalies de les esglésies de Catalunya – segles IX-XII” D.+6 mostra les semblances entre el dos texts, però en la comparació, no sembla possible descartar la possibilitat d’una formulació comuna anterior al 977. En aquest sentit, les floritures pròpies del context de finals del Ripoll del s.X, es concentren en la consagració de Santa Maria del 977, però no en la de Riudaura. Encara que aquesta, sí presenta alguna expressió inusual com :’Deo agonizantium‘ que tot i que la trobem precisament l’any 977 a Sant Pere de Rodes (CC5, D.436) es localitza idèntica en documents de l’abat Maiol deCluny entre el 956 i el 994 (Cartulaire de Sauxillanges.D.166 – una cum norma monacorum ibidem Deo agonizancium-), La fórmula però del text de Riudaura (confirmationis quem fecit Soniofredus , Gerundensis sedis episcopus , cum universo coetu archidiaconorum , canonicorum seu aliorum clericorum in eadem sede sanctae virginis Mariae Deo agonizantium) tot i tenir el mateix sentit, és clarament diversa.
  • [5] Aquí, la referència obligada és a les edicions d’en Stefano Congolani, per exemple: Cingolani, Stefano Maria : 2010 : “Les GESTA COMITUM BARCHINONESIUM (versió primitiva), la BREVIS HISTORIA i altres textos de Ripoll” : Monuments d’Història de la Corona d’Aragó V.4 :
  • [6] Vescomte l’any 841 (CC5 D.18) i comte el 850 (CC5 D.30), sota la forma Unifredi en la còpia del s.XIII del Cartoral de Carlemany.
  • [7] Algú hauria de corregir l’entrada a la wikipèdia en català i la llista de bisbes de Girona per situar-lo a l’any 850.
  • [8] També és de considerar la possibilitat que el Bianna del text, no correspongués a l’actual Sant Ponç/Bianya sinó a la riera que a l’altra banda del coll de Sentigosa baixa directe a Santa Margarida, la de Santa Llúcia de Puigmal, però la coincidència dels noms i la resta de consideracions han decantat la balança per l’opció que semblava més planera.
  • [9] En sentit contrari, tampoc és que siguin rares les controvèrsies per mirar de precisar els perímetres de delimitacions d’aquells segles, la lectura del mes n’ha aportat un bell exemple, en aquests cas, un article doble sobre els pagi del Llemosí: Lacabane, Léon : 1861 : “Observations sur la géographie et l’histoire du Quercy et du Limousin à propos de la publication du cartulaire de Beaulieu (deuxième article)” : Bibliothèque de l’École des chartes – revue d’erudition, consacrée spécialment à l’étude du moyen age : 22.1 p.97-122
  • [10] Document molt planer que no esmenta l’abat receptor i que es limita a cedir la vila de Riodazari amb l’església de Santa Maria i les sufragànies, però sense cap detall. (Magnou-Nortier, Elisabeth + Magnou, Anne-Marie : 1996 : “Recueil des chartes de l’abbaye de la Grasse” D.52)
  • [11] Cal avisar, que si algú intenta anar a l’església de Sant Andreu del Coll fent cas de GoogleMaps acabarà a l’església de Sant Miquel del Mont en la cota 775, a cosa d’un kilòmetre a l’oest de la Sant Andreu del Coll que està en la cota 600 i en una altra pista. Si més no, és una església romànica fantàstica i amb una vista sobre la vall de Bianya privilegiada, i la serra és la correcta… 🙂
    wikipedia-800px-sant_miquel_del_mont_ermita

    Sant Miquel del Mont.
    Imatge de wikipedia.org.

    Millor fer servir l’ICGC.

  • [12] Es podria pensar que el Vifredo aquest fos el Pilós, però l’esment al bisbe Soniofredus apunta al document del 850, de manera que la hipòtesi més econòmica sembla ser pensar que es tracta del Vifredo del mateix text.
  • [13] Pladevall i Font, Antoni : 1990 : “Tona. Mil cent anys d’història” p.50
Publicat dins de 850, 858, 950, 977, Abietem, Aliario, Aquabella, Argibadus, Balb, Balbos, Barcelona, Baubs, Bernat de Septimània, Besalú, Carles el Calb, Cartoral de Carlemany, Castell del Coll, cathalaunia.or, coll de Canes, Collfred, Collo Iuvino, Cristian Folch, Cucuciago, Durandus, El Saiol, Elies, Emma, falsos de Riudaura, Fons Cathalaunia, Frarago, Gabriel Alcalde, Galindono, Gòtia, Gesta Comitum Barchinonensium, Gimferrers, Girona, Giscafredus, Gorga blava de Gorners, Gotmar, Guifré d'Arrià, Guifré I de Girona, Guifré Pilós, Guilara, Guillem de Septimània, Gurgo Nigro, Gurn, Hostal de la Corda, ICGC, Jordi Gibert, La Grassa, La Pinya, Llemosí, Maria Saña, marquès, Oliba, Osona, Persinetus, Puig d'Estela, Rabacolam, Radulf, Rià, Riera de Bianya, Riera de Sant Ponç, Riera de Santa Llúcia de Puigmal, Riodazari, Ripoll, Riquilda, Riudaura, Rodegarius, Salt de Sallent, Sant Andreu d'Eixalada, Sant Andreu del Coll, Sant Eulogi, Sant Joan de les Abadesses, Sant Joan dels Balbs, Sant Miquel del Mont, Santa Magdalena de Cambrils, Santa Margarita de Bianya, Santa Maria de Ripoll, Santa Maria de Riudaura, Seniofred, Sentigosa, serra de Santa Magdalena, Soniofredus bisbe de Girona, Stefano Maria Cingolani, Sunyer I de Barcelona, Tarnadela, Ter, Tet, Teuderic, Teuter, Vall d'en Bas, Vallfogona, Vilareto, Wigo | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2016-desembre a cathalaunia.org

S’acaba desembre, un mes breu, accidentat i amb poca producció. El centre de l’activitat ha estat de nou en el món de la epigrafia ibèrica. Hi havien (i en part, encara hi han) una sèrie de serrells que calia polir.

En el corpus epigràfic ibèric, el sistema de verificació gràfica s’ha anat incorporant a més entrades, però encara hi ha més feina a fer que no pas feta. És una qüestió de temps i dedicació. També relacionat amb aquest tema ha estat la creació d’una font tipogràfica TrueType , iber.ttf  (de lliure accés) per poder escriure en ibèric en els processadors de text amb la mateixa codificació que es fa servir a cathalaunia.org (que no és sinó una ampliació de la original de na Carme J. Huertas). Encara està en proves, però en tot cas, la darrera versió estarà disponible en la pàgina de Signari ibèric del web. A falta d’una codificació Unicode hàbil (i no tornarem ara sobre aquest tema), s’ha emprat l’espai numèric propi del ISO8859-1 (de 0 a 255). El font recull els glifs originals de na Carme, més els definits en la proposta del grup LITTERA de la UB i els més de trenta que el procés de repàs i incorporació de la verificació gràfica al corpus ha propiciat fins ara.

Aquest bloc no ha tingut cap entrada nova però sí un parell d’actualitzacions també de temàtica ibèrica documentant els resultats d’algunes mesures estadístiques ampliades que s’havien demanat per verificar les comparacions que s’havien fet entre el desxiframent de l’ibèric actual i altres llengües relacionades (català, eusquera, castellà i llatí). Una primera prova va ser ampliar significativament la mida (triplicar) dels corpus a comparar en aquestes quatre llengües. Els resultats, tal i com la teoria predeia, no s’aparten apreciablement dels originals.  L’altra prova, de sentit contrari, era reduir el – ja minso – corpus ibèric ignorant les entrades formades per sigles o marques (de propietat?), amb la idea de comparar sols les fragments més textuals o discursius. Una reducció dràstica, limitant l’anàlisi a les entrades de quinze o més signes (una reducció del 50% del corpus total), revela una disposició estructuralment idèntica a la prova original amb tot el corpus. Es modulen els factors secundaris, però l’anomalia estructural detectada inicialment es manté intacta: el més semblant al desxiframent actual de l’ibèric és l’eusquera, i ho és, més que la semblança entre el català i el castellà actuals. I donat que el desxiframent és induït, i en part, suposat, cal pensar en un esbiaix sistèmic vers l’eusquera en el seu procés de definició.

En l’Alta Edat Mitjana, la feina en el Fons Cathalaunia porta dies aturada i amb documents a mig processar (i entrades a comentar en aquest bloc pendents de fa mesos). A veure si l’onada ibèrica afluixa i encarem la compleció del primer miler de documents i tornem a la ‘normalitat’.

La bibliografia nova del mes ha estat residual. Uns pocs títols s’han endut el gruix de l’atenció, i a més, no eren novetats. La pila de lectures pendents continua molt per sobre dels quatre-cents títols, i cada cop amb més llibres i menys articles. Un desastre total…

Llistem les minses incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Època Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

A fi de mes, cathalaunia.org presenta 26.611 pàgines consultables.

 

Però també s’acaba un any, el 2016, un any marcat, com no podia ser d’altra manera a Catalunya, per la Independència. Tancàvem l’any passat desitjant que l’estel de la Llibertat il·luminés als nostre electes. Un any ha passat i no estem millor.

El principal escull per la Llibertat del País continua sent la seva classe política. Aquest any hem vist com les CUP, el ‘partit antisistema’ que va ser refugi independentista en les passades eleccions plebiscitàries del 27S davant la descarada manipulació de Convergència de reserva-se la presidència a canvi de convocar-les, en comptes d’entendre el seu rol s’ha dedicat a fer de d’oposició al govern de JxS que tenia el mandat de fer la Independència en 18 mesos, fins el punt d’arribar a impedir la tramitació dels pressupostos i regalar 1.000M d”euros a les arques de la Hisenda espanyola!

Però és encara pitjor el paper de Convergència (ara PDeCAT), que després de prometre refundar-se en un partit netament independentista (sense, però, expulsar a ningú del seu si), hem vist com el MHP Carles Puigdemont i Casamajó (nombrat a dit el president de Convergència, Artur Mas i Gavarró) ha aprofitat la Diada d’aquest any per anunciar sorpresivament que es tornaria ha demanar un referèndum a Madrid! Com si no s’hagués fet solemnement un parell d’anys abans i com si no fossin precisament els seculars incompliments de l’estat espanyol els que van dur al poble català a dir ‘Adéu Espanya‘ el 2010 a rel de la sentència contra l’estatut del 2006. Des de llavors, els convergents estan mostrant la seva cara més esquizofrènica. El resultat és el seu enfonsament en les enquestes, fet però, que no els ha deturat de donar un pas enrere més i cercar la complicitat mediàtica del sector de l’esquerra que ni va voler posicionar-se sobre la independència el 27S. Davant la negativa de la CUP als pressupostos, els convergents han aprofitat l’avinentesa, no sols per fer una moció de confiança (quelcom lògic), sinó per forçar un nou intent de negociació referendària amb l’Estat espanyol abans de procedir a fer un Referèndum d’Autodeterminació de forma unilateral defensat. aquest sí, per la totalitat de forces independentistes, amb data, i aquí hi ha el detall revelador, posterior a la Diada del 2017. El que fa veure l’abast de la maniobra, és que ja mesos abans de la Diada d’aquest any, els convergents es van negar sistemàticament a qualificar-la de ‘darrera’, tot i que els divuit mesos per declarar la independència s’acabaven com a molt tard, el juliol del 2017. Estan executant el seu pla.

I així tanquem un any on els polítics ‘independentistes’ afins als cercles econòmics estan ignorant descaradament el mandat democràtic del ‘vot de la teva vida‘ cercant un acord amb l’estat espanyol abans de la Independència que tothom sap falsari. No seria la primera vegada que les elits econòmiques catalanes (els ‘botiflers‘) traeixen les ànsies de Llibertat dels catalans. Ja se sap, les elits econòmiques són tradicionalment els col·laboradors necessaris (i sovint entusiastes) en el sotmetiment al poder forà.

En la banda positiva, però, es manté el compromís de totes les forces independentistes per celebrar un referèndum vinculant i fer valdre la legitimitat catalana (o declarar directament la Independència si l’estat espanyol impedís el funcionament de les institucions catalanes).

Aquest 2017 hem de veure-ho, així que pensant que la realitat està sempre un pas per endavant de les anàlisis, deixeu-me tancar l’any amb un brindis explícit.

Que el 2017 declarem, per fi,
la República Catalana!

Salut!

 

 

 


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Carme J Huertas, cathlaunia.org, codificació, Fons Cathalaunia, grup LITTERA, iber.ttf, Iberika, ibers.cat, signaris ibèrics, TTF, Unicode | Etiquetat com a , , , , , , , , , , | Deixa un comentari