Antroponímia medieval computeritzada.

Fa uns mesos, vàrem comentar la creació d’una nova secció d’Antroponímia en el Fons Cathalaunia. Llavors es parlà de les dificultats que estava comportant, ara, és el ja el moment, passats un mesos i estabilitzades les noves aportacions, de descriure el que s’ha desenvolupat i les solucions que s’han dissenyat. Comencem per dir  que la descripció detallada del que tot seguit comentarem, s’ha concretat en un nou article: Ajuts computacionals per a la detecció de grups antroponímics altmedievals, qui vulgui doncs la concreció formal, allà la trobarà.

La problemàtica

Recordem inicialment el repte bàsic. Tenim un conjunt de documents altmedievals (inicialment uns 700, centrats en els vint anys a cavall entre el segle IX i el X i de context geogràfic focalitzat en la Gòtia i territoris adjacents) que ens anomenen a un munt de persones (més de 5.000) de formes específiques (aproximadament, unes 6.000): com podem agrupar-les per ‘nom’?

La millor resposta, evidentment seria: utilitzant els serveis de filòlegs experts en antroponímia llatina medieval. Però com que aquesta no és una opció viable – desafortunadament -, com podem mirar de satisfer la nostra curiositat i saber quins noms s’utilitzaven i a on?

Un primer pas, va ser incorporar les més de 13.000 formes provinents d’un buidat sistemàtic de la documentació dels segles IX-X dels comtats ‘catalans’ que presenta el recull antroponímic realitzat per filòlegs especialitzats, en el Repertori d’antropònims catalans (RAC) que es mostren convenientment agrupades en poc més de 3.000 4.000 ‘grups antroponímics‘ (denominació formal del que col·loquialment anomenem ‘nom’). Comentàvem ja llavors que el criteri per formar les agrupacions del RAC, no estava explicitat, i que en un bon grapat de casos, semblava possible, i fins i tot adient, fusionar alguns del grups entre si. Però més enllà d’això, calia veure en primer terme com resoldre el problema d’encabir les 6.000 formes antroponímiques documentades del Fons en els 3.000 4.000 grups del RAC, i molt especialment, com sistematitzar el tractament quan aquest encaix no fos possible, fet, que lluny de ser un cas extraordinari, ha resultat ser força freqüent. De les 13.000 formes inicials importades del RAC, la secció d’Antroponímia de cathalaunia.org en presenta actualment més de 16.000, i dels 3.000 4.000 grups (‘noms’) inicials, s’ha passat a més de 4.000 gaire bé 5.000. El que comentarem tot seguit, és com s’ha fet aquest procés, tota vegada, que no és fruit, com dèiem,  d’una suma de decisions filològiques manuals, sinó bàsicament de l’aplicació d’una metodologia de càlcul, per això el ‘computeritzada’ del títol.

Mirem de definir la problemàtica de manera més precisa. Tenim per una banda, en el web, un seguit d’entrades ‘antroponímiques, una per cada ‘nom’, on es mostren les diferents formes que pot prendre (ie: Accivella, Aicivella, etc.) i volem mostrar-hi a més, la llista d’identitats esmentades en els documents del Fons que presenten aquest ‘nom’, i ja posats, i derivat d’ella, detallar-ne els texts i les localitzacions geogràfiques on apareixen. I per l’altra banda, tenim unes entrades ‘personals on per a cada identitat del Fons, s’enumeren les diferents formes en les que apareix esmentada en els documents (ie: Abbo, Abbonis, Abone, etc.), i volem poder-ho enllaçar, de nou, programàticament, amb la entrada (o entrades) ‘antroponímica‘ adient. En ambdós casos cal fer-ho automàticament, ja que la feina d’introduir – i mantenir – tot aquest encreuat de dades resultaria del tot excessiva per fer-ho manualment. Així que tenim tres reptes a automatitzar:

  1. Assignar ‘nom’ a cada una de les 6.000 formes antroponímiques del Fons, i en cas necessari, establir la metodologia per crear nous ‘noms’, o reagrupar-ne  de vells.
  2. Enllaçar dinàmicament les formes antroponímiques de cada identitat amb el ‘nom’ adient
  3. Detectar dinàmicament quines identitats utilitzen un cert ‘nom’, i per tant, en quins documents i en quins llocs s’evidencia.

El darrer apunt sobre aquest tema, comentà el primer desenvolupament, previ fins i tot a la creació de la secció d’Antroponímia, d’un sistema de lematització d’antropònims per simplificació; sistema, que bàsicament reduïa un antropònim al seu esquema consonàntic. Aquesta primera aproximació, però, era clarament insuficient, atès que les agrupacions de formes que propiciava eren a totes llums excessivament aglutinadores. D’aquí, que es passés a mirar d’aprofitar el recull d’antroponímia fet manualment per els experts, per mirar de trobar la manera d’extreure’n el coneixement implícit en les seves agrupacions. Amb tot, el sistema de lematització per simplificació inicial, sí va servir per detectar ja en primera instància un parell de centenars de grups antroponímics del RAC que podien ser fusionats amb altres sense perill de sobresimplificació.

De manera que teníem poc menys de 3.000 4.000 exemples d’agrupacions antroponímiques creades per experts, on per cada una, hi ha una forma que s’utilitza com identificador del grup (en negreta) , i un seguit de formes alternatives o equivalents; per exemple: Ricardus = Ricar, Ricardi, Ricardis, Ricardo, Ricardum, Ricardus, Ricart, Richardi, Richardo. Què podem fer amb això?

És aquí que entrem en el camp de la teoria de la informació i deixem de banda la filologia llatina.

Una primera aproximació

Vladirmir Levenshtein, va definir formalment l’any 1965, la noció matemàtica de distància d’edició, o el nombre mínim de canvis que s’han de realitzar per passar d’una cadena de símbols X, a una altra, Y. Dit així sembla quelcom molt abstracte, però de ben segur que n’heu vist la seva aplicació pràctica, per exemple, quan teclegem incorrectament una entrada en una enciclopèdia en línia, i el sistema ens suggereix l’enunciat correcte (hi han moltíssimes tècniques a aplicar en aquests casos, però aquesta dóna un bon rendiment amb un cost computacional força raonable).

El formalisme usual considera fins a tres operacions d’edició bàsiques: eliminació d’un símbol, inserció d’un símbol i canvi d’un símbol per un altre, totes elles, també usualment per convenció, de cost unitari; amb el benentès que hi ha una quarta operació (de cost zero) que és no canviar res i que es pot entendre alternativament com un canvi d’un signe per ell mateix[1] .Un exemple ho posarà en clar. Per passar d’un Richardi a un Richardo, cal no fer res en les 7 primeres posicions (cost=7*0=0) i canviar una i per una o en la octava (és a dir, cost=1*1=1). Mirem un exemple una mica més interessant; si volem anar d’un Richardi a un Richardus, tenim que com abans, les set primeres posicions, són iguals, però en aquest cas, varien les dues últimes, cosa que permet més d’una possibilitat amb cost mínim: podem, per exemple,  canviar la i per o i afegir una s (cost=2), o podem inserir una u i canviar una i per una s; cost=2 en qualsevol cas.

L’exemple serveix per fer paleses tres consideracions:

  1. Que encara que sempre hi ha un cost mínim per passar de X a Y, això no vol dir que la cadena de accions a fer sigui unívoca.
  2. Que tota cadena d’accions que ens porti de X a Y, té una contra-cadena d’igual cost[2] que ens portarà de Y a X (si havíem canviat la i per o i afegit la s, la inversa, és canviar la o per i i eliminar la s, etc. etc.).
  3. Que podem crear una notació per expressar aquests canvis a operar; per exemple: un no canvi per el signe ‘=‘, l’eliminació, per el signe ‘‘ seguit de la lletra a eliminar, la inserció per el signe ‘+‘ seguit de la lletra a inserir, i el canvi, per dues lletres, la primera, la nova, i la segona,  la original. Així, el canvi de Richardi a Richardo es pot expressar amb ‘=======oi‘.

Tornant doncs als nostres grups antroponímics, tenim que en la immensa majoria de casos, les formes d’un mateix ‘nom’ no sols s’assemblen força entre elles, sinó que també presenten variacions semblants entre diferents ‘noms’, de manera, que podem pensar que si calculem la llista d’operacions que cal fer per anar de cada una de les formes d’un grup a cada una de les de la resta del propi grup[3], tindrem cadenes de transformacions molt semblants entre noms molt diferents. La idea és ben simple doncs: calcular quines són les pautes de conversió que es donen entre les formes d’un mateix ‘nom’, amb el raonament que possiblement continuïn succeint quan ens trobem davant de ‘noms’ desconeguts. Per exemple, si entre les formes dels 3.000 4.000 ‘noms’ del RAC, trobem que hi han molts casos en que un ‘nom’ amb una forma que comença per I (diguem: Ienesio) el trobem també escrit amb G (Genesio), i ara, ens trobem amb dues formes noves, desconegudes, però que sols es diferencien entre si en què una comença per I i l’altra per G, podem pensar que efectivament estem davant de dues formes d’un mateix ‘nom’ (ho podríem fer per un criteri filològic, evidentment, però en el nostre cas, el que ens interessa, és que el què fonamentaria aquesta deducció, seria sols la quantitat d’evidències prèvies).

Hem parlat d’extreure les pautes que els exemples del RAC ens proporcionen, però abans hem vist que les cadenes de transformació són depenents dels casos concrets que les generen (anar de Richardi a Richardo implica ‘=======oi’, però de Pauli a Paulo, ‘====oi‘ ) , ens falta afegir a la descripció feta abans, que per passar d’una cadena de transformació donada a una pauta, ens cal reduir els grups de més d’un símbol ‘=‘ (no canvi) consecutius a un únic caràcter ‘=‘. És a dir, que Ricardi -> Ricardo i Pauli -> Paulo compleixen la mateixa pauta=oi‘, que expressada en paraules, seria quelcom com : ignora l’inici, però canvia la i final per una o.

De manera que això és el que es va fer, calcular per a cada un dels 3.000 4.000 ‘noms’ les pautes existents entre les seves pròpies formes i anar acumulant l’estadística de cada una. Així, al final, tenim que per cada pauta sabem quina és la seva freqüència, i per tant, disposem d’un criteri objectiu a l’hora de valorar si una transformació és o no gaire habitual. En el cas que ens ocupa, que són formes llatines, tenim que lògicament alteracions molt usuals com algunes de les declinacions, es veuen efectivament reflectides en les posicions més repetides. Mostrem, per evidenciar-ho, les pautes (i les seves contrapautes) detectades més de 300 vegades:

  1. 1362 =uo+s=ou-s
  2. 623 =ui+s  | =iu-s
  3. 616 =ie= | =ei=
  4. 603 =oi | =io
  5. 499 =+i= | =-i=
  6. 396 =oa | =ao
  7. 382 =uo= | =ou=
  8. 351 =+n+e | =-n-e
  9. 344 =+e= | =-e=
  10. 310 =+s | =-s
  11. 306 =ea= | =ae=

Però també resulta evident que hi han pautes menys previsibles, ja que de fet, entre aquestes onze més freqüents, tenim que cinc, descriuen alteracions intermèdies, no de sufixació.

De manera que a partir d’això, si tenim una forma antroponímica nova, desconeguda, i volem saber a quin dels 3.000 4000 ‘noms’ pot pertànyer,  podem calcular la cadena de transformació entre ella i cada una de les més de 13.000 formes conegudes, i quedar-nos amb la que compleixi la pauta més freqüent, i així tenir una mesura de la probabilitat que aquesta forma ‘nova’ pertanyi al seu mateix ‘nom’. És evidentment una probabilitat, no una certesa, que en cap cas un sistema purament quantitatiu com aquest pot donar, tota vegada que sols l’àmbit filològic podria aportar tal seguretat, però a efectes pràctics, és un sistema força efectiu, ja que permet establir una metodologia automatitzable per tal d’assignar grup antroponímic a una forma desconeguda; per exemple, a base de fixar un valor de tall mínim de manera que sols s’accepti una identificació positiva si es supera aquest valor.

Ara bé, aquesta primera aproximació, si bé conceptualment fruitosa, té una dificultat pràctica, tota vegada que la quantitat de càlcul que implica no és menor, i per tant resulta difícilment escalable. Cal calcular tantes transformacions com formes individuals conegudes, és a dir milers, i per cada una cercar entre els  també milers de pautes, la corresponent, així com refer l’estadística global cada cop que es modifiqui algun dels ‘noms’. No és impossible, de fet, s’ha implementat aquesta disposició en el web, però sí que resulta creixentment dificultosa, especialment, si necessitem, com és el cas,  de poder-ho calcular en temps real, i que cada vegada que per exemple, s’accedeixi a la fitxa personal de l’abadessa Emma, es pugui anar, clicant en la llista de les formes antroponímiques sota les que apareix esmentada, a la fitxa del ‘nom’ Emma i poder consultar quines altres ‘Emma’ hi han en el Fons i a quins documents i llocs.

A més, encara que aquesta tècnica ens permet l’entrellaçament automàtic entre identitats i antroponímia, no ens ajuda en la tasca d’establir uns criteris objectivables per crear nous grups antroponímics o modificar-ne els existents. Calia anar més enllà.

Baricentres antroponímics

La dificultat pràctica d’aquesta primera solució, estava en l’efecte multiplicador d’operar a nivell de formes antroponímiques i de generar un gran nombre de pautes (a més, amb l’agreujant que una gran majoria d’elles, són evidentment molt especialitzades i per tant amb molt poques probabilitats de ser mai emprades[4]). Peró per altra banda, és ben evident que la immensa majoria de formes d’un mateix ‘nom’ són molt semblants entre elles, de manera que perquè no retornar a la idea inicial de calcular un lema per cada ‘nom’? El sistema de simplificació de formes llatines inicial havia estat excessivament matusser, però ara tenim tota una tècnica nova a l’abast…

Vèiem com per calcular les pautes, es computaven les totes les transformacions entre les variants d’un ‘nom’ donat; de manera, que podem imaginar que entre elles hi ha un entremat de distàncies, i d’alguna manera, una disposició espacial, en la que formes més semblants entre sí, estan també més properes que no pas formes més llunyanes o diferents – una noció de distància no forma una mètrica, i per tat no es pot dur l’analogia gaire enllà, però sí en el seu plantejament bàsic -. La idea és ben simple: i si mirem de calcular un ‘centre de gravetat’ , un ‘baricentre’ en aquesta ‘xarxa’ de noms separats/interrelacionats per distàncies d’edició? Com fer-ho?

Una manera simple, a partir de la constatació que les formes acostumen a semblar-se força, pot ser: cercar el fragment més curt de les formes que minimitzi el sumatori de distàncies d’edició entre ell i cada una de les formes del ‘nom’. A grosso modo, detectar la part ‘compartida’ entre les diferents formes (en l’exemple del Ricardus d’abans, el baricentre computat seria: Ricardi). Així, tenim en primer lloc, un criteri objectiu per calcular una grafia representativa d’un grup antroponímic, és a dir, un lema computat, i que a més, ens permet continuar aplicant els fonaments de la tècnica de mesurar les distàncies d’edició descrita fins aquí; ho expliquem.

Si tenim una grafia que representa un ‘centre de gravetat’ o ‘baricentre‘ de les formes del ‘nom’, també tenim que entre ella i cada una de les formes, hem calculat les cadenes de transformació, ergo les seves pautes. Fins ara, aquestes eren entre formes antroponímiques, ara però, són entre el baricentre i les seves formes. El resultat, és una reducció notable de la quantitat total de pautes i del nombre de cops que es detecten. Mostrem, seguint el precedent, les pautes baricèntriques detectades 100 o més vegades.

  1. 395 =uo+s | =ou-s
  2. 310 =+s | =-s
  3. 171 =oi  | =io
  4. 162 =ie= | =ei=
  5. 157 =oa  | =ao
  6. 144 =+i= | =-i=
  7. 139 =uo  | =ou
  8. 127 =+o  | =-o
  9. 101 =ui+s | =iu-s
  10. 101 =+e | =-e
  11. 100 =uo= | =ou=

I si amb el primer mètode, per determinar el ‘nom’ d’una forma antroponímica nova, calculàvem la transformació entre ella i cada una de les formes conegudes, ara ho poden fer respecte cada un dels baricentres antroponímics. Hi han dues diferències bàsiques: una, que el pes computacional, es redueix molt, tota vegada que el nombre de pautes és molt menor, i que en lloc d’haver de calcular tantes transformacions com formes, ara sols cal fer-ho com tants ‘noms’ hi hagin; però potser la més important, és que el concepte de baricentre antroponímic o lema computat, ens permet dissenyar eines per automatitzar la detecció de nous grups i verificar la ‘coherència’ dels existents, que era l’altre gran repte inicial.

Una primera conseqüència important: a priori, sembla lògic esperar que totes les formes d’un mateix ‘nom’ estiguin a una distància d’edició del seu baricentre menor que a la de qualsevol altre baricentre. El quid, la gràcia, està en què això, es mecànicament corroborable[5], i per tant tenim una manera objectiva de verificar, o si es vol, mesurar, la coherència de les agrupacions antroponímiques.

I la segona, i no menys cabdal: també podem utilitzar aquestes nocions per establir nous grups, a base d’anar agrupant el màxim nombre possible de formes novelles i no assignables a cap dels ‘noms’ coneguts i calcular-ne els seus baricentres sense que es violi aquest principi de proximitat ni es superi una certa distancia d’edició màxima, etc. etc. etc.

És a dir, que ens permet complir programàticament amb els reptes que teníem: entrellaçar les entrades ‘antroponímiques‘ i les ‘identitats‘ del Fons per ‘nom’ de forma automàtica, i gestionar tant la correcció dels grups antroponímics existents, com plantejar-ne la creació de nous.

Fins aquí, la descripció simplificada del que s’ha fet per mirar de casar els milers de formes antroponímiques documentades en el Fons Cathalaunia amb els també milers de formes del RAC. D’aquesta fusió computeritzada, com dèiem, n’han nascut poc menys d’un miler de nous ‘grups antroponímics‘ tota vegada que sols aproximadament la meitat de les 6.000 formes del Fons eren assignables als grups originals del RAC – cal considerar per aquesta aparent disparitat, entre altres raons,  que el Fons contempla un context geogràfic molt més ampli -. Queda encara molta feina per fer, certament; per exemple: adaptar les facilitats de detecció de formes antroponímiques sense ‘nom’, que creades inicialment a partir de la metodologia de simplificació de formes llatines, s’han de redissenyar segons el nou sistema i tenir-les disponibles en el Selector, etc. etc.

I finalment, recordar que si be és cert, com s’ha pogut veure, que la simplificació de formes llatines no era un bon mètode per dirimir si un Rikar era o no un Richardus, sí va trobar però el seu ús en el càlcul de semblances interdocumentals. Però d’això, esperem poder tornar a parlar-ne un altre dia, que tot just li estem fent una segona fornada i no sabem encara si serà granota… o no!

– Actualització 2013-XI-15 –

Rellegint, veig que he confós la quantitat aproximada de grups antroponímics inicials del RAC (unes 4.000) amb el nombre d’epigrafies ibèriques (3.000)! No hi ha excusa, tret de constatar que estava treballant en el corpus ibèric en el moment d’escriure aquest apunt… S’han ratllat i corregit les quantitats errònies.

Notes

  • [1] De fet, totes quatre operacions poden resumir-se en una de sola, la de canvi, si incloem dins de la llista de símbols possibles, el símbol buit o ‘no símbol‘.
  • [2] És a dir, sempre en el benentès que els costs de cada operació siguin idèntics, que és lo més habitual, però res obliga a que hagi de ser així, i el fet és que hi ha una gran quantitat de variants possibles de l’algoritme.
  • [3] En l’exemple del Ricardus = Ricar, Ricardi, Ricardis, Ricardo, Ricardum, Ricardus, Ricart, Richardi, Richardo, anterior, vol dir calcular (tenint en compte que cada còmput val també per el seu invers): Ricar->Ricardi, Ricar->Ricardis, Ricar->Ricardo, Ricar->Ricardum, Ricar->Ricardus, Ricar->Ricart, Ricar->Richardi, Ricar->Richardo, Ricardi->Ricardis, Ricardi->Ricardo, Ricardi->Ricardum, Ricardi->Ricardus, Ricardi->Ricart, Ricardi->Richardi, Ricardi->Richardo, Ricardis->Ricardo, Ricardis->Ricardum, Ricardis->Ricardus, Ricardis->Ricart, Ricardis->Richardi, Ricardis->Richardo, Ricardo->Ricardum, Ricardo->Ricardus, Ricardo->Ricart, Ricardo->Richardi, Ricardo->Richardo, Ricardum->Ricardus, Ricardum->Ricart, Ricardum->Richardi, Ricardum->Richardo, Ricardus->Ricart, Ricardus->Richardi, Ricardus->Richardo, Ricart->Richardi, Ricart->Richardo i Richardi->Richardo.
  • [4] Pensis per exemple en la pauta generada per passar d’un Hlodowicus a un Lodoici.
  • [5] Per exemple, en les agrupacions originals del RAC, sols es va detectar un cas atípic, el de Godegildus = Godegildus i Gudielde. És a dir, un nom amb sols dues formes i un fragment comú molt reduït, i que per tant, es detectable tota vegada que les distàncies entre el seu baricentre i les formes són anormalment grans.
Aquesta entrada s'ha publicat en antroponímia, cathalaunia.org, distància d'edició, Emma, estadística, Fons Cathalaunia, grup antroponímic, lematització, Levenshtein, pautes de transformació, Repertori d'Antropònims Catalans (RAC) i etiquetada amb , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s