Prosopografia i el somni estadístic; teoria i pràctica.

Que el Fons Cathalaunia es dedica a presentar les evidències textuals existents sobre la història de l’Alta Edat Mitjana de Catalunya, és ben patent, tot i que no és potser aquest el tret que millor l’identifica, sinó el d’anar identificant totes les persones que els documents esmenten i anar construint per a cada una d’elles un dossier amb les seves aparicions documentals. Propòsit i activitat aquesta que ocupa el gruix de l’activitat del Fons, tota vegada que usualment, la introducció, segmentació i adaptació de la literalitat d’un document representa a penes un 5 o un 10% de la feina total, sent el 90 o 95% restant dedicat a mirar d’identificar les persones i els llocs que hi apareixen. Avui parlarem exclusivament del procés d’identificació de les persones i deixarem de banda la toponímia ja que de fet, és el procés que requereix un major esforç.

Ja farà potser un parell d’anys, quan es començà a desenvolupar una certa sistematització en el procés de mirar d’agrupar els esments que els documents presenten en identitats personals, que s’albirà primerencament la possibilitat de construir un sistema purament estadístic; ens expliquem.

Teòrica

La problemàtica de definir quines persones hi van haver-hi al darrera dels esments que els documents antics ens presenten, és parcialment irresoluble. Parcialment, perquè al costat d’uns pocs esments adientment qualificats i que sí permeten identificar satisfactòriament a la individualitat corresponent, tenim centenars, milers, d’esments que no ho estan. El context que feia que un Ricardus signant d’una compravenda al segle X fos conegut en el moment de fer l’acta, s’ha perdut, i tot el que tenim és el nom de la persona que l’originà. Si en un altre document tenim també una signatura d’un Ricardi, fins a quin punt podem pressuposar que fos la mateixa identitat del primer document? Com podem fer per mirar de mesurar aquesta incertesa[1]?

Mirant de respondre aquesta problemàtica, i a partir de l’experiència en el disseny d’algoritmes de classificació estadística, es plantejava una possible aproximació teòrica. Imaginem que veiem un document exclusivament com un conjunt d’esments (e), a persones, cada un, representat per el seu propi nom (ex: Doc1(e=5)=Ricardus, Emma, Teodono, Seniofredi, Advertus). Si tenim un conjunt de D documents, tindrem un nombre finit de noms coneguts diferents entre sí , diguem-li N, (és a dir, pressuposant que poden identificar cada grafia particular amb un nom específic, que ja és prou pressuposar per començar – en parlarem de nou al final d’això – ), i un nombre desconegut, diguem-li I d’identitats personals, que lògicament oscil·larà entre N i el sumatori del nombre d’esments (e) dels D documents, diguem-li, E. És a dir, tenim un sistema on en l’extrem d’entrada tenim els Documents i els seus descriptors (D documents, N noms, E esments) , i en l’altra, en el de sortida, tenim un nombre indeterminat I d’identitats (N<I<E), on per cada identitat, tenim detallats a quins esments de quins documents agrupa. El quid, està lògicament en mirar de calcular quantes identitats hi han darrera de cada un dels N noms.

Podríem partir de la idea que si un grup concret de noms es repeteix entre varis documents, és més probable que es tractin de les mateixes persones que no que en cada cas siguin identitats diverses…

Una possible manera de mesurar-ho, podria ser: com que tenim un nombre finit de noms diferents de persona, podem imaginar un espai on cada dimensió fos un nom, és a dir, un espai (de noms) amb N dimensions; en aquest supòsit, a cada document, li podríem associar una posició concreta en aquest espai per la simple via de donar un valor de 1 a la coordenada corresponent a les dimensions dels noms presents en el document, i un valor de 0 en el noms que no hi són (el cas hauria de ser més complex, ja que un mateix document pot tenir identitats amb noms repetits, però deixem-ho per ara, per no complicar excessivament l’exposició). De manera que si varis documents presenten uns mateixos noms, estarien més aprop entre ells en aquest espai que no vers la resta de documents, i per tant, aplicant tècniques de detecció de grups, podríem mesurar objectivament el grau de proximitat entre documents, i observant dins d’un grup donat els noms responsables de la proximitat, establir-ne les identitats diferenciades…

Evidentment, aquest plantejament és excessivament simple per ser de gaire valor en vistes a l’objectiu final. Per exemple, tenim que es tracten per igual tots el noms, independentment de si són freqüents o no, i resulta evident que no pot ser el mateix una coincidència de 4 noms repetits entre dos documents si aquests noms són rars que si són molt freqüents (sabent tots els esments de tots els noms, resulta trivial mesurar el grau de raresa d’un nom). De manera que per exemple, podríem complicar la disposició anterior, fent que en comptes de donar un valor fixe de 1 a la dimensió de cada nom, li atorguéssim un d’inversament proporcional a la seva freqüència dins del corpus, de forma que els noms molt freqüents, al tenir valors de coordenades baixos, tinguessin propensió a estar més aprop entre ells i estar més aprop de l’origen de les coordenades de l’espai, Tot això, recordem, és sols un exemple, de fet, podríem multiplicar ad infinitum el nombre de possibles aproximacions alternatives a cada una de les problemàtiques plantejades.

Però evidentment, amb això, tampoc fem gaire cosa, ja que més enllà del nom, hi han informacions que resulten vitals per el procés d’identificació. Un pare no pot ser fill del seu fill, o un difunt no pot figurar com a signant d’un document posterior (o sí?[2]); o en una clau no tant taxativa: un prevere no sol figurar com a casat, un comte malament pot ser un servent, etc, etc, etc. És a dir, que hi ha un conjunt de circumstàncies que modelen efectivament el procés d’identificació més enllà de l’agrupació d’homònims. Però encara així, es podria mirar d’incorporar totes i cada una d’aquestes restriccions en el model (donant per suposat que això fos possible, que encara és més pressuposar) a base de: A) definir-les formalment totes i cada una (i per tant oblidem-nos ja de considerar un document sols con una llista de noms, i de la metàfora de l’espai de noms), i B) ponderar amb una grau de probabilitat, o una funció si es vol,  cada una d’aquestes condicions; és a dir, afegir tantes funcions i variables de control externes com condicions limitants haguem de contemplar.

Però és que fins que fins i tot si haguéssim suposat que podríem arribar fins aquí, en aquest cas, caldria adreçar també el fet que els documents mostren a la gent en uns llocs i en unes dates que estan lluny de ser precises, de manera que sovint ni l’ordenament cronològic dels documents es clar i unívoc, ni tampoc es infreqüent el cas en què la realitat geogràfica expressada es simplement desconeguda. De manera que si volguéssim que el nostre sistema estadístic pogués funcionar, hauríem d’incorporar-hi tots aquests graus d’incertesa extra, cada un d’ells amb les seves associades metodologies concretes de mesura i variables de control particulars.

I un cop tinguéssim tot aquest conjunt de dades i condicionants, crear un model de càlcul estadístic que ens computés el valor I del nombre d’identitats detectables a base de determinar per a cada un del N noms un nombre d’identitats òptim  – i les seves possibles agrupacions d’esments corresponents –  segons els paràmetres probabilístics del model. És a dir, un resultat condicionat, no definitiu, lògicament depenent del conjunt d’assumpcions i variables associades que s’han hagut d’establir per mirar de formalitzar la problemàtica real. Ja que com dèiem, és una problemàtica parcialment irresoluble unívocament,  tota vegada que no sols existeixen una pluralitat de configuracions possibles per els paràmetres d’incertesa, sinó que per a la majoria d’elles, existeix també una pluralitat de respostes alternatives, totes elles igualment viables.

Com es pot veure, un plantejament extremadament complex, per uns resultats previsiblement relatius, d’aquí l’esment del somni estadístic del títol d’aquest apunt, tota vegada que la pràctica d’identificar qui apareix en els documents ensenya fins a quin punt és un procés complex i relatiu. On ens deixa aixo? Hem de descartar completament l’aproximació estadística en la problemàtica de la identificació prosopogràfica?

Pràctica

La resposta, creiem que és: NO. Però no perquè tinguem una aproximació alternativa a aquesta complexitat, sinó perquè creiem que sí té ús a una escala més modesta, com a eina, ens expliquem.

Hem vist com el problema, en essència, és del tipus: the devil is in the detail. Per fer-ho ben fet, cal protocol·litzar un conjunt de fets que no estan definits a priori, i la tasca de procol·litzatció – i la de la conseqüent adequació del model de càlcul – que ha ser realitzada forçosament per humans, és tant o més gran que la pròpia tasca de detecció de les individualitats, i per tant, el cost resulta inassumible. Però si en lloc de buscar una solució global, anem per objectius parcials, la cosa canvia.

Hem descrit abans un exemple de modelització en un espai de noms, moltíssimes més aproximacions són possibles i poden ser d’aplicació en entorns més controlats, com per exemple, en estudis sectorials, on els problemes d’una identificació genèrica estiguin acotats. O alternativament, sí que podem utilitzar aquestes tècniques – i especialment els seus principis – com a eines de treball que ens ajudin en la tasca manual d’identificació, per exemple generant hipòtesis que siguin revisades manualment. Arribem finalment a la concreció d’un exemple real.

El cas del Fons Cathalaunia és especialment dificultós per varis motius encadenats: en primer lloc, perquè per definició, ni és sectorial, sinó d’abast global, ni s’ha volgut tampoc esperar a tenir introduïts tots els fets rellevants en el sistema abans de començar a intentar definir les identitats involucrades, ans bé el procés és incremental i va definint identitats a mida que es van introduint nous texts, rebent per tant, una dosi extra de possibilitat d’error al haver de prendre decisions a partir d’una informació parcial; i també, per haver d’entomar plenament també la problemàtica de la detecció d’homonímies entre noms, i haver de decidir per exemple, si un Psalmon pot ser un Solmu o un Mirabilia correspon a un home o una dona, problemàtica que fins ara hem considerat aquí com a genèricament resolta, sense que realment ho estigui en la pràctica.

Dels principis de la detecció de grups d’homònims, se’n ha derivat una metodologia que va ser explicada ja fa gaire bé un any en l’article: Detecció de grups d’homònims en documents de l’Alta Edat Mitjana

El que farem, és mostrar com és la quotidianitat de la detecció d’identitats en el Fons amb un cas concret i presentar una nova eina que acabem d’incorporar en l’arsenal prosopogràfic del web. Prendrem per exemple, el document D00718, recentment entrat i processat i que és un cas certament simple.

Després d’haver entrat , segmentat i normalitzat el text, la primera tasca és construir una llista dels figurants, i utilitzant el Selector, (opció Cerca Codis – De Persones) per a cada una d’ells, cercar les expressions regulars que corresponen a cada un del noms. En el document triat, tenim per exemple un Emerane, que transformat a una expressió de cerca hàbil podria ser quelcom com [AIE]@[nm]@r, és a dir: cerca grafies que comencin per A, E o I, seguides per una n o una m i seguides per una r. Cerca que retorna una llista d’identitats, entre les que repassades manualment, n’elegim i n’apuntem els codis de les que semblin compatibles. El resultat final d’aquest procés, es quelcom com[3]:

d00718-th

Processant el document D00718.
No sembla precisament un exemple d’alta tecnologia, oi?

És a dir, generem una llista de codis d’identitats compatibles; ara, tornem al Selector i amb l’opció de cerca Documents repetits de gent, tindrem la llista de documents on figuren juntes 2 o més de les identitats prèviament seleccionades; quelcom com (extret de la fitxa del propi document):

És a partir d’aquesta llista i de la informació de context, per exemple geogràfica, que es prenen les decisions finals i s’identifiquen les identitats que es poden i la resta es creen com a identitats noves – apuntant, això sí, els homònims que semblaven compatibles però que no han presentat prou evidència per una identificació positiva – (de nou, de la secció Comentaris de la pròpia fitxa del document) :

S’accepten les de Cardellus906 , Tadilane903 , Envolate784 , Bonifacius1793 i encara que l’Eles902 apareix dos cops , sembla més segur l’Elisei1804 per la semblança del nom i la proximitat geogràfica del document (D00217).

Fins aquí el procediment habitual, però recentment, s’ha afegit una nova opció al Selector, que no passa de ser un primer intent d’una aproximació alternativa. Si per crear la llista d’identitats candidates hem utilitzat una sèrie d’expressions regulars per trobar el possibles homònims de cada nom propi del document, ara utilitzarem l’opció ‘Cerca per Lemes‘.

En aquesta opció, en lloc d’entrar una expressió regular a cercar, poden/hem d’entrar literalitats, és a dir, noms de persona tal i com pareixen en els documents i deixar que una funció programada internament, transformi cada paraula que se li especifiqui en un lema estable i procedeixi automàticament a cercar quins documents presenten 2 o més identitats amb els mateixos lemes que els noms entrats en el Selector. En el nostre cas, entrarem:  Emerane Adevora Emolatus Sirga Teodilane Elisei Exemeno Todobari Leodalani Bonefacii Franconi Cardellus i el resultat que tindrem (que lògicament anirà canviant a mida que s’introdueixen nous documents en el Fons), serà quelcom com:

  • D00334 Eleseo3088 Eleseo3153 Sarrazina2904 Franco2987 Franco2847
  • D00531 Latialia5084 Bonifacus5063 franchorum2022
  • D00329 Amor2556 Elesania2635 Franco2573
  • D00328 Amor2556 Francone2543 Franco2573
  • D00217 Elisei1804 Eliseus1795 Bonifacius1793
  • D00006 franchorum2022 Frodoí54 Pau Sergi60
  • D00129 Tadilane903 Cardellus906
  • D00245 Tadilane903 Cardellus906
  • D00593 franchorum2022 Aimarnus5203
  • D00079 Envolate784 Eleseo781
  • D00666 Aimari5623 franchorum2022
  • D00087 Tadilane903 Cardellus906
  • D00459 Elisei4032 franchorum2022
  • D00096 Adevora944 Helisei946
  • D00275 Tadilane903 Cardellus906
  • D00255 Tadilane903 Cardellus906
  • D00673 Tadilane903 Envolate784
  • D00632 Tadilane903 Cardellus906

Que resulta molt interessant, perquè ens il·lustrarà els problemes d’una aproximació tan simple. El document amb més coincidències, no es altra que l’inevitable Judici de Vallgona, veritable recull d’antroponímia medieval catalana, i que ens mostra com també s’ha de contemplar – també inevitablement – el factor del nombre d’identitats que tingui un document. El segon, tenim que tampoc és de gaire utilitat, ja que el Franconi del text ha trobat un homònim en un gentilici, francorum; es evident que no ens és tampoc d’utilitat, i que un sistema automàtic hauria de descartar també tant gentilicis com esments a sants o déus. El tercer i quart, s’assemblen al primer ja que són els documents del judici de la vila de Mocoro, uns documents, també amb un molt alt nombre de participants. Ara bé, un cop eliminats aquests casos clarament anòmals, tenim:

  • D00217 Elisei1804 Eliseus1795 Bonifacius1793
  • D00129 Tadilane903 Cardellus906
  • D00245 Tadilane903 Cardellus906
  • D00079 Envolate784 Eleseo781
  • D00087 Tadilane903 Cardellus906
  • D00096 Adevora944 Helisei946
  • D00275 Tadilane903 Cardellus906
  • D00255 Tadilane903 Cardellus906
  • D00673 Tadilane903 Envolate784
  • D00632 Tadilane903 Cardellus906

Que sí és molt semblant a la llista que s’havia obtingut manualment, cercant homònims per expressions regulars.

Certament és un cas especialment benigne, tota vegada que no hi han noms molt freqüents i amb moltes possibles identificacions, però sí que il·lustra el que dèiem, de com unes eines, tot i ser simples, poden ser d’utilitat. Recordem que els resultats aquests són literalment els que trauríem de considerar els documents com simples llistes de participants, que era la primera i més simple de les aproximació que descrivíem.

O en altres paraules, si es vol saber quins documents del Fons presenten, per exemple, un Abono, una Emma i un Teodardus, ara ja es pot!

Altra cosa és parlar del mètode de lematització emprat, que per temàtica i extensió, requerirà certament ser tractat en un apunt propi (no tot és tan maco com sembla…) ; que aquest, ja és prou llarg!


Notes

  • [1] Per desgràcia, no estem parlant de documentació original, on cabria el limitat, però molt efectiu mètode d’analitzar grafològicament les signatures.
  • [2] L’error i la falsedat, i per tant l’ambivalència, són qualitats intrínseques de la documentació antiga i precàriament transmesa.
  • [3] Un cas més complicat podria ser el del document D00720
    d00720-th

    Un cas especialment complicat… i interessant!

Aquesta entrada s'ha publicat en cathalaunia.org, estadística, Fons Cathalaunia, lematització, prosopografia, Uncategorized i etiquetada amb , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

2 respostes a Prosopografia i el somni estadístic; teoria i pràctica.

  1. … un prevere no sol figurar com a casat…

    No és si segur, aquest… Molt certament trobareu algunes excepcions!

    • cathalaunis ha dit:

      Sí, ja ho sé, és un comentari habitual, però és que fins ara encara no me’n he trobat cap! Potser més avançat el segle X, quan la quantitat de documents s’incrementa sensiblement…

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s