Semblances documentals.

Aquest apunt s’hagués hagut d’escriure fa més d’un més, ja que fou llavors quan es programà i calculà el que ara  comentarem; un tsunami antroponímic inesperat ha obligat a retardar-ne l’anàlisi dels resultats fins ara…

Un dels temes inevitables en parlar de documentació altmedieval, és el dels formularis. Inevitable, perquè un volum no pas menor de la documentació del període es produïa  a base d’adaptar un seguit de models predeterminats a les necessitats específiques del moment (pràctica ja en ús ben abans del període carolingi[1],  i encara avui en dia, de plena actualitat[2]). L’estudi de les evolucions d’aquests models cau pròpiament en el camp de la Diplomàtica i tot i ser apassionant[3], no és el tema que aquí tractarem. El que sí comentarem, són tècniques que poden ser d’utilitat per a aquesta mena d’àmbits, tota vegada que es tracta de mesurar programàticament el grau de semblança entre documents altmedievals.

El Fons Cathalaunia, es dedica a recollir tota mena de testimonis rellevants per a la història de Cultura Catalana entre els segles VIII i XI, i per tant, un percentatge no menor de les seves entrades és va originar certament per l’ús de formularis, però no pas la totalitat, ja que també hi ha uns percentatges gens menyspreables de fonts annalístiques, hagiogràfiques i epigràfiques, entre altres. En introduir aquesta varietat de texts, es gairebé inevitable detectar modismes, repeticions, fórmules, entre les diverses tradicions que el registre conté. Així, que la pregunta que sorgeix és: com podem mirar d’objectivar aquestes semblances que tan sovint es fan evidents? Aquí és on els ordenadors permeten superar l’estadi d’haver-se de basar exclusivament en l’opinió personal dels experts documentalistes, a base d’afegir-hi els criteris proporcionats per unes anàlisis quantitatives que escapen de les capacitats manuals. Entrem en matèria.

Comparacions

Com ho podem fer per comparar dues entrades qualsevulles del Fons Cathalaunia? Una primera consideració, és la del llenguatge; fins ara, totes les entrades estan formades per texts en llatí  (bé, totes les que tenen text ‘original’, que tampoc són pas la totalitat, que també hi han documents perduts, documents traduïts, etc…) així que el que es vol comparar està format per paraules en aquesta llengua. Com ja es va comentar per el tema del tractament dels antropònims, una de les funcions internes del web, és la de la simplificació – esquematització potser seria un terme més ajustat – d’antropònims llatins. A partir d’aquesta funció, es pot arribar a convertir una paraula en llati en una forma derivada que captura bàsicament el seu inici i la seva estructura consonàntica.  I així tenim una primera aproximació a la comparació de paraules llatines, per el mètode crear una funció binària de comparació de les seves formes esquematitzades, que si són trobades equivalents retorna un 1 i sinó un 0.

Comparació certament barroera des del punt de vista filològic, però més efectiva del que podria semblar a primera vista si tenim en compte que no estem parlant de comparació de paraules aïllades, sinó de seqüències de paraules, i que per tant, la probabilitat de confusió entre paraules que tinguin una mateixa forma esquematitzada però siguin semànticament diferents decreix molt ràpidament a mida que afegim paraules a la seqüència.

Aquesta funcionalitat ens soluciona el nivell de les paraules, però si consideréssim els documents exclusivament com una única i llarga seqüència de paraules, poc avançaríem, tota vegada que en comparar documents sencers ens donaria certament uns baixos índexs de semblança. Cal establir un nivell intermedi, entre la paraula i el document.

Aquest nivell, en llenguatge natural, està representat per la frase, o si més no, el paràgraf; però tenim els documents del Fons segmentats per frases? Doncs, no, certament no. Els documents,  que acostumen a estar entrats en la forma més semblant a l’original que s’hagi pogut aconseguir, sí tenen usualment signes de puntuació que podrien servir per a la tasca de segmentar els texts de forma automàtica, però això no sempre és així i la varietat formal dels testimonis del Fons és tan gran que certament hi haurien molts texts en els que una segmentació automatitzada basada en la puntuació, fallaria.

Afortunadament però, en el procés d’entrada dels documents en el Fons, des de fa ja molts mesos es contempla una fase de segmentació manual. L’origen de la qual no té res a veure ni amb temes filològics ni d’anàlisi formal, sinó en la conveniència de mostrar uns texts medievals on els noms del seus protagonistes i els dels topònims que hi figurin estiguin enllaçats programàticament amb les pàgines corresponents de cada individuu o lloc. És per això que ja des de que s’implantà aquest sistema d’intra-enllaçament, que els texts, internament, estan manualment segmentats. Però no ho estan sota un criteri formal i uniforme (la variabilitat que dèiem ho impediria de totes maneres) sinó eminentment pràctic. Acostuma a seguir la separació entre frases, però ni ho fa sempre ni tampoc segueix un únic criteri, i això sí que pot ser un problema per la tasca que ens ocupa aquí, atès que si entenem un document com un conjunt de fragments resulta evident que l’arbitrarietat en la definició d’aquests fragments pot anular l’efectivitat del sistema de comparació; però com que aquesta segmentació sí la tenim disponible, aquesta serà la que es mesurarà, i ja veurem en els resultats si aquesta manca de definició formal serà significativa o no.

De manera que tenim que un document es considera format per una sèrie d’un o més fragments de text, que al seu torn es consideren formats cada un d’ells per una o més paraules en llatí. Fins aquí, teníem una funció binaria que ens compara dues formes llatines, ara, però, ens en calen un parell més: una que compari dos fragments i una altra que compari dos documents. Anem per la que compara dos fragments.

Com sol passar en temes de comparacions, la identitat és molt fàcil de definir, però el seu contrari, acostuma a ser força més imprecís. En el cas que ens ocupa, és evident que dos fragments de document, seran idèntics si presenten les mateixes paraules (o formes simplificades) en el mateix ordre; en aquest cas, la funció podria retornar un 1., i tal vegada, si no tinguessin cap paraula en comú, podríem pensar en què la funció retornés un 0. Ara bé, en la resta de casos (i àdhuc aquest cas 0.  ja té més d’una possibilitat,  que hem obviat per claredat en l’exposició) podem pensar que torna quelcom entre 0. i 1., però quin valor en cada cas? Com definir un criteri que sigui funcional? No podem donar encara tots els detalls, ja que cal esperar a tenir l’article corresponent tancat, però genèricament, podem recórrer a un símil gràfic per mirar d’explicar-ho.

Imaginem que disposem les dues frases en una taula bidimensional, amb les columnes corresponent a cada una de les paraules de la primera frase, i les files a les paraules de la segona. En aquesta taula, en cada cel·la marquem si les paraules (o les seves formes esquematitzades) de la seva fila i la seva columna són equivalents (amb un 1.) o no (amb un 0.). Dues frases idèntiques, donaran una matriu quadrada, amb les cel·ḷes de la diagonal major totes a 1.; dues frases sense cap paraula en comú, presentaran una matriu tota a zeros. Expressat així, podem transposar el problema de comparar dues frases a mesurar la semblança de la taula resultant de la seva comparació amb una que tingui  la diagonal major tota a 1. Com es pot imaginar, no hi ha una única (o ‘millor’) manera de fer-ho, pensis per exemple en els casos de mateixes paraules però amb ordres lleugerament diferents, o casos d’un fragment inclòs dins d’altre, etc, etc, etc). El sistema implementat només retorna valors alts (propers a 1.) si les dues frases s’assemblen molt entre sí, i per contra, produeix un cert efecte depressor en la resta de casos. Resumint, que un valor de semblança per sota del 0.5 no és un valor especialment baix… Caldrà recordar-ho en examinar els resultats.

De manera que tenim una funció binària que compara formes llatines i una funció contínua entre 0. i 1. que mesura la semblança entre dos fragments, tan sols ens falta una funció que utilitzant-les mesuri el grau de semblança entre dos documents.

De nou, hi han infinites maneres de fer-ho, i els detalls de com s’ha implementat en el Fons, encara no es poden donar, però si podem explicar-ho genèricament. Més que mirar de comparar seqüències de fragments (que potser seria l’enfoc més respectuós amb l’estructura de les dades) atès que la gran majoria de comparacions es previsible que siguin entre documents molt allunyats entre ells, s’ha optat per una aproximació més genèrica. Per a cada fragment d’un dels documents a comparar, es cerca el fragment més semblant en l’altre, se n’acumulen els graus de semblança i a partir d’aquí en calculem el seu valor normalitzat a 1. En el cas que els documents no siguin idèntics (el valor no sigui 1.), s’intercanvien els papers entre els documents i es retorna la mitjana dels seus graus de semblança corresponents. És un procediment que pot donar resultats molt equívocs en casos anòmals, però la seva mateixa improbabilitat el fa a priori acceptable. Així, que ja tenim una funció contínua que mesura entre 0. i 1. el grau de semblança entre dos documents.

Resulta evident que tot el que s’ha exposat fins ara, forneix una aproximació essencialment quantitativa i que altres propostes més ajustades a la natura del problema serien certament preferibles. En lloc de comparar formes esquematitzades, podríem tenir tot un sistema d’anàlisi filològic en llatí medieval; en lloc de cercar coincidències entre fragments de texts, podríem tenir un aparellatge d’anàlisi sintàctic que ens permetés no sols comparar les repeticions de paraules sinó d’estructures gramaticals, i a nivell de document, certament també fora millor utilitzar un sistema que calculeś el grau de paral·lelisme entre els dos conjunt de fragments (i per tant ens apropés estructuralment a coses com la detecció automatitzada de formularis). Però totes aquestes millors alternatives tenen un cost, conceptual (en dificultat) i material (en quantitat de procés), així que la pregunta inicial és: fins on pot arribar una aproximació aparentment tant simple com la que s’ha emprat? És aquest un motiu més d’interès per veure quins resultats en podem extreure…

Així que ja ho tenim tot, sols faltava calcular les semblances entre tots el documents del Fons – 728 en el moment de dur a terme aquest procés, la majoria de l’interval 893-914 –. Varis dies més tard, s’aconsegueix finalitzar el còmput (més d’un Gb de dades de resultats). El que farem serà un breu comentari d’una primera aproximació als resultats.

Resultats

Si hem estat parlant de comparació de documents, potser seria convenient començar per aquí. Tenim calculats els graus de semblança entre tots els documents (més d’un quart de milió de valors), així, que com ho podem fer per analitzar aquest volum de dades? La resposta més fàcil, ens sembla ser la utilització de grafs, com ja varem emprar abastament en la sèrie d’entrades sobre els ‘cens’ de la Gòtia; per dos motius: perquè permet visualitzar i encara més important, interactuar, amb grans volums de dades, i perquè permet fàcilment detectar agrupacions, tema que certament ens serà de molta utilitat. Així que el primer que farem, serà visualitzar els documents que tinguin un grau de semblança superior a un cert valor prefixat.

Però abans, cal explicar algunes de les convencions utilitzades en els grafs que tot seguit exposarem. En primer lloc, el codi de color dels nodes. A semblança del que es féu en la sèrie dels ‘cens’ de la Gòtia, utilitzarem un codi de colors per indicar la localització dels documents; concretament:

mccolor-th

Codis de colors per localitzacions documentals.

A aquest codis cal afegir el color blanc per els documents sense una localització definida, i el gris per unes entrades relacionades amb Creta. Ara bé, cal recordar que el Fons es concentra en les terres ‘catalanes’ i per tant, el pes del color vermell de la Gòtia és preponderant. Tenim doncs: roig=Gòtia, verd=Aquitania, blau-gris=Provença, blau-fosc=Borgonya, blau-clar=regne franc, taronja=regne galaic-astur, lila=al-Andalus, groc=Itàlia, gris=Creta i blanc=sense. Els colors són els mateixos que en la sèrie del ‘cens’ tret de la diferenciació entre Borgonya i Provença, que es distingeix a base de posar Vienne com a límit nord de la Provença i Lió com a límit sud de la Borgonya. Els nodes van units entre sí per enllaços que reflecteixen els graus de semblança entre ells amb el seu gruix. Cada node, per defecte, representa un document i la seva mida, per defecte, indica el nombre (relatiu) de fragments que el composen.  El programari utilitzat, és el Gephi, i l’algoritme de disposició dels nodes emprat en tos els casos ha estat el Force Atlas 2 amb l’ajut ocasional (per assegurar la visibilitat de tots els nodes) del de Noverlap. Per a cada graf, es disposa una versió SVG, que permet fer zoom i consultar les dades de cada node, accessible clicant sobre la imatge del graf (tret dels casos on el fitxer resultant resulti excessiu per un ordenador de gama mitjana, en aquest casos, es disposarà un enllaç separat al peu de la imatge del graf).

Comencem per els documents que més s’assemblen entre ells, els que presenten un grau de semblança igual o superior 0.7:

docw728-7-th

40 Documents amb un grau de semblança >= 0.7

Es poden observar fins a 13 grups de documents, dos localitzats a Borgonya i la resta a la Gòtia. Dels de Borgonya, els més llargs (amb nodes de mida major) són dos preceptes de Lluís el Cec, dels quals en les seves entrades documentals, en la secció de comentaris, ja s’havia detectat aquesta semblança, si bé s’havia fet ‘manualment’, en el procés d’incorporar els documents i identificar llocs i persones – és de remarcar que si bé l’activitat diplomàtica de Lluís es centrarà en les terres més al sud, aquests diplomes, es localitzen a Lió -. L’altra parella de documents de Borgonya, són dues butlles papals i també havien estat ja identificats com a molt semblants. Per el que fa als documents de la Gòtia, anirem de dalt a baix.

En la part superior tenim dues compres fetes per l’abadessa Emma un mateix dia i escripturades per un mateix escrivà proper a l’abadessa, Gentiles. Una mica a l’esquerra, tenim tres compravendes fetes a Pallars-Ribagorça en tres anys consecutius per un mateix escrivà Kardellus. Encara més a l’esquerra tenim un parell de vendes fetes per un mateix matrimoni Eldoardus i Margalida en anys consecutius a la mateix Emma i escripturades per el mateix Gentiles d’abans. En posició més central tenim tres breus regests d’una donació i dues compres de terres confrontants amb l’Spelunca Fargaria a Seguries. A la seva dreta, hi ha també un grup de fins a 10 regests tots també d’El Archivo Condal de Barcelona en los siglos IX-X. I el mateix trobem amb els altres dos grups petits de 2 i 3 nodes en la posició central i els quatre que estan abaix a la dreta. Altra cosa són els tres nodes més a l’esquerra ja que en aquest cas ens remarquen la semblança entre els apunts dels Annals de Ripoll I i II (i la còpia que en feu d’ells Villanueva) que descriuen presumptament  l’òbit i enterrament de Guifré Pilós i/o del seu fill Guifré-Borrell. Ja tant sols ens queda en la part central baixa, dos documents de compravenda entre dos mateixos matrimonis i que fins i tot presenten idèntiques correccions en la datació; també en aquest cas, aquestes semblances havien estat ja manualment detectades i comentades. Els dos últims documents de la Gòtia, en la part inferior, corresponen així mateix a dues compres fetes per l’abadessa Emma a dos matrimonis, un mateix dissetè any de Carles i escripturades, com no, per Gentiles.

Tenim doncs, que el sistema, tot i basar-se en segmentacions poc rigoroses, sí es capaç de detectar automàticament semblances que manualment també es poden detectar. Per el que fa a les semblances dels apunts formats sols per regests, a part de ser quelcom previsible, sí cal recordar que la comparació que s’ha calculat té en compte i per tant diferencia entre els noms del participants i dels llocs (i el mateix per la resta de texts), de manera que les repeticions dels figurants en texts molt curts esdevenen significatives en aquest procediment. Ni que dir té, que s’hagués pogut pre-processar els texts, substituint els antropònims i els topònims per quelcom fixe, i d’aquesta manera aproximar-nos força més a la detecció de ‘formularis’, però aquesta és una opció que no es volgué implementar per pensar que primer calia fer la prova amb els texts sense processar, tal qual, per tal de poder mesurar sense interferències el procediment emprat.

Ampliem ara el marge de semblança i mostrem tots els documents entre els que hi ha un grau de semblança major o igual a 0.5.

docw728-5-th

179 Documents amb un grau de semblança >=0.5

Aquí, el nombre grups ja creix fins els 38, la majoria, formats com abans per 2 o tres documents, però amb excepcions notables; fem-hi un cop d’ull. Si abans teníem un grup de 10 regests, ara el grup s’ha expandit fins els 38 documents (el grup a prop del centre i amb nodes petits). A la seva esquerra i una mica mes avall i ha un grup allargassat (senyal, que els extrems són més diferents entre sí, que el contigus) de 25 documents amb una forta dispersió geogràfica, ja que tenim texts d’Osona, Urgell, Cerdanya, Manresa, Andorra i Girona; que tenen en comú entre ells? Doncs ben sorprenentment, que gaire bé tots, són vendes fetes per matrimonis! L’algoritme ens ha detectat les semblances entre aquests texts i els ha separat de la resta de vendes. Un resultat certament inesperat, ja que semblaria més probable detectar primer els texts que més s’assemblessin als seus formularis, que no pas els que probablement se’n diferencien per una característica que podria semblar circumstancial. En analitzar aquests resultats, s’està fent palesa la necessitat d’un complement programàtic: la capacitat de generar una visualització dels factors comuns d’aquestes agrupacions de documents, una mena d’opció de: ‘mostrem el patró textual’… però no ho tenim… encara… continuem..

A la dreta del grup dels matrimonis venedors, tenim una agrupació de 14 documents centrada en el Pallars-Ribagorça; en la part superior hi tenim donacions i en la part central e inferior vendes; aquí sí que tenim una agrupació clarament afectada per els formularis i amb una definició local prou explícita.

Encara més a la dreta i abaix , tenim un grup també de 14 documents, tots ells osonencs. Ben curiosament, la majoria tornen a ser vendes de matrimonis! Però aquest cop, la compradora majoritària és l’abadessa Emma, i amb ella, els seus escrivans. Ho diem perquè el grup majoritari inferior són tot vendes de la mà de Gentiles i els nodes lleugerament més separats però connectats (és adir, encara molt semblants), són tres del escrivà Anderaldus i un de Wisandus. O sigui, que el graf ens està posant de manifest que l’abadessa Emma, no sols actuà de forma independent, sinó que fins i tot aplicà uns formularis propis; la dispersió geogràfica de l’altra grup de matrimonis venedors contrasta fortament amb la concentració d’aquest conjunt. Ignoro si aquest punt ja havia estat detectat prèviament – personalment, no recordo haver llegit mai res tan concret com això -, però certament resulta d’allò més engrescador veure com una anàlisi quantitativa ens pot evidenciar pautes que altrament haurien passat desapercebudes!

Més enllà d’aquestes agrupacions majors, hi han dos grups de documents borgonyons. El de la part superior,  format per 6 documents, són tots compra-vendes en les que la característica més rellevant – a part de la seva localització en el pagus Matisconense– sembla ser que la part venedora és de més d’una persona (5 de 6 casos) i la compradora també (6 de 6 casos, 3 d’ells protagonitzats per el matrimoni Hug i Lilia). I en la part inferior tenim una agrupació de 8 documents on ens tornem a trobar amb un cas ben semblant, ja que tots els documents (7 vendes i 1 donació) tenen en comú tant la pluralitat de venedors (7 casos de 8) com de compradors (6 de 8 casos), tots ells també en el pagus Matisconense. Cal doncs pensar que aquests grups ens estan detectant l’ús simultani de dos formularis lleugerament diferents, encara que en una inspecció manual superficial semblen ser patrons pràcticament idèntics (ens cal l’eina que dèiem de visualització de coincidències…)

No allargarem la descripció de la resta de grups del graf, tret de dir que en aquest nivell de semblança documental comencen a aparèixer altres agrupacions ben conegudes, com les donacions a l’abadia de  Sancti Juliani i al seu abat, el comte Guillem el Pietós (a dalt a la dreta, tres nodes aquitans).

Una cosa sí que es manté fins ara, cap dels grups presenta nodes de colors (localitzacions) barrejats, és a dir, els documents molt semblants, comparteixen entorn geogràfic. Fem una ullada superficial al graf que resulta d’obrir encara més el nivell de semblança, fins el 0.3:

docw728-3-th

477 Documents amb un grau de semblança >=0.3

El nombre de documents aquí ja es dispara, però les agrupacions són molt clares i evidents; les repassem sumàriament. En la part superior tenim l’amàs principal que sembla està format per vendes a la Gòtia, tret del petit sub-amàs a l’esquerra que es centra en documents de Pallars-Ribagorça. Just a sota del gran amàs hi ha una petita concentració no massa compacta de documents també de la Gòtia, que no són altre cosa que algunes de les consagracions d’esglésies del bisbe Nantiguis, ben conegudes. També els tres grups aquitans en la franja central del graf són fàcilment identificables, d’esquerra a dreta: documents de Conques, Belluslocus i Sant Julià de Brioude. En la part inferior esquerra, tenim el grup de transmissions patrimonials centrat en la Borgonya, i en el centre, una amàs ‘provençal‘ format per decrets de l’emperador Lluís el Cec, que ben significativament ens enllaça amb el darrer grup, situat en la part inferior del text, i força separat de la resta de grups, que reuneix una munió de diplomes reials carolingis per a la Gòtia i als seus personatges – per el context, la majoria, de Carles el Simple -.

I així veiem que els resultats obtinguts de les agrupacions derivades de separar els documents per nivells de semblança, continuen sent coherents, si bé a mida que s’obra el marge, les agrupacions cada cop són, com era d’esperar, més genèriques. Fem un ultim cop d’ull a un nivell de semblança que ja comença ser baix, mirem que passa si posem el llistó a 0.2:

docw728-2-th

605 Documents amb un grau de semblança >= 0.2
Alguns ordenadors poden tenir problemes de capacitat amb el graf associat!

Aquest graf és molt i molt instructiu perquè ens dóna una visió molt amplia. Per una banda mostra com en la documentació del Fons, hi ha dues menes bàsiques de documents, els preceptes reials (el grupet ‘petit’ a la part superior dreta) i la resta de documents, que tot i que majoritàriament es diferencien per la seva procedència geogràfica (els colors estan força ben separats), sí evidencien zones de contacte  entre ells (les línies liles, marrons i blau-verdes que uneixen els grups territorials). Resulta força significatiu, com els diplomes reials que en un grau de semblança més ajustat, es diferenciaven clarament entre les  ‘cancelleries’ de Lluís i de Carles, en obrir més la mirada, es recol·loquen, ben significativament, junts i a part de la resta de documents; una visualització explícita de l’exclusivitat del format d’aquests documents en el seu context. Bé, aquest graf ens mostra això, i la lògica poca semblança de tot plegat amb uns texts narratius i/o hagiogràfics com poden ser la Vita Geraldi (el node verd al centre del graf) o la Vita Theodardi (en blanc, un xic més a la dreta i a dalt).

I de moment, ho deixarem aquí, no pas perquè no hi hagin més coses a dir, que no hem fet més que començar a avaluar aquests resultats, sinó perquè aquest apunt ja se’ns ha fet prou llarg…


Notes

Aquesta entrada s'ha publicat en Anderaldus, Beaulieu, Borgonya, Carles el Simple, cathalaunia.org, Conques, Eldoardus i Margalida, Emma, estadística, Fons Cathalaunia, formularis, Gòtia, Gentiles, Gephi, Gerau d'Aurillac, grafs, Guifré Pilós, Guifré-Borrell, Guillem el Pietós, hagiografia, Hug i Lilia, Kardellus, lematització, Lió, Lluís el Cec, Maçonnais, Nantigis, programari, Provença, Sant Julià de Brioude, Seguries, semblança documental, Spelunca Fargaria, Vienne, Vita Sancti Theodardi, Wisandus i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s