Visualitzant el cens de la Gòtia d’inicis del segle X.

El títol d’aquest apunt és molt planer, massa, i com no podia ser d’altra manera també molt imprecís, ja que de fet  no tenim pas el cens de la Gòtia. El que sí tenim, és codificats en la secció Fons Cathalaunia del web cathalaunia.org una majoria[1] dels documents coneguts entre l’any 898 i el 914 no sols de la Gòtia, sinó de tot el Midi, així com les notícies de les fonts musulmanes i alguns dels documents rellevants del regne astur o galaic.

Diem que tenim el cens, ja que en el procés de codificar els documents, s’han anat separant els esments a persones i llocs que hi apareixen, identificant-els i apuntant per cada un d’ells els documents on figuren – una mena d’índex creuat – i per fer aquest procés s’ha anat desenvolupant una metodologia per intentar identificar els figurants en aquests texts (basada en mirar d’aprofitar les repeticions de grups de noms de persones que es donen entre documents). El resultat, per tant, és tal vegada el més proper a un cens que es pugui tenir tot i que evidentment tant sols conté una fracció de la població de llavors – el fons registra actualment 5197 persones en 593 documents -; i a més, la identificació de moltes d’elles, les que no tenen atributs que els facin especialment identificables, no passa de ser sovint una simple hipòtesi.

De fet, és a rel de comentar amb en Jonathan Jarrett aquesta metodologia d’identificació que vaig tenir accés al molt interessant treball del grup format per Fabrice Rossi, Nathalie Villa-Vialaneix i Florent Hautefeuille, de títol: Exploration of a Large Database of French Notarial Acts with Social Network Methods, als qui evidentment expresso la meva gratitud per la seva amabilitat en deixar-me tenir-hi accés abans de la seva publicació i d’on he tret la idea d’utilitzar eines de visualització i processament de grafs – en concret el programari Gephi – per tal d’analitzar la distribució de la població definida actualment en el Fons Cathalaunia.

Bé. Diguem doncs per començar que aquest apunt és tant sols per comentar els primers intents de visualitzar les dades del Fons Cathalaunia, no n’espereu per tant res de gaire rellevant…

El primer va ser un cop instal·lat el programa Gephi – sota Linux – mirar d’introduir-hi les dades via importació.

El Fons Cathalaunia té la possibilitat d’exportar les dades en format XML, cosa que evidentment facilita la seva conversió a altres formats. En el cas que ens ocupa segons la documentació, havia la possibilitat d’incorporar tant els nodes/vèrtexs com les arestes/línies en format text separat per comes (CSV), de manera que exportem la totalitat de les dades del Fons Cathalaunia en format XML i el processem[2] per produir dos fitxers: un de nodes, on cada document i cada persona és un node; i un d’arestes per connectar amb una línia cada document amb cada una de les persones que hi figuren. La primera topada: la importació no funciona, el diàleg d’importació es queda bloquejat un cop especificat el fitxer a incorporar (probablement un problema amb la instal·lació local).

Uns quants intents fallits després, ve una segona aproximació. Gephi té la habilitat de poder llegir diferents formats de fitxers de grafs, i a més, la distribució ve amb alguns exemples de prova; fantàstic. Un parell dels exemples venen en format GEXF, un derivat del XML i força fàcil d’interpretar a primera vista. Fem un segon intent: convertim les dades XML del Fons Cathalaunia a format GEXF i creem un sol fitxer que incorpora tant el nodes (documents i persones) com les arestes (quines persones apareixen en quins documents). Aquest cop tenim èxit, i ja podem començar a jugar amb el programa i les nostres dades!

El primer graf, no és que sigui gaire encoratjador…

Primer graf.
Cliqueu per màxima resolució.

Per el que sembla, els nodes són tots del mateix color, mida, i estan en una distribució aleatòria. Mirem de millorar-ho: assignem colors diferents als documents (vermell) i a les persones (blau), i assignem mides segons el nombre de línies que tinguin, el resultat, és:

Segon graf.
Cliqueu per màxima resolució.

Una mica millor, si més no, veiem un document i una persona que tenen una mida clarament superior a la resta. El problema major, és que els nodes al estar situats aleatòriament provoquen que les línies que els uneixen formin aquesta mena de ‘mar’  o fons gairebé homogeni. Necessitem col·locar els nodes de manera una mica més entenedora. Gephi permet ajustar manualment tots el paràmetres de cada node (color, mida, posició, etc) però és evident que amb prop de 6000 nodes i poc més de 8000 arestes, la possibilitat d’ajust manual no és precisament la resposta.

Cap problema, és per això que existeixen els algoritmes de distribució de forces. La idea base, és que els nodes són masses, i les arestes entre ells, vectors de força, com si fossin molles, de manera que podem fer (per exemple) que els nodes es vagin situant cercant  l’equilibri entre aquestes forces. El nombre possible de variants, és evidentment infinit, però per el que fa al nostre cas, tenim que Gephi incorpora tota una sèrie d’algoritmes per moure col·lectivament el nodes, en la secció de Layouts. Unes quantes proves i finalment apliquem unes quantes iteracions de l’algoritme anomenat ForceAtlas2, el resultat és:

Tercer intent.
Cliqueu per màxima resolució.

Això ja està molt millor! Ara ja podem començar a veure l’estructura de les dades. En primer lloc tenim els dos nodes grans que veiem abans, i per altra s’observen unes estructures de raïm associades a molts nodes.

Comencem per aquesta segona ja que té a veure amb el tema de la identificació dels figurants, del ‘cens’ que dèiem. En molts dels documents entrats apareixen esments de persones de les que tant sols se n’indica el seu nom (‘Bernardus’, ‘Rainulfi’, etc). Per a molts d’ells no és possible ni tant se vols teoritzar si són el mateix ‘Bernar’ o ‘Rainulphus’ d’algun altre document, i per tant, en aquests casos, tenim identitats de les que en tenim un sol esment en un sol document. Aquest són els ‘raïms’ que l’algoritme ha posat gràficament de manifest.

Respecte als dos nodes grans, n’hi ha prou amb activar el dibuix de les etiquetes per identificar quina persona i quin document són. El nou graf  és:

Quart graf.
Cliqueu per màxima resolució.

Efectivament, el document que reuneix tants nodes de gent al seu voltant, no és altre que el del famós judici de Valfogona del 913, famós entre altres coses, per la presència de no menys de 565 figurants – la mitjana del fons és d’una decena de figurants per document -. I el personatge que apareix citat en tants documents, no és altre que el rei Carles el Simple, i la raó per que aparegui en tants documents és que la immensa majoria d’actes van datades per el seu regnat. Per mirar de simplificar la vista, eliminem aquest node; tenim:

Cinquè graf.
Cliqueu per màxima resolució.

Eliminem ara també el node del pare de Carles, Lluís el Tartamut, apliquem unes quantes iteracions més de l’algoritme ForceAtlas2 i canvien els colors de les arestes, obtenim finalment:

Graf final.
Cliqueu per màxima resolució.

Unes quantes observacions superficials:

En el quadrant inferior dret, tenim una formació de tres raïms ben curiosa, mirem-ho amb detall:

Tres raïms i dos documents.
Cliqueu per màxima resolució.

Es tracta de tres agrupacions de persones, relacionades amb dos documents. Cada document té un conjunt de persones que sols figuren en ell, però també hi ha un grup, que conforma el raïm central i que apareix en el dos documents. Si mirem quins documents són aquests, tenim que un és el judici del 913 de la vila de Mocoron, i l’altre és la venta de la meitat de la mateixa vila feta al cap d’un pocs dies a favor d’un Wifredo.

En el centre del graf tenim l’amàs del judici de Vallfogona. Si fem un cop d’ull un xic més a prop:

La zona central.
Cliqueu per màxima resolució.

Tenim tot una sèrie de personatges al seu voltant, com Emma, la filla del Pilós – tal vegada el personatge més ben documentat del període – i bona part de la seva família. Precisament, si ens fixem en Emma trobem una cosa ben curiosa. Vèiem abans que les personalitats que sols apareixien en un únic document ens formaven aquests ‘raïms’ o agrupacions de persones lligades a un sol document, però en el cas d’Emma tenim que d’ella en surt un raïm cap la banda inferior format per un conjunt de documents. Que és això?

Emma.
Cliqueu per màxima resolució.

Doncs la resposta és ben planera. D’Emma tenim tota una sèrie de documents que sols existeixen en forma de regest de transaccions en els que sols s’especifica la identitat de l’abadessa, per això, en el seu cas, el seu node porta associat un ‘raïm’ de documents que sols apunten a ella.

I fins aquí aquest apunt, que ja és prou llarg. En altres mirarem de comentar les maneres d’aprofitar les capacitats de visualització i anàlisi que aquest tipus de programari permet.

Notes

  • [1] S’han entrat tots els documents que s’han pogut localitzar, però encara hi han cartularis i fonts diverses que no han estat processats. També hi figuren documents que escapen el marc temporal del 898-914 ja que l’ànim del Fons Cathalaunia és anar ampliant continguts fins on sigui possible.
  • [2] Per transformar les dades s’ha utilitzat una combinació del programari XMLStarlet amb el venerable bash.
Aquesta entrada s'ha publicat en Carles el Simple, Cathalaunia, Emma, estadística, Fons Cathalaunia, Gephi, Lluís el Tartamut, Mocoro, Vallfogona i etiquetada amb , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

2 respostes a Visualitzant el cens de la Gòtia d’inicis del segle X.

  1. Aquest es un obra de meravella, Joan, un cent de camis per a seguir…

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s