Models de prosopografia digital.

En aquest bloc s’han anat comentant repetidament aspectes individuals del model prosopogràfic implementat en el Fons Cathalaunia; potser és un bon moment per fer-ne un comentari més general, de model, obrint el focus i adoptant una aproximació comparativa amb els models subjacents en altres projectes més o menys semblants. Crec que pot ser interessant…

El Fons Cathalaunia nasqué a partir de la presa de consciència, que no existia un recull dels documents coneguts de cada un dels nostres prohoms altmedievals[1]. I tenint una experiència en anàlisi informàtic més llarga del que jo mateix voldria, vaig pensar que seria una tasca molt instructiva la creació d’un fons documental on anar registrant tots els esments coneguts de tots els personatges de la nostra història altmedieval – és el que té la ignorància, és atrevida -. El repte era construir una estructura de dades, els requeriments de la qual eren desconeguts i s’havien d’anar perfilant a mida que s’anava omplint de dades, és aquí que l’experiència en disseny de sistemes informàtics entrà en joc. La primera decisió fou utilitzar un sistema de wiki, amb facilitats per crear pàgines noves, però amb plena llibertat per el que fa als continguts de cada una d’elles. Comentarem l’esquema al final, però seguim per ara el fil dels fets.

Un temps després, amb el Fons ja començat, vaig adonar-me’n que el web que anava construint havia estat trobat i comentat en el seu bloc per el doctor Jonathan Jarrett, qui, amb una experiència molt més àmplia que no pas jo, havia arribat a una conclusió similar. La diferència és que en Jarrett llavors, ja s’havia pelat els dits construint un model propi on registrar les dades que formaven part del seu estudi; i atès que sols podem construir segons les eines que tenim a l’abast, en el seu cas, com usuari no programador, es limitaven a les eines a l’abast de tothom: tractament de texts, i especialment, bases de dades. És aquest el primer tipus que voldria comentar, els models construïts a partir de bases de dades relacionals.

Vagi per endavant, que cap dels models que comentarem són ni millors ni pitjors que qualsevol altre (la bondat d’un sistema es mesura en el grau d’efectivitat, no en les seves especificacions tècniques).

RDBMS

El sistemes de bases de dades relacionals, estructuren les dades en matrius rectangulars, on, per definició, cada unitat d’informació està formada per les mateixes parts; per convenció, les unitats són les files i les parts, les columnes. Per exemple: si volem crear un registre de Documents, poden dir que per cada ‘unitat’ o document, tindrem un identificatiu, una descripció, i una cita bibliogràfica; és a dir, un registre format per tres parts o ‘camps’ (una matriu de tres columnes); el sistema és capaç d’ordenar els valors que hi posarem en cada un d’aquests camps – és a dir, sempre i quant estiguem parlant de lletres i/o números, les imatges i altres menes de dades fan de mal ‘ordenar’- . Cada nou document afegirà una fila a la matriu. Semblantment, podem tenir un registre -minimalista- de Persones, definit per exemple, per un nom, un càrrec i un identificatiu. A partir d’aquí, podríem definir una tercera matriu, diguem-li d’Esments, on posar parelles d’identificatius de Document i identificatius de Persones i per tant, tenir un registre de qui apareix en quin document. El sistema es pot complexificar arbitràriament, segons les necessitats, però els tres elements bàsics han estat resumits aquí: a) matrius o taules formades per files / registres composats per b) un mateix conjunt de columnes / valors o camps i c), valors que es repeteixen entre taules i fan de ‘pont’ entre elles – índexs en la terminologia informàtica- (els identificatius de Documents i Persones, en el nostre exemple). Els sistemes actuals permeten afegir o eliminar files i columnes a voluntat, i són computacionalment òptims per la cerca a partir de la majoria de tipus de dades (les que són ‘ordenables’).

De manera, que a partir d’aquests conceptes i amb els programes a l’abast de tothom, els historiadors han mirat de plasmar els seus coneixements historiogràfics en el disseny de bases de dades que responguin a les seves necessitats, en el cas que ens ocupa, prosopogràfiques. Un exemple, podria ser el que explica el propi doctor Jarrett, dedicat a les evidències dels pergamins o chartae catalanes del segle X.

j1database

Catalan Comital Charters database
Per en Jonathan Jarrett.

Un altre exemple d’aquesta mena de desenvolupaments, podria ser el projecte Nomen et Gens de la Universitat de Tubingen, dedicat a recollir els antropònims i les identitats personals presents en les fonts europees entre la baixa edat clàssica i l’alta edat mitjana, un parell de finestres ho exemplificaran suficientment:

n1personen

Un registre de Persona.
Nomen et Gens.

n2namen

Un registre de Nom
Nomen et Gens.

El que és interessant, és notar com els coneixements historiogràfics són aplicats al disseny de les bases de dades, vegis sinó, els titulars de les columnes. És a dir, són, eines dissenyades per experts per a ser utilitzades -preferentment- per experts; els conceptes implicats, es donen bàsicament per coneguts. En el cas del problema prosopogràfic, cada expert dissenya lliurement el conjunt de taules que millor s’adapta als fets i coneixements que vol registrar, és la potència inherent en emprar un model de dades genèric i conceptualment simple.

Com dèiem, el sistema és – matemàticament – òptim en molts aspectes, però no en tots. En primer lloc, és un sistema rígid, amb poca expressivitat. Per exemple, si volem incorporar un text, ho podem fer, però sols a base de considerar tot el text com un únic valor ( i en una columna que suporti aquest tipus de dada). Un altre exemple que no s’adapta còmodament a conjunts de dades rectangulars, són les estructures en arbre – i són molt freqüents i útils-.

És per això que ja de ben antuvi el doctor Jarrett arribà amb la seva experiència a la mateixa conclusió que jo, que l’estructura que semblava més propera a la problemàtica prosopogràfica era un wiki, amb pàgines de diferents tipus (semblants en aquest sentit a les taules del model RDBMS) per emmagatzemar les diferents menes de dades (Persones, Documents, etc) però amb la flexibilitat que proporciona el text lliure.

Una segona aproximació a comentar, podria ser el model basat en: Factoids.

FACTOIDS

Nascuts inicialment en el projecte PASE (Prosopography of Anglo-Saxon England) i expandits en el més recent The Making of Charlemagne’s Europe (786-814), ambdós del King’s College de Londres, els factoids, no són altra cosa que un intent de sistematitzar les informacions prosopogràfiques. Es parteix del fet que la tipologia dels fets a registrar és coneguda i apropiadament esquematitzada; a partir d’aquí, els factoids no són altra cosa que maneres preestablertes de combinar una sèrie d’ítems predefinits. En el bloc del projecte Charlemagne’s Europe, hi trobareu una descripció magnífica de la mà de na Rachel Stone; n’aprofitem un parell de gràfics:

s1building_1-2

Model teòric dels FACTOIDS.
Charlemagne’s Europe.

Com es pot veure, es parteix que hi hauran una sèrie d’ítems o grups d’informació a combinar (llocs, possessions, persones, etc) per formar un factoid, és a dir, una sentència formada segons uns patrons preestablerts. En certa manera, podríem dir que la tasca de codificació consisteix en: per a cada document a incorporar, crear una llista de factoids o sentències que es desprenen o s’expressen en el text. La mena de sentències pot ser molt variada, sobre dates, possessions, autoria, etc, etc.  La part interessant, respecte al model previ de base de dades, és que aquest treballa a partir d’un nivell superior, un nivell més d’abstracció – d’adreçament, en termes computacionals -. Amb una RDBMS l’usuari té per una banda, la llibertat de crear els camps i estructures que vulgui, però a l’altra, la indefugible necessitat de donar compliment als prerequisits propis de la problemàtica prosopogràfica a implementar. El model de factoids, en donar una resposta a la tasca de definició de l’estructura de les dades prosopogràfiques, en termes pràctics pot resultar més efectiu.

Ara bé, no és de rebut portar la comparació dels dos models gaire lluny, ja que no són pas equivalents. El primer és un mètode genèric, mentre que els segon té: a) un grau d’especialització superior i, b) no especifica la seva implementació computacional – que pot molt bé ser feta amb una RDBMS-. Peró sí resulta interessant comparar-los sota el vessant del fet que ambdós mostren la problemàtica inherent de la codificació prosopogràfica altmedieval.

Tal i com comenta na Rachel Stone, el disseny previ és el model teòric; un cop posat a la pràctica, el model finalment resultant s’assembla més a:

s2building_1-4

FACTOIDS en la pràctica.
Charlemagne’s Europe.

Com es pot veure, ítems que en la planificació teòrica es podien definir aïllats, en la pràctica resulten estar molt més interrelacionats del que es preveia. En part, és un defecte intrínsec de les categoritzacions: són sempre filles del seu temps. Una Persona (Agent en la terminologia del projecte, ja que també les institucions tenen rols actius) per a nosaltres, en la actualitat, no és un Lloc, els punts de contacte existeixen entre ambdós conceptes, però són lo prou llunyans per a considerar-los separats; això no sempre ha estat així, les concepcions varien, i tothom que hagi llegit prou documents altmedievals (o qualsevol altre font antiga) reconeixerà que els punts de contacte de llavors entre Persones i Llocs eren diferents, i sovint més profunds que els actuals. Generalitzant: el que fa bo el sistema, el fet de tenir un model subjacent, també té la seva família d’inconvenients estructurals (per exemple: cal redefinir el model per a cada altra mena d’informacions nova que es vulguin incorporar).

En conjunt, però, els beneficis d’una major abstracció solen ser més grans que els inconvenients que la pròpia abstracció aporta (en el bloc del projecte hi ha un exemple magnífic comentant les diferents  maneres de consultar la base de factoids, a partir d’un terme tècnic, com és el d’advocatus.); de manera, que en la mesura que el model de factoids capturi la problemàtica desitjada – i està dissenyada per experts -, el sistema serà eficaç -donant per descomptat que la implementació informàtica serà l’adequada-.

Cathalaunia

I així arribem al model del Fons Cathalaunia, que com dèiem en començar, està desenvolupat aïlladament d’ambdós models; la meva experiència en disseny de sistemes informàtics m’aconsellava d’entrada no utilitzar una RDBMS, i el meu desconeixement historiogràfic en iniciar la tasca, m’amagà el projecte PASE, i el seu model de factoids, que de fet, segons la seva pàgina inicial es presentà a Internet en la seva forma actual en una data posterior a la creació del Fons Cathalaunia. Hi han una sèrie de diferències de plantejament bàsic que cal subratllar.

En el models presentats fins ara, l’esforç es centra en codificar afirmacions plausibles i coneixements presents en els documents amb l’ànim que la seva informatització aportarà el benefici del tractament mecanitzat per tal de copsar aspectes que l’anàlisi manual no pot captar. És a dir, en bona mesura es vol codificar tota una tipologia de coneixements sobre coses que es considera cert que existiren – ni que sigui documentalment -, coneixement positiu, objectivable; i a ser possible, servir-lo de la manera que millor respongui a les preguntes que s’espera que es facin els historiadors que els utilitzin. Un objectiu molt obvi i raonable que però, té un parell d’inconvenients:

  1. Què fem amb els coneixements que no estan gaire clars, o, perquè no, amb els falsos o erronis?
  2. El problema de la conceptualització. Podem preveure part dels objectius dels historiadors actuals, però no dels futurs (i aquest problema, en part, és sistèmic, i per tant, inevitable), de manera que quan més específica sigui la codificació, més potència investigadora, però menys resiliència.

El model del Fons Cathalaunia es concentra en mirar de registrar el que els documents especifiquen, per erroni o incoherent que això pugui semblar (partint de la noció que la ciència historiogràfica és imperfecta i que per tant, aquesta mena de decisions cal mirar d’evitar-les), i no pretén ser una eina especialitzada, ans bé una eina de primer nivell, més bàsica, un punt de partida, una tasca feta, però sense ànim ni voluntat de proporcionar solucions, sols les dades per tal que l’investigador desenvolupi les seves recerques, aportant per a cada informació presentada la referència documental d’on s’ha extret. No pretén ser una font d’autoritat, sols de dades. Cal recordar en aquest sentit, que el model és deutor de l’objectiu per el que va néixer: donar per a cada figura coneguda de l’alta edat mitjana catalana un dossier amb la llista de documents on apareix; un objectiu aparentment molt més simple que el de la majoria d’altres projectes – en comentar-ho, veurem enseguida la complexitat real, però -. En aquest sentit, i en el fet que incorpori tota mena de documents i evidències textuals, el Fons Cathalaunia s’assembla més al Nomen et Gens que no pas als altres projectes.

També s’aparta el model del dels altres projectes, en el fet que és per definició – i pràctica – un model evolutiu, en el què les estructures de dades es van redefinint a mida que es va desenvolupant el projecte. No parteix d’un coneixement previ, i no té un target, uns requeriments específics a complir, característiques que el fan molt flexible, a costa de ser a priori menys especialitzat.

En el camp computacional el model es diferencia clarament de la resta, perquè el que aporta el model Cathalaunia, és la utilització de programari fet a mida. El sistema és similar a un wiki, i per tant, amb un llenguatge de marcatge similar als wikis existents – Wikipedia seria l’exemple més conegut -, però amb l’afegit essencial de la programació pròpia, que és l’element clau que li dóna la potència expressiva – milers de línies de codi -. Potser la manera de explicar-ho millor sigui seguint la seva evolució.

A l’hora d’iniciar el disseny del Fons, el criteri rector que l’experiència informàtica acumulada feia essencial era el de la simplicitat – tot és complica sempre, i més del que era previsible[2] -, ergo, la solució més simple ha de ser mantinguda fins el moment en què no pugui complir les expectatives, i llavors, s’ha d’evolucionar, seguint però sempre el camí del mínim esforç, de la màxima simplicitat de disseny. Armats amb aquesta norma, i amb un objectiu inicial tan senzill com crear fitxes de personalitats altmedievals on disposar la llista de documents on figuren i de utilitzar  referències a fons d’autoritat externes sempre que sigui possible, el primer model estava format per: Llibres – per donar les referències a les fonts documentals -, Documents – o evidències altmedievals d’on emanen la resta d’informacions, i Gents – o persones esmentades en els Documents. Cada un d’aquests tipus, es visualitzen com a pàgines web amb una adreça amb un prefixe numèric propi, semblants entre elles, però amb la possibilitat de tenir variacions – si així es requereix -.

Seguint el principi de la màxima simplicitat, per els Llibres, en lloc de mirar de recrear una fitxa bibliogràfica pròpia, es definiren de manera molt simple, amb un títol, un autor, una data, i molt especialment, un enllaç a un registre bibliogràfic extern, proporcionat usualment per alguna biblioteca de Catalunya, així com un, o més, enllaços a versions electròniques del text. Ja des de un bon inici, el web està pensat per oferir sols enllaços a informacions o fitxers que es puguin trobar lliurement a Internet, i quan es diu lliurement, es vol dir d’accés públic, no lliures de pagament – el paral·lel en el món de la computació és en el codi lliure, no simplement obert -. Posteriorment, se li afegí la noció d’inclusió d’una entrada en una altra obra, i com a facilitat pràctica, una citació – per defecte, generada programàticament -. El resum és doncs ben simple, les entrades bibliogràfiques, a part de servir per indicar les fonts d’un Document, miren d’incorporar dos altres usos pràctics: donar una citació ja feta[3], i proporcionar – si així es coneix – enllaços on accedir obertament a l’obra a Internet.

Les fitxes de Gents, eren quelcom tan simple com: un nom, una llista de titulacions amb les que apareix en els texts, i una llista d’esments a documents on apareix. Aquesta única llista inicial, ben aviat es desdoblà per separar els esments en vida, de les citacions post-mortem. Un altra data, en aquest cas, extreta programàticament d’aquestes dues llistes, és una expressió de datació, que consigna les dates del primer i el darrer esment en vida coneguts, així com el del darrer esment post-mortem incorporat. En un moment posterior, i davant de la pressió de la problemàtica inherent en la variabilitat antroponòmica altmedieval, s’afegí una llista de formes nominals o grafies amb les que el subjecte de l’entrada figura en els documents, i també computat mecànicament a partir d’aquestes llistes d”esments, s’afegí un camp de localitzacions, que recull els diferents llocs on es localitzen els documents on figura el subjecte.

I així arribem al que és la font primària de les dades del Fons, els Documents. En essència, l’aproximació es pot considerar similar a la dels factoids, en el sentit que per a cada document es crea una llista de dades extretes del text en qüestió. La diferència està en l’estructura i el grau de complexitat. Mentre el model factoids recull totes i cada una de les tipologies dels aspectes a consignar, el model Cathalaunia, és molt més simple, d’acord amb el seus objectius bàsics. Així per a cada document, es crea al costat del text en llatí – si és que es disposa d’ell, que hi han entrades per documents perduts, o en altres llengües -, un conjunt de dades fixes, entrades manualment, com: un titular, un regest, una localització genèrica, una datació, i si és o no ‘original‘.  A partir d’aquí, comença la festa. El que fa el model, és limitar-se a descriure els figurants en el text, és a dir, quants n’hi han i els numera de 1 a N, i per a cada un d’ells, recull un conjunt de dades mínim: un nom amb el que apareix, una titulació – si s’escau -, un identificador de Gent – és a dir, a quina ‘persona’ del Fons es refereix, i un conjunt de fragments del text on apareix esmentat. Deixem per un moment la problemàtica de la identificació dels figurant, en parlarem ben aviat; perquè amb només aquestes dades, ja tenim el material necessari per complir programàticament els objectius inicials del projecte.

Dèiem abans que en cada fitxa de persona es disposen les llistes d’esments als documents on figuren. Aquests entrades tenen la forma document#figurant, és a dir, indiquen de quin dels figurants del document en qüestió es tracta; això permet accedir programàticament a les dades presents en els documents des de la fitxa de la persona, de manera que si la seva llista de documents resumeix les seves evidències documentals existents, posant el ratolí sobre cada una d’elles, es pot observar els fragments on apareix esmentat, sense necessitat de ‘saltar’ a la fitxa del document en qüestió – que també es pot fer, per descomptat -. Una imatge és potser un millor resum:

c1g

Una fitxa de Persona amb els fragments on apareix en un dels seus documents.
Cathalaunia.

I per la banda dels Documents, aquest esquema, permet muntar de manera automàtica un sistema de navegació entre les dades, tot transformant cada nom de persona – i lloc, que encara no n’hem parlat – en un enllaç. És a dir, dels fragments de text on apareix cada figurant, podem saltar al punt del text on es localitza el fragment, i des del propi text, enllaçar a les fitxes de Gents o Llocs; quelcom que fet a mà, seria, a efectes pràctics, impossible de mantenir. És gràcies a aquest dispositiu que els texts del Fons Cathalaunia es presenten plenament hiperenllaçats, no pas per una tasca manual inhumana.

c2g

El text del judici de Vallfogona, un exemple amb centenars de figurants, tots ells automàticament enllaçats amb les seves fitxes personals.
Cathalaunia.

Ja ben primerencament, es pensà en afegir un registre de Llocs, on recollir tots els esments a cada un dels topònims presents en els texts. De manera que el sistema de creuament de dades explicat per els esments personals es duplicà per cobrir paral·lelament els esments toponímics. Per a cada Lloc, es disposà d’un nom, una llista de formes en les que apareix escrit o grafies, i una llista d’esments en documents, completada en la fitxa del document, per una llista numerada de llocs (de 1 a M), i per cada lloc, els mateixos conceptes: un nom, una tipologia, un identificador de Lloc i els fragments de text on apareix. El resultat, lògicament, és que els topònims que apareixen en els texts, es poden convertir programàticament en enllaços a les pàgines de toponímia pertinents. Però ben aviat, es feu palès que tenir una llista cronològicament ordenada d’esments a Girona, no era quelcom especialment útil, i que potser era millor construir llistes diferenciades segons la tipologia de l’esment – tots els esments del bisbat de Girona, tots els del comtat de Girona, els del pagus de Girona, i així anar fent -. Que la tipologia toponímica pot ser força complicada es pot apreciar, per exemple, en l’esquema que utilitza el Charlemagne’s Europe:

s3place_model_schematic

Esquema toponímic.
Charlemagne’s Europe.

De manera que es subdividí cada topònim en tantes seccions com tipologies s’anessin detectant, i per tal que es pogués adreçar directament a una tipologia concreta, s’expandí la notació, i si Barcelona és el codi L000003, L000003#pagus indica la subsecció on es llisten els esments a la tipologia pagus de Barcelona (existeix també una tipologia genèric, per els esments no qualificats). Però no contents amb això, es pensà en mirar de reflectir també l’estructuració territorial que molts dels text presenten. Posats a fer…

En la banda dels documents, la llista de topònims esmentats (la de 1 a M),  es convertí en un arbre, on cada entrada podia tenir un nivell de sagnat propi (una llista no és més que un arbre amb tot els nivells de sagnat a 0), així, l’estructura de la llista pot reflectir l’estructuració dels llocs, per exemple, si el text parla de dues viles en una vall, posem les entrades de les viles just a continuació de la de la vall, i amb un nivell de sagnat un grau major que el que tingui l’entrada de la vall. I en els Llocs, per a cada tipologia, a més del nom, llistem les inclusions que se li van detectant. Un exemple amb un parell de tipologies:

c3g

Un topònim amb dues tipologies.
Cathalaunia.

Així tenim un registre de Documents, Gents i Llocs, plenament entrecreuat amb el mínim d’esforç possible. Però és característica troncal del web, que a més de proporcionar la font documental de cada dada, es faci referència sempre que es pugui a autoritats externes, per això, tant en els Documents, com en les Gents, i per cada tipologia de cada Lloc, es proporcionen dues seccions més: bibliografia – on poder anar consignant les obres adients sobre la dada -, i web – on es proporcionen enllaços a llocs de referència externs-.

No contents amb aquesta disposició, en un moment també primerenc, es prengueren dues decisions de llarg abast:

  1. Mirar d’identificar a tots els figurants en els texts, no sols als nobles.
  2. Crear dues seccions addicionals en els registres de Gents, una per anotar – manualment – les relacions interpersonals que els texts expressaven (inicialment, coses bàsiques, com parentius) i una altra per indicar relacions geogràfiques, on expressar els llocs en els que el subjecte hi manifesta un lligam específic.

La problemàtica de mirar d’identificar els figurants en el text, es molt fàcil d’explicar i molt difícil de resoldre – de fet, en part, és impossible -. Un quants dibuixets ho deixaran clar. En origen, els esments que figuren en els texts, eren coneguts per els seus autors.

c5g

En origen la relació entre esments i persones era unívoca.
Cathalaunia.

Però el pas del temps i la pèrdua del context original, fa que s’hagi perdut aquest coneixement i per tant, podem tenir esments amb més d’una possible identitat.

c6g

Perdut el context, la relació entre els esments i les identitats esdevé variable.
Cathalaunia.

Per mirar d’expressar aquesta incertesa, a part de soportar la possibilitat de tenir més d’un identificador de Gent per esment documental, s’afegí en les dades de cada identitat, una llista opcional d’idems o identitats alternatives (davant del dubte, per defecte, es crea una identitat nova).

c7g

La identitat 3 pot ser la mateixa que la identitat 1 i/o la 4.
Cathalaunia.

No és apunt aquest per comentar a fons la problemàtica de la identificació dels figurants en els documents antics, ho hem fet moltes altres vegades i fins hi tot s’ha desenvolupat una metodologia per aprofitar la detecció de grups de participants homònims. El que sí cal comentar té a veure amb el segon punt, l’anotació manual de relacions interpersonals; en un primer moment, es feia utilitzant referències directes a altres identitats, de manera que si un document presentava un pare i un fill que eren identificats respectivament com les identitats 2 i 3, teníem:

c8g

Relacions interpersonals mal definides.
Cathalaunia.

Aquest esquema estaria aparentment bé si les identificacions fossin totes immutables, però no ho són. Una minoria certament són lo prou evidents com per donar-les per fermes, però a partir d’aquí, la resta, presenta una gradació en la fiabilitat, que va des de lo molt probable fins lo casual. El problema era doncs, que quan calia, per exemple, fusionar dues identitats prèvies en una de sola, s’havia de traslladar manualment les dades de relacions, tan interpersonals com geogràfiques. La resposta – i el procés de conversió – , ja el vàrem comentar en el seu dia, a tall de resum, la manera correcta era:

c9g

Relacions interpersonals ben definides.
Cathalaunia.

És a dir, afegir en els Documents, per a cada figurant, dos camps nous on anotar respectivament les relacions interpersonals i les geogràfiques; sent cada anotació un text essencialment lliure que pot contenir referències als altres esments. En l’exemple del dibuix, en la definició del figurant 1 del document 2, i podríem posar: ‘pare de F2’ i en el del figurant 2: ‘fill de F1’. La contrapartida que fa que el sistema funcioni, és que en les fitxes de les identitats, s’afegí programació per tal de transformar aquestes anotacions en les referències reals. Així, tenim que no sols podem donar raó de en quins documents X figura com a pare de Y, sinó què si X es veu fusionat amb Z en un moment posterior, el sistema per si sol, presentarà que Z és ara pare de Y. De nou, l’aplicació del principi de mínima dada, màxima derivació programàtica.

I amb això semblaria que podríem tancar la descripció dels elements que formen les dades del Fons Cathalaunia, si no fos perquè a partir d’haver decidit registrar i identificar tots els figurants de tots els texts, i no sols als nobles, com era la intenció inicial, la problemàtica de la variabilitat antroponímica pròpia del context altmedieval passà a tenir un rol preeminent en el desenvolupament del Fons.

A partir d’aquí, es pensà que seria bo tenir una facilitat per consultar les dades de persones per Nom, amb l’ànim de poder tenir tots els ‘Roberts’ o ‘Lluís’ en una sola pàgina – de nou, santa ignorància! -. Per fer-ho, es va partir de les agrupacions de grafies que cada persona del Fons presentava, i de les agrupacions que figuren en el major registre antroponímic altmedieval català fet fins ara, el Repertori d’Antroponims Catalans (RAC 1). De manera que ajuntant aquestes dues fonts, es produí un registre de Noms – técnicament parlant, grups antroponímics -, actualment amb més de 4.700 entrades. Les dades manualment introduïdes per cada antropònim, són: un nom de referència i una llista de grafies, res més. A partir d’aquí, la programació pren el relleu, i genera una sèrie de valors a partir de les dades presents en el Fons: una llista de Gents amb aquest nom, una llista de Documents on hi figuren, a quins gèneres s’aplica, i en quines localitzacions es documenta. Completa el dossier les inevitables seccions de bibliografia i web per les referències externes. Una imatge ho pot resumir millor:

c4g

L’antropònim Adalaldo en un Fons amb 825 documents.
Cathalaunia.

L’altra cosa que la programació fa, és enllaçar les grafies de cada identitat personal amb el seu antropònim corresponent; el sistema no és perfecte, ni de bon tros (la variabilitat és enemiga de la computació, com el caos o és de la formulació), però funciona en un gran percentatge de casos.

Explotació

Fins aquí l’explicació bàsica dels models i dels seus principis bàsics. A partir d’aquí, cal fer notar que tots aquests esforços serien en va si la informació no arribés als seus destinataris, de manera que a més de les dades, tots els projectes incorporen facilitats de cerca d’informació. No entrarem en detall, ja que el tema mereix un comentari propi, i aquest apunt ja és certament massa llarg, però sí cal remarcar la importància de tals facilitats.

Més enllà d’això, si obrim el focus, tenim un grapat de projectes prosopogràfics digitals, cada un amb els seus objectius i metodologies. Fem un parell de consideracions globals finals.

En primer lloc, la majoria de projectes han estat construïts de manera que el ítems d’informació que presenten, ja siguin Noms en el Nomes et Gens, Agents en el Charlemagne’s Europe o Topònims a Cathalaunia, tots ells són adreçables via URLs úniques i estables, de manera que una primera manera d’aprofitar aquestes informacions, és creuar-les quan sigui possible per tal de maximitzar les sinergies entre projectes. Això ja s’està fent. Es va comentar el mes passat com s’estaven aparellant les entrades antroponímiques de Cathalaunia amb les del Nomen et Gens (les d’identitats no es corresponen gaire, atesa la diferència de contexts), i actualment s’està fent el mateix vers els documents, agents i especialment, topònims, compartits entre Cathalaunia i el Charlemagne’s Europe (que ja s’enllaçà de vell antuvi amb les identitats del Nomen et Gents). A mesura que la interconnexió es vagi materialitzant, l’investigador podrà ‘saltar’ entre projectes a partir de les dades comuns entre ells (en el cas de Cathalaunia, això es materialitza amb enllaços en les seccions web de cada mena de dada). És un primer nivell d’aprofitament.

Mirant més enllà, i des del punt de vista computacional, hi ha el fet que independentment de l’estructura de dades i del mitjà de gestió emprat (RDBMS, wiki, CMS, etc,) un element comú, és que totes aquestes dades es poden representar mitjançant notació estructurada, en un llenguatges de marcatge, com l’XML, que n’és potser el més emprat. No seria gens agosarat mirar de proposar un conjunt d’esquemes que recollissin les peculiaritats del problema prosopogràfic, i defugint els particularismes d’una o altra proposta, cerqués el mínim comú denominador, i establís una lingua franca que facilités l’intercanvi de dades. Ja de ben d’hora en el Fons Cathalaunia es programà un sistema d’exportació de dades en format XML, potser fora bo estendre i evolucionar el concepte…

 – Actualització 2015-III-18 –

Justa la fusta! Just ahir, va aparèixer una molt millor explicació del model de Factoids en un post de la mà de na Rachel Stone   en el bloc del Charlemagne’s Europe on es pot llegir la seva molt il·lustradora ponència: “Bits of charters: putting Carolingian charters into a database”.

 


Notes

  • [1] De fet, el tema era i és molt pitjor. No sols els dossiers personals no estan sistematitzats, és que ni tant sols els documents ho estan, i de fet, ni les fonts s’ha vist normalitzades! Tot els sistema funciona a base de la cita bibliogràfica, és a dir, descansa i depèn bàsicament de Gutemberg. Ni què dir té que el xoc amb les tecnologies de la informació és inevitable, tota vegada que la immediatesa i practitat del mitjà informàtic no pot -actualment- proporcionar la necessària estabilitat que un sistema de referència com cal exigeix. Mentre no arribi una solució tecnològica a la permanència de les dades, caldrà anar trobant maneres de compatibilitzar els dos mons; aquest apunt n’és un exemple més.
  • [2] Digue-li Murphy o segon principi de la termodinàmica si així es prefereix.
  • [3] Seguint el format de referències harvard.
Aquesta entrada s'ha publicat en antroponímia, Bibliografia, cathalaunia.org, Charlemagnes' Europe, factoid, Fons Cathalaunia, Jonathan Jarrett, King's College, Nomen et Gens, PASE, programació, prosopografia, Rachel Stone, RDBMS, toponímia, Universitat de Tubingen, wiki i etiquetada amb , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s