Dades.

El web cathalaunia.org nasqué a partir de la ideació del Fons Cathalaunia (inicialment, un dipòsit on recollir en quins documents apareixen cada un dels nostres personatges altmedievals). Unes primeres proves deixaren clar que el model que millor podia recollir la funcionalitat desitjada era el d’un wiki, o sigui, un web amb diferents menes de pàgines, totes elles lliurement editables. Estava tot per definir i només la pràctica podia dir quines serien les decisions correctes, calia doncs adoptar un model dinàmic.

I fou efectivament la pràctica d’anar incorporant documents i individualitzar-ne els esments a cada persona i cada lloc que dugué a una sèrie de reconsideracions. Si en principi la idea era recollir només els ‘personatges’, en copsar la idea de prosopografia i la seva ideació teòrica (com una aplicació entre un conjunt d’esments i un de persones) sumada al disseny d’un sistema per aprofitar una dada fins ara ignorada com eren les cohomonímies (impossibles de fer a mà, però factibles amb ordenadors[1]), l’objectiu s’hagué d’ampliar i passar a identificar a tots els figurants de tots els documents altmedievals coneguts. Una tasca mai intentada i per tant un objectiu indefugible[2].

Si en un primer moment tan sols es registraven en quins documents figuraven cada una de les persones o llocs esmentats, ben aviat es decidí que amb un xic més feina, es podia també registrar uns quants detalls bàsics més. Per exemple, separar les diferents tipologies geogràfiques (i tenir no sols tots els documents on s’esmenta, diguem, ‘Narbona’ en genèric, sinó també on consta com a comtat, bisbat, pagus, etc, etc). I per el que fa a les persones, també amb un xic més de feina, registrar les relacions interpersonals que els documents expliquen (coses com que Tal era fill de Qual i va vendre una terra a Talqual), i ja posats, amb quins llocs surten relacionats en cada un dels texts (coses com que si era bisbe d’Allà, o que la vinya que ven estava a Mesenllà).

I per si fos poc, al cap d’uns anys, aparegué la possibilitat d’incorporar un recull de dades inesperat: les epigrafies ibèriques (el que serà el Corpus Ibèrika). Un recull que inicialment era una versió web del corpus que na Carme J. Huertas i en David Folch havien publicat a ibers.cat, que amb el temps evolucionà la codificació i els continguts fins convertir-se amb l’únic recull d’epigrafia ibèrica que mostra quines variants es van fer servir per cada un dels signes de cada epigrafia coneguda, i a més, localitza geotemporalment tots els continguts, i per tant mostra i permet estudiar l’ús diacrònic de cada signe i cada variant.

Tots aquests canvis s’han anat incorporant en el programa que fa que el web existeixi, i seguint la definició de l’obra mestra d’en Donald Knuth (programes = algoritmes + estructures de dades), cada funcionalitat del web incorpora els dos aspectes: l’algorítmic i el de les dades sobre les que s’aplica, que és el que dóna lloc a aquest apunt.

Visibilitat i format de les dades

Les estructures de dades es poden implementar de moltes maneres, en aquest bloc hem parlat d’algunes de les propostes conegudes per el que fa a l’àmbit de la documentació altmedieval, però ja des de l’inici del web, l’experiència en el camp de la programació (massa llarga, tot sia dit) decantà l’exportació de les dades expressades en el web vers el format de hipertext, i entre les diferents variants de llenguatges de marcat, a fer servir el XML per ser el més emprat. O sigui, ja des de l’inici, cada mena de dada del web (sigui la que sigui) té programada la possibilitat de representar-la en XML.

La notícia d’aquest apunt és que es preveu que en poc temps totes les dades del web es podran descarregar en un únic fitxer (XML per descomptat).

El que segueix és un comentari sobre l’estructura de les dades, que atesa la seva pròpia natura poden ser d’aplicació a l’hora de pensar estàndards d’intercanvi de dades prosopogràfiques o de definició d’epigrafies antigues.

Certament XML és un format verbós, per cada dada hi afegeix (per defecte) dues marques que indiquen la mena de dada (tags en la terminologia usual), i per tant triplica conceptualment el nombre de dades exposades, però té de bo que és fàcilment comprimible, de forma que el fitxer de dades a més de ser .xml estarà comprimit en format .tar.gz. En principi hi hauran totes les ‘dades’ del web, el que no hi haurà és cap facilitat associada, cap imatge, cap article, cap pdf, cap observació, ni evidentment cap de les facilitats de cerca o càlcul del web. Es tracta de facilitar al públic les dades que fan possible el web, no el web en si. I la llicència associada, seguint el principi del propi web de només emprar enllaços a fonts externes de domini públic (accessibles sense cap mena de cost ni identificació) serà de Creative Commons, i d’entre elles, en principi, la més restrictiva: CC BY-NC-SA , que en termes simples, implica tres obligacions: pots emprar les dades sempre que facis esment del seu ús, no sigui per cap mena de propòsit comercial, i si en derives alguna cosa l’has de distribuir fent servir aquesta mateixa llicència. L’elecció d’aquesta variant restrictiva ve del caràcter privat de l’esforç de fer el web (si cal, sempre serà possible canviar-la per una de més oberta, aquesta és la prerrogativa de l’autor).

Entrem en matèria…

Estructura general.

Els conjunts de dades del web.

Com es pot veure en la imatge, després de l’autor i la llicència, que ja hem explicat, venen les dades en si (amb el moment de creació del fitxer). I com també es pot veure estan formades per tres conjunts: les del Fons Cathalaunia, les del Corpus Ibèrika i la Bibliografia. Anirem en sentit invers, que també va del més simple al més complex.

Bibliografia

Entrada bibliogràfica.

La Bibliografia del web, per natura és la part més fonamental del web. Per filosofia, les dades que es mostren en cap cas pretenen ni ser exhaustives ni ser font d’autoritat, però sí ser rigoroses, i per tant, cada dada presentada ha de tenir una o més referències externes que documentin la seva existència i que permetin a qui vulgui seguir el fil per anar més enllà. Aquest rol bàsic recau en la Bibliografia, però en segon terme, també es poden fer servir referències a recursos públicament accessibles des de Internet (corpus, enciclopèdies, etc), però sempre només com a segona opció (la informació impresa encara és menys volàtil que la digital).

Com es pot veure, seguint la filosofia general del web les dades de cada entrada són ben simples. Un identificatiu alfanumèric, un literal i un títol (usualment idèntics), un any de publicació, una llista d’autors, opcionalment si forma part d’una altra obra, la seva referència i definició (absent en l’exemple de la imatge), i el que ho fonamenta tot, una o més referències a fonts bibliogràfiques oficials. Opcionalment, si el llibre o article es pot trobar lliurement a Internet també es llisten els llocs on s’ha detectat (en l’exemple de la imatge, el volum del Catalunya Carolíngia no existeix (encara?[3])  i per això aquesta part no hi consta.

Corpus Ibèrika

Estructura de dades del Corpus Ibèrika.

Les dades del Corpus Ibèrika també tenen una disposició força simple. Tenim per una banda els glifs del signari ibèric, un conjunt de grups d’aquests mateixos glifs emprats en el web (per exemple, en el signari simplificat), les epigrafies conegudes fins a dia d’avui, els lèxics que s’hi han definit fins ara, i els jaciments on s’han trobat les epigrafies.

Jaciments

Dades de jaciments.

Un esquema ben simple. Un identificatiu, un nom, un municipi i una comarca (usualment cada un amb un enllaç a Wikipedia – que és un recurs que es fa servir en el web per els elements de caire general -, una llista dels identificadors de les  epigrafies trobades en el jaciment, i després, les referències externes. Una llista de Bibliografia (absent en l’exemple presentat), i si es coneix alguna referència web de domini públic sobre el jaciment.

Lèxics.

Actualment el web contempla dues menes de lèxics, el manual, amb els termes definits per els experts en la literatura, i l’automàtic, generat algorítmicament.

Entrada de lèxic manual.

El lèxic manual és una llista d’entrades lèxiques, cada una amb un nom (format per el codis dels glifs que formen la paraula), una llista dels codis dels glifs que formen el terme (segons el signari simplificat), opcionalment, un apartat de ‘subcodes’ per si es considera que la ‘paraula’ pot ser subdividida, la transcripció actualment suposada, la seva traducció – si es coneix -, i la inevitable secció de Bibliografia on llistar els identificatius de la Bibliografia general on el terme apareix descrit o comentat, seguida opcionalment de les referències web conegudes (absent en l’exemple).

Lèxic automàtic.

Per raó de la seva pròpia gènesi, el lèxic automàtic no és més que una llista de termes, cada un d’ells, al seu torn format per una llista dels codis dels glifs del terme (també en signari simplificat).

Epigrafies

Dades d’entrada epigràfica.

Cada una de les epigrafies del Corpus, està formada per un identificatiu, una descripció sumària del suport físic, la llista de codis de glifs que forma el text (amb codis reservats per espais – 32 – , canvis de línia – 10 i 13, i interrupció o signe il·legible – 512 -), l’identificador del jaciment on s’ha localitzat, la bibliografia que documenta la seva existència, i si es coneix, alguna referència web sobre ella (la majoria actualment fan referència al projecte Hesperia).

Grups de glifs.

Definició de grups de glifs.

Aquest és potser el conjunt de dades menys evident. Els diferents signes ibèrics coneguts (gaire bé 300), poden ser agrupats de diverses maneres segons el càlcul que es vulgui fer o l’abstracció que es vulgui aplicar. Pensem, per exemple si volem agrupar els glifs que suposem que eren ‘As’ o  les consonants, o…. Aquest apartat codifica els diferents grups emprats en el web, i com es pot veure, la seva definició és ben simple, cada grup només consta d’un nom (gnom) i una llista de codis de glifs (gval).

Glifs.

Dades per glif.

Per  cada glif del Signari del Corpus, tenim un identificatiu, un codi numèric únic, un valor – suposat -, una equivalència a les codificacions emprades en la literatura, i per l’aspecte tipogràfic, un coeficient d’amplada (entre 0 i 1), i un contorn o la forma del dibuix del glif expressat com un path de l’especificació SVG.

Fons Cathalaunia

Dades del Fons Cathalaunia.

El Fons Cathalaunia presenta quatre conjunts de dades, comparativament més complexes. El principal és el dels documents, del qual depenen els de persones i llocs (esmentats en els documents), i un d’accessori sobre antroponímia, per tractar la variabilitat formal de l’onomàstica altmedieval.

Antropónims

Dades antroponímiques.

El conjunt d’antropònims, no és més que una llista on cada entrada presenta un identificatiu, un nom, un conjunt de formes alternatives modernes – per poder accedir-hi directament des de la URL -, i un conjunt de grafies, cada una amb un literal – que figura tal qual en els documents – i un lemma computat.

Llocs

Dades de llocs.

L’estructura de les dades de cada lloc consta de un identificador alfanumèric, un nom per identificar-lo, una llista de noms alternatius per poder accedir-hi directament des de la URL, la llista de formes en les que apareix en els documents, cada una amb un lemma computat afegit i una llista de tipologies documentades. A  partir d’aquí, per cada tipologia es registra un tipus, una descripció – que pot contenir informació sobre en quin concepte geogràfic superior està documentada -, i una llista de identificatius dels documents on es troba – per ordre cronològic -, cada un amb el seu indicador de l’index de seqüència dins els esments toponímics del document. Completa la definició de la tipologia una llista de bibliografia similar a les ja comentades abans (absent en l’exemple) i una llista opcional de referències web sobre ella.

Persones

Dades de dossiers personals.

El registre de dades per cada identitat personal detectada en el Fons, consta de unes dades de caire general, dues llistes de documents, una per els esments en vida i una altra per els post-mortem, i dues llistes de relacions: una d’interpersonals i l’altra de geogràfiques.

Les dades de caire genèric són un identificatiu, un nom, opcionalment un àlies i un literal (per recollir les diverses menes de denominacions sota les que pot ser coneguda), una o més formes alternatives per poder accedir-hi des directament des de la URL, una llista de formes en les que consta en els texts, cada una amb el seu lemma computat, un gènere – usualment M o F però també M? o F? per els casos dubtosos, els diferents títols que li són coneguts – separats per comes -, una llista de localitzacions genèriques – derivades dels documents on consta -, i tres dates, la de la primera menció en vida coneguda , la de la darrera, i si té mencions post-mortem la de la més tardana

Segueixen la llista de documents on és esmentat en vida, on cada entrada consta de l’identificatiu del document, i el de l’esment corresponent dins del document, i després la llista dels esments després de mort, també amb el mateix format. Ambdues llistes amb els documents ordenats – manualment – per ordre cronològic.

Tenim després el registre de les seves relacions interpersonals que és una llista on cada relació es descriu per una descripció i una llista de documents on s’ha detectat. La descripció és un text lliure, que pot contenir identificadors de persona (gentid) o lloc (llocid). Per tal que un esquema així de simple pugui funcionar, cal entendre que hi ha inherent un protocol de descripció de relacions. Protocol no estricte (per poder-se adaptar a la infinita varietat textual), però sí coherent, Coses com que per indicar una relació paterno-filial, en el l’esment del pare la descripció cal que sigui, ‘pare de -X-‘, i en la del fill, ‘fill de -Y-‘.

El registre de les relacion geogràfiques té el mateix format que el de les relacions interpersonals. La única diferència és que la majoria de descripcions es limitem a un identificatiu de lloc (llocid). Però tot i així, també hi ha aplicat un protocol per els casos que sí indiquen una relació especial, pensem per exemple en la relació entre un bisbe i el seu bisbat, on s’aconsella especificar-ho com ‘bisbe de -Z-‘.

Documents

Dades de documents.

Els documents són l’origen i la clau de volta de tot els sistema prosopogràfic emprat en el Fons Cathalaunia. Les dades de persones i lloc, deriven directament d’ells (i del procés d’identificació aplicat a persones i llocs, però això és un aspecte algorítmic, de procediment, no de definició de dades).

A semblança de la resta de menes de dades, disposa d’un conjunt de dades globals, i d’una sèrie de llistes, per a referències documentals, bibliografia, esments personals, esments geogràfics, i datacions. Completa la definició el text del propi document.

Les dades globals, són de nou ben simples, un identificatiu alfanumèric del document, un titular i un resum, per indicar de què parla el document (el titular seria la forma més abreujada i el resum està pensat per ser-ne una forma un xic més prolixa), una data, un lloc (usualment genèric i que pot ser bipartit si es tracta de documents fets en un lloc, però relatius a un altre – com ho és el de l’exemple – ), un autor (usualment buit o desconegut), i si existeix en original o no.

Abans d’entrar a descriure les diferents llistes de dades que conformen la informació relativa a un document, potser sigui millor saltar al final i mostrar com es codifica el text en sí del propi document.

Codificació de text.

En un inici, la idea era poder registrar diverses versions del text, d’aquí que en l’exemple es mostri el text dins d’una agrupació ‘versió’. En realitat és una rèmora a eliminar. A partir del moment que es va poder copsar com hauria de ser un registre prosopogràfic, es va entendre que calia proporcionar per a cada dada, els fragments de text que la sustentaven. La complexitat que es derivava de voler treballar amb més d’una versió del text alhora era clarament excessiva (per exemple, una dada pot aparèixer en un versió, però no fer-ho o ser diferent en una altra) i es va preferir limitar el text a una única versió. En els casos que hi hagin versions significativament divergents es va preferir entrar-les per separat, cada una com un document diferent (tot i que en l’apartat de comentaris sí es pugui fer constar la seva relació amb altres documents).

Com es pot veure, el text del document (usualment en llatí), es codifica com una llista de segments (orig). Això reflecteix el fet que en el procès d’incorporació, el text es segmenta en parts – coincidents aproximadament amb frases -.

Les dues primeres llistes de dades del document són, una llista de fonts documentals on es pot trobar el text, i opcionalment una de bibliografia directament relacionada amb ell.

Capçalera de document.

La definició de cada font documental registrada, consta d’una descripció – usualment ‘Text a :’ o ‘Text crític a:’ per les edicions amb el registre de variants dels texts, seguida d’una referència a l’entrada bibliogràfica (llibreid) que identifica l’obra, o opcionalment l’enllaç a una font electrònica (a algun dels pocs corpus altmedievals europeus disponibles). Una definició simple (com vol la filosofia inherent al web), però alhora cabdal en la integritat de les dades del Fons. No pot existir un document sense aquesta informació.

La definició de la bibliografia, és també ben planera, una llista de referències bibliogràfiques, cada una seguida, opcionalment, d’un text que es suposa descriure una cita. Com es podrà entendre, a diferència de la llista de fons documentals, la de bibliografia associada és una llista opcional.

Segueix en les dades la llista d’esments personals detectats en el document.

Esments de persones en document.

Per cada esment a una identitat personal, es registra un identificatiu alfanumèric (gseq), un nom, els títols amb els que figura – separats per comes -, l’identificatiu de la identitat personal a què es refereix i dues llistes de relacions. La primera, per a les relacions interpersonals (grels), on cada relació ve definida per un literal que pot incloure identificatius d’altres esments del document – a persones (gseq), però també a llocs (lseq) -. I la segona, a relacions geogràfiques (lrels) amb el mateix format, però amb els identificatius usualment referits a llocs (lseq). Completa la descripció una llista de fragments del text que tenen a veure amb la persona o entitat esmentada (orig).

Esments a llocs en document.

La llista de mencions geogràfiques del document s’assembla força a la dels esments a persones. Per cada menció es disposa un identificatiu (lseq), un nom, una tipologia, un identificatiu del dossier de lloc (llocid), i una llista de fragments de text on consta. El que diferencia estructuralment els esments de llocs dels de persona és la dada codificada com ‘nivell’, un enter de 1 a N que indica el grau d’indentació dins la llista de llocs del document. La idea és que un nivell més alt indica ‘inclusió’ en el valor immediatament inferior anterior de la llista i serveix per registrar l’ordenament geogràfic que alguns texts descriuen.

Coda

I fins aquí aquesta descripció sumària de l’estructura de dades que fa possible el web cathalaunia.org. Tot el que es presenta en el web és el resultat d’aplicar algoritmes sobre aquesta estructura. A voltes pot ser un procediment trivial, com mostrar un nom, o un fragment de text, però en altres casos pot ser força més complicat, com el procediment per assignar un ‘nom’ altmedieval a una forma determinada d’un text concret. Per no parlar del procès d’identificació dels esments personals, on tot i que el criteri final és humà, les dades sobres les que es fa són calculades (només els ordenadors fan possible comparar cohomonímies de forma sistemàtica). O les propostes de segmentacions de texts ibèrics, fruit de la conjunció d’algorítmia i agrupacions de formes sígniques.

És una especificació encara no tancada, res impedeix que en un futur es pugui refinar en el sentit que calgui. Tampoc fa servir cap especificació de continguts de l’estàndard xml (schema). En part per no estar tancada i evitar-se així la feina extra d’haver d’ajustar les dades i l’especificació, però també en part per el fet que els esquemes xml estan pensats com un mecanisme opcional per poder verificar l’estructura de les dades (la sintaxi sí està assegurada per el propi estàndard), cosa que té tot el sentit quan els continguts estan editats manualment, però no tant si són generats programàticament, com és el cas del web cathalaunia.org.

Com es pot veure, la majoria d’estructures són força simples, el que no es percep en l’estructura, és l’efecte acumulatiu del seu ús sistemàtic. Per exemple, per el que fa al Fons Cathalaunia, la construcció de dossiers exhaustius de persones i llocs permet uns nivells de documentació i facilitat de verificació impensables abans dels ordenadors[4]. S’ha dit i repetit en aquest bloc: la Prosopografia – forçosament digital – és la propera fase en l’estudi històric medieval. O per el Corpus Ibèrika, que gràcies a la seva codificació i a haver localitzat geotemporalment totes les evidències, és l’únic existent actualment que presenta la informació diacrònica de l’ús de totes les variants conegudes dels signes ibèrics.

La majoria de les dades presentades, exceptuant les trivials, donaria per fer-ne una dissertació (recordem que les dades només són la meitat de l’equació d’en Knuth)[5]. De fet, bona part de les tecnologies aplicades en el web, es a dir, l’algorítmica dissenyada  i programada adhoc per implementar-les han estat comentades, ja sia a nivell formal en articles, o en comentaris en aquest bloc. Tot i així hi ha un bon grapat de temes que bé mereixen una descripció i un comentari més a fons.

Però aquest apunt era només per presentar les dades, i a més, ja és prou llarg.

 

Notes

    • [1] Metodologia ja explicada fa vuit anys en aquest bloc.
    • [2] Ja sabeu; ‘Ars longa, vita brevis‘. En tot cas, la pregunta potser és més aviat fins on arribaràs. I només hi ha una manera de saber-ho…
    • [3] Tant de bo que el projecte CatCar canvii la situació…
    • [4] Per mirar de copsar la quantitat d’informació acumulada sobre una identitat podem mirar quantes línies ocupa la seva descripció xml (és barroer, sí, però simple i comparativament efectiu). Quan el Fons conté 1.300 documents i ha processat l’interval 879-914, les del Pilós, per exemple,són més de 1.200,  o les dades sobre Girona, per posar un exemple toponímic, que n’ocupen quasi 300.
    • [5] Tot i que la estructura és força simple, només cal veure la llista dels 257 ‘tags‘ xml que es fan servir, que corresponen a grosso modo a les menes de dades utilitzades. Alfabèticament: alies , alternate , alternates , ample , antroponim , antroponims , any , author , autor , biblio , bibliografia , biblios , biblioteques , cita , clausula , codes , codi , comarca , comentaris , contorn , corpusiberika , darreramencioenvida , darreramenciopostmortem , data , datacions , datacionsenvida , datacionspostmortem , dates , descrip , descripciotipus , diaimes , docid , docstipus , document , documents , documentsenvida , documentspostmortem , entradabibliografica , entradadocumental , epacta , epigrafies , epiid , equiv , era , feria , fonscathalaunia , genere , gentid , glif , glifs , gnom , grafia , grafies , grel , grels , grup , grups , gseq , gval , hegira , hespid , iberika , id , idems , indiccio , jacid , jaciment , jaciments , label , lemma , lexauto , lexic , lexicautomatic , lexicmanual , lexics , license , literal , llibreid , lloc , llocid , llocs , localitzacio , localitzacions , lrel , lrels , lseq , mencio , menciogeografica , mencions , mencionsgeografiques , mon , municipi , name , nivell , nom , obra , orig , original , pagename , persona , persones , previ , primeramencioenvida , primeramenciopostmortem , regnat , relacio , relaciogeografica , relacions , relacionsgeografiques , resum , signari , subcodes , suport , text , textref , textrefs , tipologia , tipologies , tipologiesdocumentades , tipus , titol , titols , titular , traduccio , transcripcio , url , valor , versio , web.

 

Aquesta entrada s'ha publicat en agrupacions de glifs, algoritme, antroponímia, BDHesperia, Bibliografia, CATCAR, cathalaunia.org, CC BY-NC-SA, cohomònims, compressió, Corpus Ibèrika, Creative Commons, Donald Knuth, epigtafia ibèrica, esments, estructures de dades, Fons Cathalaunia, hipertext, ibers.cat, identitats personals, jaciments, programació, prosopografia, relacions geogràfiques, relacions interpersonals, schema, segmentació textual, Signari ibèric, signari simplificat, SVG, TAOCP, tar.gz, toponímia, Uncategorized, wiki, wikipedia.org, xml i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out /  Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out /  Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out /  Canvia )

S'està connectant a %s

Aquest lloc utilitza Akismet per reduir els comentaris brossa. Apreneu com es processen les dades dels comentaris.