Semblances documentals (5).

En el darrer apunt d’aquesta sèrie, havíem vist com el mètode de transformar les paraules dels documents altmedievals a una forma simplificada, per tot seguit esmicolar la versió dels texts resultant en grups d’entre 3 i 40 paraules consecutives, permetia la detecció de segments dels texts – usualment petits – dins dels quals pràcticament mai es donaven separacions o talls en una segmentació manual feta sobre els mateixos texts – segmentació aquesta, realitzada usualment seguint les frases del document -.  Ja llavors advertíem que aquests grups es podrien utilitzar per definir les parts comuns de les formulacions dels suposats formularis que molts dels texts en el corpus semblen seguir; i també fèiem esment que fins llavors, encara no s’havia tingut en compte el fet que les paraules poden ser més o menys usuals. Continuem a partir d’aquí.

Per a cada fragment de n paraules, tenim calculat un índex normalitzat a 1. de la seva presència en els documents del corpus estudiat – els primers 743 documents del Fons Cathalaunia -. Com que cada paraula del fragment, apareix en el global del corpus un nombre concret de vegades, una freqüència determinada, li podem associar una probabilitat a base de dividir aquest nombre per la mida total, que ens donarà un valor entre 0. i 1. i si convé, el podem invertir a base de sostreure’l d’1. Això és per paraula, però les mesures de semblances estan calculades sobre grups de paraules, ens cal doncs definir una manera d’aplicar aquests coeficients de paraula als grups on hi apareixen.  L’objectiu es tenir unes mesures de semblança entre fragments que hagin incorporat el fet que algunes paraules són més freqüents que altres.

Si diem que un grup determinat té n paraules, tenim un nombre indeterminat de maneres de combinar els seus factors; per exemple, si ho tractem com una probabilitat, podem calcular un coeficient de grup a base de multiplicar el seus n components. Aquest procediment, generarà coeficients més baixos quan més gran sigui el grup, és a dir, penalitzarà les agrupacions llargues. Per altra banda, podem cercar la mitjana, que ens pot donar valors similars entre grups de mides clarament diferents. Peró podem mirar d’anar una mica més enllà si pensem que, de fet, si bé les paraules que apareixen en un únic document – i per tant tenen el coeficient més baix – no ens són de cap servei tota vegada que estem cercant repeticions i que per tant podem simplificar i reduir els seus coeficients directament a 0, per la banda alta, també passa quelcom de semblant, tota vegada que un terme que aparegui en tots els documents, tampoc ens serà de cap servei si el que volem és detectar agrupacions. Podem per tant, definir un coeficient de grup com la mitjana dels valors de cada paraula del grup amb el benentès que aquest valor de paraula pot haver estat reduït a 0. si es inferior a un percentatge de documents mínim o superior a un percentatge de documents màxim. Les proves que segueixen,  estan fetes anul·lant les paraules que apareixen un únic document, i les que apareixen en més de la meitat dels documents (306 , tota vegada que del 743 documents originals n’hi han 41 sense text) i fent la mitjana del conjunt. Aquests percentatges de tall, i en especial per el que fa al màxim, depenen de la variabilitat existent en el corpus; en el cas estudiat aquí, és tan alta, que no es pensa que hi pugui haver-hi una meitat de documents d’una mateixa tipologia, d’aquí el fet d’adoptar aquest factor de tall, en altres corpus, caldrà adaptar-lo per tal que estigui per sobre del grup més nombrós. Un dels primers efectes que trobarem, comparant amb les gràfiques fetes en el darrer apunt, és que aquests coeficients ‘correctors’ no faran sinó deprimir els valors. Gràficament, sobre el mateix document que en l’apunt anterior – una venda en la Terrassa d’inicis del segle X[1] -:

dodi2-d00005-9Les corbes rosa corresponen als valor màxims de cada paraula, i les vermelles als factors de discontinuïtat. El valors alts corresponent als coeficients que havíem calculat en l’apunt anterior, i els baixos, als nous valors un cop incorporat el factor de la freqüència de les paraules. Per facilitar la lectura, ens oblidarem del valor previs i escalarem arbitràriament els nous valors; tindrem:

dodi2-d00005-10Que com es pot veure, si bé el gràfic té punts de contacte amb els valors previs, no són pas idèntiques; el més important, és que els talls manuals (els pics negres) no tallen gairebé cap de les petites terrasses que els valors màxims (la corba rosa) formen. Tenim doncs, que les parts planes de la corba rosa ens indiquen un conjunt de paraules consecutives diferents del còmput anterior sense incorporar les freqüències de cada paraula. Cada un dels mètodes de càlcul del factor corrector segons freqüència esmentats abans ens donarà una gràfica lleugerament diferent. Caldria fer proves exhaustives amb cada una d’elles, però de moment ens limitarem a la ja descrita de mitjana amb limitació per màxim i mínim.

La idea, ara, es doncs veure cada document com una rosari o una cadena d’aquests pics de valors màxims, per fer-ho, ens limitarem a seleccionar les paraules que en la corba de valor màxim, siguin estables entre més d’una paraula consecutiva. El mètode és molt simple, i probablement fora preferible utilitzar un que es fixés en la forma de corba, per detectar sols els pics, cosa que aquest procediment no fa, tota vegada que també incorporarà valls planes si hi són, però de moment, mirem a veure els resultats. Per fer-ho clar, ho mostrem sobre el text del document en colors alterns. Els grups de paraules seleccionades són:

In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus [...] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
Recosindus hanc carta vindicione scripsi sub die & anno quod supra.

Tenim doncs uns conjunts de paraules de més d’una paraula consecutiva que ens pot servir per esquematitzar encara més el texts. Processem tot el corpus aplicant aquest mètode i el resultat és per una banda un conjunt de fragments de mida variable (més gran d’1) que es van trobant en els texts, i per altra, tenim cada text expressat com una cadena d’aquests fragments. Com que el corpus és limitat, podem establir per a cada fragment, quins altres fragments apareixen just després d’ell, i construir unes cadenes de Màrkov que expressin la probabilitat que donat un fragment X, el següent serà un fragment Y.

La idea és que les fórmules d’un formulari, es podrien expressar en unes tals cadenes. Cal doncs, analitzar i cercar les agrupacions d’aquests nous fragments.

En classificació estadística, hi han dues menes de problemes, els que intenten classificar un nova dada segons la informació present en unes dades anteriors (usualment conegut com aprenentatge dirigit o supervisat) i els que donat un grapat de dades intenta extreure’n la seva estructura o ordenació subjacent (conegut com aprenentatge no dirigit). Si per exemple, en aquest corpus hi haguéssim afegit per a cada document un valor de ‘tipologia documental’, seria bastant fàcil determinar per a un document nou, desconegut, a qui tipus té més probabilitat de pertànyer. O per exemple, extreure quines són les formulacions textuals que diferencien les diferents tipologies. Aquest seria el cas fàcil – si més no per el que això escriu, que ha gastat alguna neurona dissenyant i programant classificadors d’aprenentatge dirigit -; aquí però,  ens trobem en un cas d’aprenentatge no dirigit. Tenim un grapat de dades i hem de destriar-ne la seva estructura. La majoria de classificadors d’aquesta mena, treballen a partir d’alguna assumpció inicial – per exemple un nombre màxim de classes o tipus – i usualment a partir d’uns valors inicials aleatoris, els van modificant per tal que una funció definida sobre ells, intenti distribuir els exemples del corpus a processar entre el nombre màxim de classes definides. Un altre manera de visualitzar aquesta mena de classificadors, és, projectant cada dada en un espai n-dimensional i visualitzar-ne les agrupacions, ja que en el fons, essencialment del que estem parlant és d’un problema de partició.  Una de les eines que hem emprat en aquest bloc per visualitzar dades sobre el cens de la Gòtia del segle X, és el càlcul de grafs, i associat a ell, el càlcul de Modularitat, que permet destriar les agrupacions topològiques existents dins d’un graf – bàsicament: grups de nodes amb més connexions entre ells que amb el seu entorn -. Les tècniques i el algoritmes possibles són infinits, però ens limitarem al que les eines que emprarem llavors  i que el programari Gephi ens facilita.

De manera que el que farem serà mirar d’expressar la informació dels fragments seleccionats de texts i la seva interconnexió en forma de graf per analitzar-els i poder-los visualitzar. Les convencions emprades per defecte en els grafs següents són: utilització de l’algoritme ForceAtlas2 per la disposició dels nodes, coloració a partir dels grups detectats en el càlcul de Modularitat i mida segons grau d’Intermediació. Recordem que l’algorisme de distribució de nodes, tendeix a allunyar els grups els uns dels altres, de manera que en la part central dels grafs, usualment, hi trobarem també la part comú o menys ben definida.

La primera cosa a provar és el ben senzilla. Què passa si convertim cada fragment de text diferent en un node i els connectem seguint les cadenes de Màrkov de cada un d’ells? El resultat, és:

parts-22789-32554-th

22.789 fragments i 32.554 connexions.
Versió SVG.

Com es pot veure, un bon garbuix, que serà però molt alliçonador d’analitzar.

En primer lloc, veiem que el nombre de fragments diferents es altíssim, més de 20.000, efecte degut a què el mètode emprat, de seleccionar les parts planes de la corba de màxims, ha generat molts grups de dues paraules i que sols existeixen en un únic document. En el graf es pot apreciar com un gran amàs central es veu rodejat de moltes cadenes de nodes amb un únic enllaç entre ells. És evident que donat que estem cercant repeticions, tota aquesta informació no ens aporta res.

Un segon aspecte a fer notar, és que en el graf, els colors indiquen els grups que el càlcul de Modularitat ha trobat – en aquest cas hem emprat un factor de modularitat alt (10) per tal de mirar de reduir el nombre de grups detectats (34) -; els nodes grocs formen un 30% del total, els blaus un 20%, els verds i vermells al voltant d’un 7% cada un, i la resta, són lògicament agrupacions molt petites. Ara bé, resulta difícil dir a que responen aquests grups, més que res perquè són tan grans que resulta difícil captar quin patró comparteixen. Això passa amb tots els grups grans, tret d’un, el verd, en el quadrant sud-oest, tota vegada que aquest sí és fàcil d’identificar ja que es tracta d’una errada en el procés de codificació dels texts! Si bé la majoria de documents analitzats no arriben – sovint ni de bon tros – al miler de paraules, n’hi ha un, el D00007, la narració del monjo Aymo de Saint Germain-des-Prés sobre la translació l’any 858 de les restes dels màrtirs de Còrdova, Jordi, Aureli i Natalia, que passa dels 16.000 mots, i en el qual, resulta que es barrejà el format amb el text – encara ara està pendent de renormalització -. De manera que coses com ‘Font Family Times New Roman‘ s’inseriren en el text ‘liofilitzat’[2]. Els amàs verds, en són la seva expressió gràfica. Però més enllà d’aquesta particularitat, el graf resulta de molt poca utilitat per la tasca que ens ocupa per la dificultat que dèiem d’identificar les agrupacions.

El següent pas, serà doncs, eliminar tots els fragments que sols existeixin en un únic document, i tornar a generar el graf markovià dels fragments repetits. El resultat és:

rparts-1750-9144-md2-th

1.750 fragments repetits amb 9.144 connexions i 6 classes.
Versió SVG.

Aquí ja tenim una estructuració més clara. El càlcul de Modularitat (amb una constant de 2.) ha detectat 6 agrupacions – la sisena sols ocupa un 1% del fragments – . Si fem un cop d’ull a la versió SVG, que permet fer un zoom gairebé infinit[3], es poden llegir les literalitats de cada un dels fragments. En descrivim breument els grups majors.

La més nombrosa, en groc, amb un 33% de nodes i  a la dreta del graf, agrupa expressions que potser la millor forma de definir-la seria dir que estan relacionades amb afrontacions. En la part extrema dreta tenim la modalitat d’enumeració per ‘costats’ o ‘lateralitats’ , latus : de alio latus, latus terra ANTROP, latus fines de, etc. En la part inferior a aquesta, tenim la modalitat per fronts,  fronte: alio fronte, fronte terra ANTROP, alio fronte via, etc. I en la part encara més inferior, a tocar amb la zona del nodes blau clars, la modalitat per punts cardinals: meridie in vinea, afrontat de oriente, occidente in, circi in vinea, etc. Ara bé el grup és força més complex que un recull de modalitats d’afrontacions, en la part superior, per exemple, tenim un bon grapat d’expressions relacionades amb la descripció de les parts en contractes de compravenda: ANTROP ANTROP venditores, fratribus ANTROP hemtore, Christi nomine ANTROP uxor, venerabilis abbas ANTROP praeesse, etc; o de descripció dels bens transmesos en la part més central: res in pago, pratis sylvis exiis, in comitatum TOPON, ad ipsos manso, etc. Un grup doncs, molt nombrós i lògicament d’ampli espectre temàtic.

El següent en quantitat de nodes (30%) és el grup blau fosc a la banda esquerra del graf i està clarament relacionat amb els escatocols. En l’extrem esquerra, hi trobem signatures: ANTROP SSS, roborandum signum ANTROP, firmare rogavimus, SSS ANTROP SSS, Chrismo ANTROP presbiter, etc. Just a sobre, fragments relacionats amb la signatura de l’escrivà, coses com: ANTROP archipresbiter, scripsit datavit, donation ista escribere, ANTROP rogatus subscripsit, etc. En la part més inferior, fragments de clàusules de salvaguarda: inferam vobis, fuerit dupla vobis, firmis estabilis permaneat, perpetim abitura in, venerit ad inrumpendum, etc. Ara bé, a semblança del grup anterior, el grup és més nombrós que aquestes seccions aquí comentades, i d’acord amb la mecànica de la disposició de nodes per correlació de forces, quant més al centre, més interrelacionat amb la resta de grups i per tant, menys ben definit.

El tercer grup, el verd, amb un 13% de nodes està en la part superior, i clarament interrelacionat amb els grups blau, comentat abans, i amb el grup vermell, que amb una forta dispersió és el quart amb un 12% de fragments. Sols els conjunts més externs permeten una lectura clara. En la part baixa i externa del grup verd tenim fragments de datacions per rei franc: domino ANTROP regem, domino nostro ANTROP, ANTROP gloriossisimo rege, etc. Pujant per el grup, hi trobem els quantions : indictione NUMB, NUMB cal, etc. I encara més amunt, fragments de signatures reials: firmitatem manu propria, anuli nostri, eam firmavimus anulo, etc. Finalment, en la part més alta, fragments de proemis de diplomes reials: Si necesitatibus atque, fidelium nostrorum praesentium, loca divinis cultibus, etc. En la par superior, el grup verd es barreja amb el vermell que en aquesta part nostra fragments relacionats amb institucions religioses, en especial, Sant Julià de Brioude, que utilitza en aquest període unes formulacions molt característiques: ANTROP inclytus martir, ANTROP recto praeesse, praepositus ANTROP decanus, etc; però de nou, quan més ens movem al centre més augmenta la dispersió temàtica.

Queda per remarcar el grup blau clar situat al fons, que a diferència dels altres grups, sí presenta una millor definició temàtica; es tracta de les clàusules de preu i transmissió de bens i drets: precium aput vos, ipso precio apud, remansit est manifestum, omni integritate, tu entor nobis, quod vos emtores, vinditio de presente, in res valentem, in vestro trado dominio, tuoque tradimus dominio, dominio et potestate, ab odierno, etc.

En conjunt, sembla evident que tenim un conjunt de dades fortament interconnectat i que si bé se li poden detectar àrees temàtiques, el seu nivell global d’estructuració no és massa elevat. Fet també lògic si pensem en la dispersió tipològica del corpus analitzat. Fem un pas més enllà i ajuntem a aquest graf, els documents on existeixen cada un d’aquests fragments. És a dir, creem un tipus nou de node, que representant cada un dels documents del corpus, el connecti amb els seus fragments. La idea és combinar l’atracció entre el nodes segons les seves cadenes de Màrkov, que és el que hem fet abans, amb la dels fragments versus els seus documents, a veure quines agrupacions ens detecta. A diferència dels grafs anteriors, la mida dels nodes reflectirà – més enllà de l’etiqueta – el tipus: els grans són els Documents, i en la versió SVG del graf permeten accedir als propis documents fent-hi un clic. El graf resultant, extremadament interessant,  és:

rpartsd-2419-21184-th

Fragments repetits i Documents, 2419 nodes i 21.184 connexions.
Versió SVG.

Els grups detectats en el càlcul de Modularitat (factor=1.) són 10, però sols els cinc primers superen el 10% de nodes i el més nombrós, en conté un 22%. L’estructuració dels grups (la separació per colors) és força més clara que en graf anterior format sols per les connexions de contigüitat entre els fragments, i mereix un comentari en detall.

Començarem per un aspecte poc rellevant. Hi ha un nucli verd fosc a la dreta de la part superior del grup verd, que presenta unes fletxes de mida desproporcionades: correspon al error de codificació del Font Family Times New Roman comentat abans; al damunt de l’error humà de la codificació, s’hi ha sumat el fet que l’exportació en format SVG del Gephi té problemes en dibuixar les fletxes als extrems de les connexions (segons com o no les dibuixa, o les fa de mides errònies) .

Passant ja als grups majors, el groc, a la dreta, acumula documents amb transmissions de bens immobles en la Gòtia; la majoria, compravendes a Osona. El petit grup taronja, situat en la part superior del groc, són també de tema immobiliari però centrats en Pallars i Ribagorça, fent palesa la seva diferenciació i a l’hora proximitat estilística amb la resta de la Gòtia. El grup verd, a l’extrem esquerra del graf correspon majoritàriament a diplomes reials, tant de reis dinàstics, com d’Odó o de l’emperador Lluís el Cec. Els dos grups blaus dels fons del graf, corresponen respectivament a documents aquitans i borgonyons. En blau fosc els primers, amb referències d’Alvèrnia, Roergue o Llemosí, i en blau clar els de Borgonya. Per la part superior, els dos grups es barregen i hi trobem documents localitzats a Lió dins el grups borgonyó o de Nimes en el grup aquità; en conjunt, la barreja es centra en la zona del Roina. El grup aquità, és més dispers que el borgonyó i arriba a sobreposar-se al grup verd de diplomes reials; en aquest dispersió vers el centre del graf, el grup perd coherència tipològica, com era d’esperar.

Queden per comentar els grups menors o menys ben definits. En la part superior, una amàs força ben localitat de nodes en blau molt fosc, corresponen a regests, la majoria osonencs. El grup vermell, que quantitativament és força nombrós, presenta però una gran dispersió; la majoria de documents són de la Gòtia, i en ell hi trobem consagracions d’esglésies, donacions, i alguns documents de caire jurídic. El grup es dispersa vers l’àrea dels preceptes reials, on forma un petit amàs amb entrades procedents dels Annals de Ripoll. Falta comentar el grup verd clar, que no sent gaire gran, situa la seva major concentració entre els documents de les consagracions gòtiques, en vermell, i les compravendes de la Gòtia, en groc si bé amb ramificacions vers la part central, fent de frontera amb la resta de grans grups. El seu perfil tipològic en canvi és força clar; es tracta ni més ni menys que de documents relacionats amb contexts judicials i hi trobem tots els episodis famosos: Vallfogona, Revellus, Mocorono, etc. Encara que també es cert que en la seva dispersió, perd, com la resta de grups, coherència tipològica.

En conjunt, tenim un graf que ens mostra com és possible diferenciar tipològicament una majoria de documents en funció sols dels termes emprats. I recordem en aquest sentit, que l’aproximació emprada a penes ha utilitzat criteris lingüístics, i que per tant, la seva capacitat de comparació textual és molt i molt limitada; sembla evident que un major ús dels coneixements de la llengua llatina no pot sinó augmentar la fiabilitat i claredat dels resultats. Però també serveix per mostrar les seves parts comuns o interrelacions (per exemple, les connexions entre el grup borgonyó i el gòtic – les línies blau clares – són ben evidents, i mostren un grau de proximitat textual superior a la geogràfica. Consideració que en el procés d’entrada i incorporació de texts en el Fons, ha anat apareixent recurrentment i per motius diversos, des de per exemple, constatar que en la Borgonya del segle X, al frater llatí ja li dèiem germà, a coses com proximitats formals en compravendes de terres.

Tenim doncs, com dèiem, que el graf ens és extremadament útil, ja que és una prova de com es pot generar una classificació tipològica dels documents atenent a criteris completament quantificats, sense haver de recórrer a altres àmbits del coneixement. Si mirem el graf, veurem com en cada grup, a més dels documents, també hi tenim els fragments de texts més propis, i que per tant, millor definirien la pertinença al grup; cert és que no sols hi han fragments compartits entre els diferents grups, sinó que fins i tot,  en la part central, tenim una zona comú. És a dir, el graf no sols ens proporciona una tipologia documental quantificada, sinó una primera separació tipològica dels fragments; quins fragments són indicadors de quina tipologia. Però en aquest graf, recordem que els fragments anaven lligats entre ells per vincles de continuïtat, fet que potser distorsioni aquesta separació, podem mirar d’anar encara més enllà, i eliminar els lligams entre fragments – les cadenes de Màrkov – per deixar sols els lligams entre documents i fragments, per veure si tenim una classificació encara més clara. El resultat, es:

rpartsd-2419-12040-th

Documents i Fragments repetits, 2.194 nodes i 12.040 connexions.
Versió SVG.

Un graf força similar, amb 11 grups, dels quals sols els primers cinc superen el 10% de nodes i amb el més nombrós, amb un 19%, però amb diferències en la mida dels grups i per tant en la seva coloració. El mes gran, en groc, és el dels documents aquitans, en la part superior, mentre que el nucli vermell que es situa al seu costat correspon als documents de Borgonya. El grup gòtic, aquí és en blau fosc, i els únics grups que mantenen els colors són els verds, el dels diplomes reials i el més fosc de l’error de codificació i el blau fosc del dels regests. El grup de Pallars el trobem en blau clar, el dels documents judicials en verd clar i en rosa el de les consagracions. Tenim doncs la mateixa disposició general que abans, potser una mica més clara, en el sentit que la part central és més petita i que s’aprecien millor els subgrups existents dins els diferents conjunts calculats – per exemple, l’excrescència més a la dreta dels diplomes reials, en verd, correspon a diplomes de la Grassa -. I que la relació entre el grup gòtic i el borgonyó és més ben definida que amb el grup aquità, és veu més clarament, tota vegada que les línies entre el grup aquità i el gòtic passen per el centre del graf, és a dir, per la part més compartida, mentre que les connexions entre literalitats en documents gòtics i borgonyons (les línies liles i vermelles) van per l’exterior del graf i no són compartides amb la resta de grups (tret del de Pallars).

La darrera aportació d’aquest graf, és mostrar clarament que si bé es poden definir quantitativament grups tipològics, també existeix una zona central on també hi han un nombre no pas petit de documents que fan de mal classificar i que ve a evidenciar la varietat tipològica del corpus del Fons Cathalaunia analitzat.

Recapitulem.

Hem vist com a partir d’haver incorporat el factor de la freqüència dels mots en el càlcul de semblances realitzat prèviament, podíem seleccionar en base als valors màxims relacionats amb cada una de les paraules d’un document, un conjunt de fragments representatius, que habiliten la descripció simplificada d’un document com una concatenació de fragments. L’estructuració subjacent del graf format per les cadenes de Màrkov d’aquests fragments i dels propis documents, permet detectar quantitativament un conjunt de tipologies documentals majors clarament definides; en el cas concret estudiat aquí: transmissions immobiliàries en la Gòtia,  Borgonya i Alvèrnia, documents judicials gòtics i preceptes reials. Així com l’existència d’altres agrupacions menys clarament delimitades. És dir, podem avaluar quantitativament el grau de coherència tipològica del corpus estudiat.

Tornant al nostre objecte d’estudi, podem doncs mirar quins fragments es connecten sols a documents d’un cert tipus, i per tant, definir per dir-ho així, els maons, els components,  de la seva identificació formulària. I viceversa, cercar també quins fragments són compartits entre aquest grups majors per mirar d’aïllar les formulacions comunes o d’ús generalitzat.

Abans dèiem que una separació dels documents per tipologies permetria identificar més fàcilment les seqüències repetides derivades de la utilització de formularis propis de la tipologia. Doncs d’aquesta excursió al món dels grafs, n’hem retornat precisament amb això, una tipologia calculada per a cada document. Cert és que el conjunt és força sorollós, i ple d’ambigüitats, però la ruta es clara. Identificar per una banda els fragments que indiquen inequívocament cada una de les tipologies, i per l’altra, detectar els fragments compartits entre vàries tipologies, ja que és de preveure que les diferents tipologies compartiran alguns trets. A partir d’aquí, mirar de definir les formulacions comuns, i amb una mica de sort, mirar d’assolir l’objectiu de segmentar els texts de maneres semblants a les manuals.

Però això, encara s’ha de fer, i ja mirarem de comentar-ho en el seu moment, que per ara, aquest apunt ja és prou llarg.

 

Notes

  • [1]  Diplomatari de la cartoixa de Montalegre (segles X-XII)  D. 1
  • [2] Per si això fos poc, el mateix error es repetí – puntualment – en dos documents més… – porca miseria! -
  • [3] Si més no, en navegadors que així ho permetin, per exemple, en el Firefox, cal ajustar uns quants paràmetres en la pàgina about:config: browser.zoom.siteSpecific a false per tenir zoom individualitzat per pestanya que és més convenient; i per incrementar el zoom efectiu, per exemple: posar zoom.minPercent a 10 i zoom.maxPercent, per exemple a 3000. i toolkit.zoomManager.zoomValues a .1,.2,.3,.5,.6,.7,.8,.9,1,1.1,1.2,1.33,1.5,1.7,2,2.4,3,4,6,8,10,12,14,16,18,20,22,24,26,28,30. La primera indica fins un mínim d’un 10% d’allunyament, la segona un augment màxim de 30 cops (3000%), i la tercera – i també imprescindible – indica els factors a aplicar cada cop que es puja o baixa el nivell de zoom (amb les tecles CTRL  i +/-), en aquest cas, entre .1 i 30.
Publicat dins de Alvèrnia, aprenentage no supervisat, aprenentage supervisat, Aquitània, Borgonya, cadenes de Màrkov, cathalaunia.org, classificadors estadístics, detecció de formularis, estadística, Fons Cathalaunia, formularis, Gòtia, Gephi, Llemosí, Lluís el Cec, Mocorono, Odó I, Revellus, Roergue, segmentació textual, semblança documental, Semblances interdocumentals, SVG, Terrassa, Vallfogona | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

Semblances documentals (4).

En el tercer apunt d’aquesta sèrie, s’havia comentat el darrer càlcul realitzat per mirar de trobar un procediment de segmentació de documents altmedievals que basat exclusivament en criteris quantitatius, produís idealment uns resultats similars als de la segmentació manual, basada en criteris semàntics, de contingut. Una tal aproximació es considera amb possibilitats de tenir èxit, atesa la natura molt formal i repetitiva d’una bona part dels texts processats. Un altra forma de plantejar-ho, seria dir que estem cercant un procediment per detectar les fórmules subjacents en els documents.

Repassem el què s’havia fet. Els texts del corpus havien estat preprocessats convertint les paraules en uns lemes llatins simplificats, les puntuacions van ser eliminades i els noms de persona, lloc i numeracions romanes reduïdes a una única forma: ANTROP, o TOPON o NUMB. Un cop així ‘liofilitzats’ – permeteu-me la conya – els texts havien estat passats per la picadora reduint-los en tots els fragments possibles d’entre 3 i 40 paraules consecutives. Un cop fet això, es va calcular la semblança entre els fragments d’una mateixa longitud amb una funció que donat un fragment i un document, retorna un valor entre 0 i 1: 1 si el fragment es troba tal qual en el text, 0 si cap part del fragment hi és, i entre 0 i 1 amb el coeficient o percentatge de semblança del fragment més semblant que hi hagi. El resultat, és que tenim no sols en quins documents hi han quins fragments, sinó a més, un coeficient de representativitat en els documents de cada fragment possible.

En una primera aproximació, s’havia pensat que tal vegada, donat un text qualsevol, podríem segmentar-el a partir de les parts o segments que tinguessin el coeficient més elevat. Idea naïf, tota vegada que els fragments més curts, a priori sempre tendiran a tenir coeficients més elevats al ser més fàcil trobar-ne de semblants que no pas els llargs. Aquí ens havíem quedat en el darrer apunt.

La propera idea fou imaginar el text com una gràfica. Posem les paraules/lemes del document en el seu ordre d’aparició, en el eix de les X (la primera=1, la segona=2, etc) i en l’eix de les Y, hi dibuixem els valors que calculem per a cada una de les paraules – per facilitat de lectura del gràfic, tots els càlculs es normalitzaran entre 0. i 1. -.

Ara bé, els mesuraments calculats, ho eren a partir de grups de paraules consecutives, mentre que la gràfica reclama valors per a cada paraula; així doncs, una primera consideració a fer, és: en quants fragments participa cada una de les paraules? El normal, és que una determinada paraula, aparegui en totes les posicions de tots els segments que l’inclouen (primera d’un de tres, segona d’un altre de tres, tercera d’un altre de tres, primera d’un de quatre, segona d’un de quatre…. etc), és a dir, si tenim segments d’entre 3 i 40 paraules, tindrem que una paraula participa en un màxim de 817 fragments ((40*(40+1))/2)-3 – aquest -3, darrer degut als fragments descartats de mida 1 i 2 -, però menys en els extrems, ja que els fragments en cap cas poden superar ni per davant ni per darrera el text. O sigui que en les primeres – i darreres – 40 paraules del document, les quantitats de mesures/fragments van augmentant des de les 38 inicials (mides entre 3 i 40) fins el màxim de 817. A l’hora de presentar un valor normalitzat per a cada paraula cal doncs tenir en compte el diferent nombre de mesures presses per a cada una d’elles.

Una primera idea, nascuda precisament del fet que cada paraula té un nombre de segments/mesures propi, va ser imaginar la gràfica – amb les paraules al fons, en les X, – com si fos un joc d’aquells en que es van deixant caure discs de colors per unes columnes, o potser millor, sabeu aquells dibuixos fets per deposició amb sorra de colors entre dos vidres? Tenim doncs, una gràfica i milers de fragments, cada un d’ells amb una x d’inici, i una mida. Imaginem doncs que anem deixant caure cada una dels fragments en la gràfica – inicialment, cada paraula del fragment amb un mateix valor, diguem 1. – i que els deixem anar acumulant-se en el fons. Si féssim això, començaríem amb una gràfica buida, amb una línia plana al 0, i un cop aportats tot els valors, tindríem una corba creixent a l’inici, des dels 38 fragments possibles de la primera paraula, fins els 817 màxim de la part central, i una corba decreixent fins els 38 fragments de la paraula final. Per tal de neutralitzar l’efecte d’aquesta corba, hem dit que normalitzarem el valor de cada paraula per el nombre de mesures màximes, de manera, que un cop avocats tots els fragments no resulti una corba entre 38 i 817 sinó, com dèiem, una gràfica tota a 1. una línia plana en el màxim.

L’interessant, evidentment, està al mig, entre la línia inicial al 0. i la final al 1., en com es va omplint, i per això, també sembla evident que l’ordre en que es vagin deixant caure – acumulant – les mesures dels fragments és crític. Una forma de mirar de compensar la propensió del fragments petits a aparèixer més freqüentment és multiplicar el seu coeficient per la mida del propi segment, és a dir, expressar el coeficient de semblança no com a percentatge de documents sinó en quantitat de paraules del fragment compartides entre tots els documents. Això afavoreix els fragments més llargs, és cert, però ho fa de manera més matisada. Així doncs, ordenarem els fragments d’un determinat document per aquest valor i els anirem deixant caure i acumulant-se en el fons. Si prenem el text que varem utilitzar d’exemple en l’apunt anterior[1] – una transmissió de terres, més o menys habitual – i deixem caure les primeres 1.000 mesures seguint aquest criteri, tindrem:

dodi2-d00005-1Com era d’esperar, una gràfica a mig omplir (el document conté 206 paraules, ergo 9.101 fragments, de manera que a penes hem ‘avocat’ una novena part del total).

La següent pregunta és, fins quan tenim que anar acumulant mesures? Fins la meitat, un terç? Aquí, mirant a la gràfica, veiem que hi han paraules sense cap mesura, a 0.. de manera que s’establí un primer eurisme: s’aniran deixant caure mesures, ordenades per nombre de paraules compartides entre tots els documents del corpus mentre hi ha hagi alguna paraula del document sense cap mesura, o viceversa:  la caiguda de mesures s’aturarà en el moment que totes les paraules tinguin 1 o més mesures acumulades. El resultat per el mateix document és:dodi2-d00005-2El que la gràfica ens mostra, és quines parts del document estan formades per paraules i grups de paraules més habituals entre els documents del corpus – en aquest cas, recordem, els primers 743 documents del Fons Cathalaunia -.  Si recuperem el text i mostrem en vermell les paraules per sobre d’un valor arbitrari, diguem, 0.5, tindrem:

In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus [...] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
Recosindus hanc carta vindicione scripsi sub die & anno quod supra.

Cal remarcar que el fet d’haver reduït tots els antropònims, topònims i nombres a una única formulació, evidentment, fa que les parts on aquests s’acumulin tinguin més probabilitats de tenir puntuacions altes. Passem a un text diferent, el fals de la consagració de la seu d’Urgell[2], notable per presentar una acumulació de més de dues-centes parròquies. Un text de gaire bé 2.000 paraules i més de 72.000 fragments, la seva gràfica, és:

dodi2-d00004-1Mostrem només una part del text – entre la paraula 270 i la 516 -, ja que seria massa llarg posar-lo tot sencer, però si més no, per visualitzar la part corresponent a les dues primeres ‘punxes’ grans.  De nou, amb vermell per sobre 0.5.

Tradimus atque condotamus parrochias Vrgellensem pagus eidem pertinentes , id est , ipsa parrochia primae sedis Vico , sive sancti Stephani , vel Calpitiano , Linzirt , atque Sardina , seu Sancta Columba.
Deinde ipsam parrochiam de Archavel , sive ipsam de Ferrera , sive ipsam parrochiam de Ares , vel Civiz , atque Asnur , vel Sancti Iohannis , sive Orgollel , atque Ovoss , cum villulis vel villarunculis earum. Tradimus namque ipsas parrochias de Valle Andorrensi , id est , ipsa parrochia de Lauredia atque Andorra , cum Sancta Columba , sive illa Matrana , atque Ordinavi , vel Encap , sive Canillaus , cum omnibus Ecclesiis atque villulis vel villarunculis earum.
Deinde ipsam parrochiam de Stamarit , sive Bescharan , atque Corcobite , cum ipsos torrentes. Similiter ipsam parrochiam de Villanova , vel Banathi , atque Lorone , cum Ecclesia Sancti Iacobi , sive illa parrochia de Alafs , vel ipsa parrochia de Valle Vrsian , cum Aragen.
Deinde Nabiners , sive Ollafracta , atque ipsa parrochia de Tost , vel Montedamno , sive ipso Plano Sancti Thirici , cum Villanova , atque Assoa , vel Adrall , sive Castellione , vel Villa Mediana , sive Casamuniz , & Sancta Cruce , cum Stacione , vel Palerols , sive etiam Cutenavarchii , atque Aniano , Ortone , cum Solanello , vel Cercheda , atque Capellas. Harum parrochiarum , cum omnibus Ecclesiis vel villulis atque villarunculis earum.
Similiter ipsam parrochiam de Noves , atque Garamonse , vel Helinse , atque Beren , sive Eguils , seu etiam Lavarzda , cum Confluent , vel Sancta Eulalia , cum Conjuncta , atque Villa Rubea , cum Bocona , vel Tyrone , cum omnibus Ecclesiis vel villulis atque villarunculis earum.

El text, va repetint clàusules especificant possessions, que a grosso modo es corresponen amb les oscil·lacions del gràfic. Podem encara cercar un tercer tipus de text, un diploma carolingi, per veure la seva estructura. Visualitzarem el precepte que Carles el Simple emeté per l’església de Narbona d’1 de novembre de l’any 898[3]:dodi2-d00031-1I el text per damunt d’un coeficient 0.5:

In nomine sancte & individue Trinitatis. Karolus divina propiciante clementia rex. Si erga loca sanctorum divino cultui mancipatorum aliquid de rebus juris nostri conferre studemus , non solum in hoc regiam exercemus consuetudinen , sed maxime , divina auxiliante gratia , profuturum nobis nullatenus dubitamus. Idcirco omnium sancte Dei ecclesie fidelium nostrorumque , tam presentium quam & futurorum , solers industria noverit quod dirigens presentie serenitatis nostre Arnustus , sancte Narbonensis ac Redensis ecclesie venerabilis archiepiscopus , innotuit nobis per quosdam sui fideles quemadmodum sua sedes & pene omnes ecclesie ejusdem civitatis ruine jam proxime existebant , ita ut per ipsum nullatenus possent restaurari , intimans etiam qualiter jamdudum piissimus genitor noster Ludovicus quedam beneficiola ad augmentum sue ecclesie perpetualiter possidenda contulerat. Cujus petitionem ac intinacionem necessariam esse cognoscentes , placuit celsitudini nostre , pro remedio anime nostre nostrique genitoris atque predulcissime genitricis nostre Adeleidis deprecatione , quatenus ad eandem ecclesiam , scilicet sancti Justi & sancti Pastori necnon & sancti Pauli confessoris , qui ibi corpore requiescit , abbatiam Sancti Laurentii cum omnibus suis villulis & cellis atque terminis cum omnia integritate locorum , veluti in preceptis monachorum ab antecessoris nostris piissimis regibus factis , perpetualiter concederemus , ei videlicet tenore ut stipendia monachorum ibidem degentium juxta vires presulis non deficiant ; & in ipso comitatu Narbonensi Colonicas fiscum cum omni integritate. Addimus quoque prefatae ecclesie sanctorum Justi & Pastoris , ex nostra regali liberalitate , in comitatu Redensi abbatiam Cubarias cum ecclesiis , cellulis , villis , villaribus & omnibus adjacentis suis ac mancipiis utriusque sexus ad eundem locum pertinentibus ; & in comitatu Substantionense fiscum Juviniacum cum ecclesia ; in comitatu Nemausense , suburbio castro Salavense , in valle Ocilianense , ecclesiam Sancti Saturnini cum villa Torta & omnibus appendiciis duis. Si vero infra istas vel alias villas ejusdem ecclesie homines hostolenses vel Hispani furint , quicquid jus fisci inde exigere debet , totum ad opus sancte matris ecclesie Narbonensis jure perpetuo concedimus optinendum , atque per hoc nostre auctoritatis prfeceptum confirmamus , per quod decernimus ayque jubemus ut nullus judiciare potestatis , nec ullus ex fidelibus nostris , in ecclesias aut loca , que moderno tempore possidet , vel que deinceps in jure & potestate ecclesie ipsius divina pietas voluerit augere , ad causas audiendas , vel freda aut tributa exigenda , aut mansiones vel paratas faciendas , aut fidejussores tollendos , aut homines ipsius ecclesie , tam ingenuos quam servos distringendos , aut ullas redibitiones vel inlicitas occasiones requirendas , nostris futurisque temporibus ingredi audeat , vel ea que supra memorata sunt penitus exigere presumat ; sec liceat memorato presuli suisque succesoribus sub nostra defensione quiete residere & nostre parere jussioni. Et quicquid jus fisci exinde exigere poterat , totum nos pro eterna remuneratione eidem concedimus ecclesie , ut perpetuis temporibus clericis ibidem Deo famulantibus proficiat in augmentum , quatenus rectores ipsius ecclesie cum omnibus ad se pertinentibus , cum clero & populo sibi subjecto , pro nobis & locius regni nostri stabilimento Domini misericordiam alacriter exorare delectet. Et ut hoc preceptum nostre auctoritatis inviolabilem ac eternum obtineat vigorem , manu propria subter firmavimus & anulo nostro insigniri jussimus.
Signum Karoli (Monogramma) gloriosissimi regis.
Heriveus notarius ad vicem Folchonis archiepiscopi recognovit.
Data kal. novembris , indictione I. , anno VI. regnante Karolo serenissimo rege , & in successione Odonis II. Actum aput Viennam. In Dei nomine feliciter. Amen.

Cal remarcar que com que per cada paraula s’integren els valors de tots els fragments que l’incorporen – en el cas calculat aquí, una finestra d’un màxim de 39 caràcters abans i després de la paraula en qüestió – forçosament la corba de la gràfica ha de resultar suau tota vegada que paraules properes comparteixen la majoria dels coeficients integrats.

Ara bé, fins aquí, aquestes gràfiques, sols consideraven el nombre de mesures acumulades per a cada paraula – com si cada mesura fos de valor 1. – mentre que es limitava per un eurisme el nombre total de mesures a incorporar. Podem, per altra banda, no limitar el nombre de fragments a considerar i acumular els valors reals dels coeficients. Això, ens donarà una gràfica en la que s’hauran considerat tots el valors disponibles. Afegim doncs una nova línia que ens mostri els coeficients acumulats de cada paraula segons índex de semblança. Tornem al primer document:

dodi2-d00005-3On veiem com els valors ‘reals’ són molt més matisats, a penes arriben a coeficient del 0.4 , és a dir, les parts més repetides, encara no figuren ni en la meitat de documents del corpus de mitjana, posant en evidència la forta dispersió tipològica dels documents del Fons Cathalaunia. Altra cosa seria si enlloc de barrejar tota mena d’entrades documentals (epigràfiques, judicials, hagiogràfiques, etc, etc) s’hagués seleccionat un conjunt de documents més homogeni. Però és precisament per poder mesurar aquesta mena de coses que es va decidir no seleccionar un subconjunt de l’evidència – si més no en aquestes primeres fases de ‘descobriment’ o ‘tanteig’ de la natura del problema -; res impedeix que a posteriori, i amb lo aprés en aquests mesuraments, es puguin plantejar experiments posteriors més puntualment focalitzats.

Ara bé, aquesta segona gràfica ens ensenya que si bé és cert que forma unes oscil·lacions similars a la primera – al ser una corba més plana costa més d’apreciar-se però la correlació és clara -, també és cert que presenta alguna divergència significativa, en aquest cas, en la part inicial del text. Per mirar d’entendre millor a què es deu aquesta discrepància, el que farem serà dibuixar dues línies més, per mostrar els valors màxim i mínim acumulats en cada paraula. El resultat és:

dodi2-d00005-4Aquí es pot percebre com la línia de mínims, en verd,  es situa per sota i a prop del coeficient de semblança per paraula, indicant que la majoria de mesures acumulades són de valors baixos, però la línia de màxims, en rosa, hi presenta una separació molt clara, i per tant, cal pensar que hi han un nombre menor de mesures amb valors més alts, i provinents de fragments més petits que el mètode de càlcul de la primera línia, deixava de banda. En altres termes, es visualitza la influència dels fragments més curts, que ja havíem detectat en la primera aproximació a les dades.

Ara bé, amb les dues corbes inicials, ja podem definir un primer sistema de segmentació automàtica que compleixi el doble requeriment de minimitzar el nombre de segments i a l’hora maximitzar la semblança entre ells. És ben senzill: sols cal imaginar que des d’a dalt, anem desplaçant cap avall una línia horitzontal de ‘sostre’, i quan toqui un punt de línia de valors, ja sia la primera, en blau fosc, si volen utilitzar el nombre de mesures, o la carbassa, si volem emprar els coeficients de semblança,  crear un segment en la posició del fragment que contenint aquella paraula tingui el coeficient en paraules més alt; l’única restricció, serà que si el fragment col·lisiona amb algun fragment previ, – i per tant, de coeficient superior -, s’ignora. El resultat és el següent.

dodi2-d00005-5On veiem dibuixat en blau clar els set fragments que aquest procediment seleccionaria per aquest text. Es minimitza el nombre de talls, ja que es seleccionen primer els segment amb coeficients en nombre de paraules més alts, que en la majoria de casos corresponen als fragments més llargs – la mida mitja és de 261/7 ~= 37 paraules -. I es pot veure que maximitza el grau de semblança tota vegada que gairebé es sobreposa a la línia de coeficients, la carbassa; de fet, el dibuix incorpora, encara que no es veu gaire bé, una línia de mitja per ambdues corbes, i la diferència entre elles és sols de 0.02. Mostrem però el resultat d’una tal segmentació sobre el text; per fer-ho, ressaltarem en negreta els segments senars.

In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus [...] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
Recosindus hanc carta vindicione scripsi sub die & anno quod supra.

Una partició, que com es pot veure, poc té a veure amb la partició manual, feta a partir de les frases del text. Per deixar-ho ben clar, sobreposem una línia amb valors màxim en les paraules d’inici de cada un dels talls manuals – per claredat també, no es mostren els fixes de  l’inici ni el del final -.

dodi2-d00005-6De fet, son resultats perfectament previsibles i ja anticipats quan en plantejar el problema, es considerava un desideratum el què les particions mecàniques, quantitatives, de quelcom com: In Nmn Dn Ag ANTROP Xr Ma ANTROP ANTROP ANTROP ANTROP Fmn Ns Sml An On Vnttr Tb ANTROP Prsbtr Mtr Pr Nt Skrptr Vntk Nstr Vntm Tr Nstr Prpr Qo Nb Vn Pr Prnt Nstr At St Ps Tr An Sbrb TOPON An Kstr TOPON An Lt Qo Tknt TOPON Afrntt Ps Tr Ta Rnt Krk An Tr Ta ANTROP Fm Vl Ta So Fl Ta Ql An Tr Ta ANTROP Vl Ta So Rt Ta Mrt An Tr Ta ANTROP Vl Ta So Rt Ta Prt Ktnt Frntt An Tr Ta ANTROP An Ps Pm Wnt Nfr St Frntkn Ntltnt Sg Vntm Tb Ab Ntgr Nprptr Prg Tst Slt NUMB Qt Mn Nstr Rkpm Nl Qt Ta Ps Prg Xnt Nn Rmnst Ast Mnfst Wm Vr Prtkt Ps Tr Ta Nstr An To Trtm Tmn Ptstt On Km Ax Vl Rgrs So Aprnt Vntnt Tnnt Vl Knmtnt An Da Nmn Ab Ptstt Wt Sa Ns Vnttr Ol Om Ta Rt Nstr Qo Kntr Nt St Krt Vntk Prsns Vnrt At Nrmpnt Ns Vnrm Kmpn Kmpnm Tb An Tpl Qnt At Ta Nmlrt Frt Ps Tr An Tpl Tb Prptm Btr Ax St Krt Vntg Frm Prmnt Mn Tmpr Fkt Krt Vntk At Prl An NUMB Rnnt ANTROP Rg Fl Ltr Pst Bt ANTROP ANTROP Sn ANTROP Fm Sn ANTROP Sn ANTROP Sn ANTROP Fm Qo Nt Krt Vntk Sml An On Fkm Tst Rgvm Frmr Sn ANTROP Sn ANTROP Prsbtr Sn ANTROP Sn ANTROP Sn ANTROP Sn ANTROP ANTROP Nt Krt Vntk Skrps Sb Ta An Qt Spr, es sobreposés amb les particions manuals que a grosso modo segueixen els conjunts de frases gramaticals que formen cada una de les seccions del text. La gràfica, a més, mostra com en la partició manual, hi han segments de més de quaranta paraules, un dels límits pràctics del model calculat.

En conjunt, res de nou, són els límits naturals del sistema plantejat. Pensem per exemple en dues frases gramaticals distintes però que apareixen en el corpus sempre una rera l’altra; en una mirada exclusivament quantitativa com la que estem fent aquí, són a tots els efectes, una sola unitat. Però alternativament, també podem pensar que si no és aquest el cas, i aquestes dues frases apareixen juntes en un cert nombre de texts, però al costat d’altres frases en altres documents, potser sí que fora bona idea cercar aquesta diferència. Una primera manera de fer-ho, podria ser: per a cada paraula, considerem separadament tots el fragments que acaben just abans d’ella, i tots els que comencen just en ella. Si els coeficients són diferents, seria un indici de discontinuitat, i per tant potser un bon candidat a marcar una separació en el text. Encara que és certament possible, que si els coeficients dels fragments que acaben just abans i els dels que comencen just allà són semblants, tot i així, realment hi hagi una discontinuïtat, res impedeix que els coeficients a banda i banda tinguin magnituts similars; amb tot, cal provar-ho. De manera que inserirem tres línies més, una, en lila, on per cada paraula tinguem el valor dels fragments que acaben abans d’ella, una altra, en taronja, per el dels que comencen en ella, i una tercera, en vermell, per la seva diferència, o diguem-li, coeficient de discontinuïtat. El resultat, desprès d’eliminar – per claredat – les segmentacions calculades, la línia de coeficients i la de mínims, és:

dodi2-d00005-7On tenim que certament, cinc de les particions manuals coincideixen en pics de la línia roja, però tres no i una, l’última, a més, coincideix amb una diferència d’entre fragments anteriors i posteriors pràcticament nuŀla. Tenim doncs que les consideracions fetes sobre aquest índex es confirmen. Detecta casos en que hi ha un canvi de frase, si bé no sempre, i per tant constitueix un element significatiu per considerar si una paraula és limit de partició o no, però en cap cas és l’únic índex a tenir en compte, com era de preveure.

Ara bé, fixem-nos en que la corba de valor màxims per paraula, la verda, cap d’aquestes petites punxes planes que fa coincideix en cap tall manual. Visualitzem-ho tot remarcant-les en negreta sobre el text i recuperant les marques de tall originals [#].

[#]In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. [#]Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. [#]Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. [#]Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. [#]Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. [#]Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus [...] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
[#]Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
[#]Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. [#]Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
[#]Recosindus hanc carta vindicione scripsi sub die & anno quod supra.[#]

Tenim que cap de les zones en negreta, o sigui, els fragments curts amb coeficients més alts estables que els del seu voltant, intersecta amb cap dels talls manuals [#]; cap, tret d’una: la darrera, on el coeficient de Recosindus es igual al de Saborone, fet comprensibe si recordem que el procediment de mesura els havia igualat als dos a: ANTROP.

Tenim doncs una possible norma a la vista: un tall pot estar a partir d’una paraula on la diferència entre els fragments que acaben abans i els que acaben després sigui localment màxima, i no intersecti cap dels fragments amb valors màxims estables. Podem mirar de visualitzar-ho amb una gràfica on sols tinguem la corba inicial, la de fragments màxims, la de discontinuitat i la dels talls manual. Provem-ho en uns quants documents a l’atzar, començant per el que ja tenim:

dodi2-d00005-8Un judici del comte Miró l’any 904[4].

dodi2-d00150-1Una venda de terra de Susana a Vic l’any 910[5].

dodi2-d00250-1I una donació d’un sacerdot Odó a Sant Julià de Brioude l’any 909[6].

dodi2-d00550-1Podríem multiplicar els exemples, però crec que no cal. El que s’entreveu, és que els fragments curts i amb coeficients alts, sovint estan en els extrems dels talls manuals, si més no, pràcticament mai són tallats per ells; fet lògic si pensem ser aquests fragments com parts atòmiques del discurs – rarament es tallarà una frase entre un nom i els seus adjectius qualificatius, per exemple -. I l’índex de discontinuïtat pot ser un indicador de punt de tall. Sumant les dues consideracions arribem a un plantejament nou.

Podem mirar de definir les fórmules, els modismes dels formularis que estem buscant, com seqüències o cadenes específiques d’aquests fragments curts, i superar així una de les limitacions que més nosa feien del plantejament inicial, que era que a diferència del primer còmput de semblança interdocumental, que es calculà, que es basava en les particions manuals, i que per tant, comparava i agrupava fragments de mida diversa, el model actual, per evitar l’explosió combinatòria, ha limitat els càlculs de semblança entre els fragments amb un mateix nombre de paraules – i tot i així, va tardar mesos -.

Tampoc s’han tingut en compte en cap moment fins ara, el fet que hi han paraules més comuns que altres, ben probablement, per això els fragments més curts i amb coeficients més elevats es centren al voltant de les paraules comodí: ANTROP, TOPON i NUMB. És d’esperar que si incorporem en l’anàlisi aquest factor, el resultats siguin encara més clars. Com també és evident que hi han moltes altres possibles aproximacions alternatives a provar.

Tot plegat, jo diria que tot i la dificultat intrínseca del problema, s’albira un possible mètode de detecció de fórmules textuals, però en aquest camí, encara hi ha força llana per cardar[7], i aquest apunt ja és prou llarg…

 


Notes

Publicat dins de cathalaunia.org, estadística, Fons Cathalaunia, segmentació textual, semblança documental, Semblances interdocumentals | Etiquetat com a , , , , , | Deixa un comentari

2014-juliol a cathalaunia.org

S’acaba un juliol espès i dens en el què l’activitat ha estat centrada en dos àmbits. El càlcul de semblances documentals, en la seva variant actual, que és mirar de definir un procediment per a segmentar automàticament els texts, i la tasca prosopogràfica del  Fons Cathalaunia, on s’està entrant l’any 891.

Aquest bloc ha vist un parell d’apunts nous, precisament, sobre aquests mateixos àmbits. Un per resumir els càlculs de semblança realitzats sobre el corpus durant un grapat de mesos – el tercer en la sèrie de Semblances documentals -, i l’altre, un exemple de les dificultats i ambivalències que comporta la tasca de mirar d’identificar els figurants dels documents altmedievals, àdhuc, quan es suposa que han de ser personatges d’una certa rellevància. Sobre el tema de les semblances, se’n continuarà l’exposició en els proper dies, que hi ha força coses a dir-hi.

Paralel·lament, s’ha començat a explorar la possibilitat que el sistema de cerca textual en pdfs emprat internament a cathalaunia.org, i que ja havíem comentat en el seu moment, es pogués oferir al públic. Llavors, va quedar clar que les limitacions derivades dels drets de propietat feien inviable la possibilitat d’obrir al públic els resultats de cerques en línia fetes sobre la bibliografia de cathalaunia.org, però res impedeix la possibilitat que usuaris privats utilitzin les eines desenvolupades per fer aquestes cerques en col·leccions de pdfs personals; és a dir, que un es pugui crear la seva col·lecció de texts (pdfs) a base de pujar al servidor els seus propis fitxers, i fer-hi cerques via Internet utilitzant les eines desenvolupades a cathalaunia.org. No és un tema que tingui a veure especialment amb la Història, tret de la motivació que va dur a programar aquestes eines, i per tant, ja veurem per on va, si és que va.

També s’ha continuat la tasca de preparar les bases per intentar posar en marxa un sistema de consulta  i navegació entre els continguts del Fons Cathalaunia basat en grafs, un sistema lògicament majoritàriament gràfic, com ja es va anunciar.

En conjunt, ha estat un mes fortament marcat per la programació, feina usualment invisible als ulls dels usuaris, però que és completament imprescindible. A veure si algun dia s’encarta fer un comentari sobre el paper de la computació en l’estudi de la Història, que encara que en aquest bloc se’n va parlant recurrentment, potser caldria entrar-hi en més detall…

Les incorporacions de novetats en l’apartat bibliogràfic continuen en mínims – la llista de títols pendents de lectura encara sobrepassa els quatre-cents trenta ítems -. Es llisten les novetats bibliogràfiques del mes, com sempre, per seccions[1]:

Secció Bibliografia de l’Êpoca Ibèrica i Romana:

Secció Bibliografia de l’Êpoca Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia Vària:

A la fi del mes, cathalaunia.org presenta 21.339 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathalaunia.org, cerca en pdfs, estadística, Fons Cathalaunia, grafs, programació, prosopografia, recerca, Semblances interdocumentals | Etiquetat com a , , , , , , , , , | Deixa un comentari

Undila comte d’Empúries? O de les dificultats de la prosopografia.

Actualment, s’està processant l’any 891 en el Fons Cathalaunia, i un dels documents recentment incorporats, permet il·lustrar les dificultats que sovint comporta l’establiment d’una prosopografia bàsica – en l’aspecte de la identificació de les persones esmentades en els texts -, els seus límits, els seus perills i com adreçar-ho tot plegat.

El document en qüestió es tracta d’un manuscrit original – desafortunadament mal conservat – d’un diploma del rei Odó per el seu fidel Wicfridum, en el que li confirma les possessions que en el pagus de Narbona li vingueren de part del seu avi Stephanus i la seva mare Kintila i en el de Girona, del seu pare Undila[1]. La part final de l’escatocol no es conservà, però per el context i la grafia es pot determinar que fou confeccionat per el primer notari d’Odó, Throannus, en actiu des de l’inici del regnat, l’any 888 fins l’any 892; per tant, la data està raonablement acotada, si a més considerem les dues úniques ocasions  en aquest interval que sabem d’ambaixades enviades a la cort. El text és força curt:

(Chrismó) In nomine Domini Dei aeterni & Salvatoris nostri Ihesu Christi. Odo clementia Dei rex. Regalis celsitudinis mos est fideles suos donis multiplicibus atque donationibus ingentibus honorare sublimesque efficere. Noverit igitur omnium fidelium Sanctae Dei ecclesiae nostrorumque tam presentium quam futurorum industria quoniam placuit serenitati nostrae quendam fidelem nostrum Wicfridum de quibusdam rebus nostrae proprietatis honorare. Sunt autem eaedem res in pago Narbonense in villa Liziniana & in Casiliaca vel in Aspera seu in Sancta Candida sive in Segiana omnem aprisionem quem Stephanus avus supradicti Wicfridi habuit & sua mater nomine Kintala concedimus & in propium & de fischo cum villare Lacum cum omnibus adjacentiis suis & de ipso fischo qui est sub Sancta Reparata. Et in pago Ierundense aprisio quem pater suus Undila habuit in valle Lemina cum omnibus adiacentiis suis , & in villa Mulinensis cum villares duos Surdes & Filkerolas. Terminatur vero de parte orientis ad villam Cardonarias vel in terras Golcedet. De parte meridie terminatur de villa Crucilias vel in termino Sancto Saturnino. Et de parte occidentis de Fornels. De parte circii de villa Planiles & fischo qui est in Ulliano farinarium autem qui est flumine Sterria. Unde hoc nostrae altitudinis preceptum fieri & eidem dari iussimus per quod precipimus atque iubemus ut ab [...] & deinceps iamdictus Wicfridus prefatas res cum omnibus ibidem iuste pertinentinus liberius teneat atque possideat vel quicquid facere voluerit liberam ac firmissimam in omnibus habeat potestatem faciendi sicut & ex aliis rebus suae [...] aprisionem que supradictus Wicfridus habeat vel habere [...]

La complexitat, com és d’esperar, apareix a l’hora de mirar d’identificar els figurants. L’aproximació tradicional a aquest problema, en estudis aïllats, sectorials, cerca les altres evidències conegudes que se li puguin relacionar: els bens implicats, la família, etc, etc, etc. Però en una tasca d’establiment prosopogràfic sistemàtic sobre un corpus documental donat, els resultats d’aquests treballs previs, no són sinó una opinió més a tenir en compte, molt rellevant com ajut, però molt poc com a font d’autoritat, tota vegada que per mètode, l’establiment s’ha de basar exclusivament en l’evidència presentada en els altres documents. Ha de ser l’establiment del creuament de referències el que verifiqui o qüestioni les identificacions fetes a partir d’estudis sectorials.

Ara bé, això és la teoria, en la pràctica, els documents es van processant un a un i per tant, l’evidència disponible en el moment de mirar d’establir inicialment les identitats dels figurants, és també parcial. En el cas del Fons Cathalaunia, es procura utilitzar un mètode d’avanç seqüencial en el temps; en una primera fase s’anà de l’any 898 al 914 i en la segona s’està reculant des de l’any 897. Una altra de les diferències entre la tasca puntual d’identificar uns personatges en un context donat, en un estudi concret, versus un establiment prosopogràfic sistemàtic, és que en el primer, l’anàlisi es concentra sols en els subjectes que són rellevants per l’estudi en qüestió, mentre que en el segon, s’intenta identificar a tots els figurants; fet que multiplica les dificultats i que permet entendre millor la fragilitat – relativitat, si es vol – de les identificacions.

Estem acostumats a pensar en termes de blanc o negre: “o aquest document parla de X o parla de Y, o hi apareix A o B”, però la realitat és què la norma és la indefinició, i l’excepció, la certesa. La pràctica d’un establiment prosopogràfic sistemàtic ensenya que sempre hi ha una gradació, des d’una zona clara, amb unes poques figuracions que poden ser raonablement identificades afirmativament, a una àmplia majoria fosca de figurants essencialment no identificats per manca de dades. Moltes de les informacions que s’empren habitualment, estan en una zona intermèdia, grisa, on per a cada esment es poden proposar més d’una identitat, i en la què, per tant, cal sempre recordar la seva fragilitat abans de construir-hi al damunt un edifici teòric massa enlairat. És per això que considero completament imprescindible la tasca d’aquest establiment prosopogràfic sistemàtic global sobre el corpus documental de l’alta edat mitjana que incorpori totes les possibilitats realment existents. Aquí hi ha una noció rellevant que sovint es confon.

Un establiment prosopogràfic, no és una reconstrucció dels fets segons consten en els documents, és quelcom més bàsic. És l’enumeració i ordenació de totes les informacions presents en els texts, incloent, també per descomptat, els errors, manques, tergiversacions, i ambivalències que l’evidència incorpora. No es tracta de filtrar les informacions ‘bones’, de les ‘dolentes’, tota vegada que tal distinció pertany a una anàlisi posterior; el recull prosopogràfic es limita a reflectir també la fiabilitat d’una font com una dada més a presentar. Això té dues implicacions pràctiques. Una, que el sistema de representació de dades ha de permetre expressar també incoherències i mancances (un fill pot tenir dues mares, un mort pot signar un document, etc, etc, etc), i la segona, que ha de quedar clar que la reconstrucció dels fets que tot i així es desprèn del recull de les informacions, no és ni definitiu ni tancat, ans bé potser sols sigui la possibilitat amb més probabilitats de ser certa en una aproximació general. És fàcil confondre-ho amb una reconstrucció objectiva dels fets, perquè certament, en part ho és, però és més, en quant que no intenta modelar el que els text indiquen en uns paràmetres de versemblança i adequació a la ‘realitat'; ho fa tan sols en base a paràmetres d’evidencialitat documental. Un tal recull et dirà que segons el document X , A es pare de B, no si això és cert o no, ni quin grau de versemblança té.

La idea, és doncs, que un tal recull, no hauria de ser tant un punt de referència, una font d’autoritat, sinó una eina on trobar agrupades les possibilitats existents, per tal d’evitar que cada investigador hagi de refer des de zero els establiments factuals mínims del seu estudi, sovint poc conscients de la complexitat real que un enfoc global revela. En altres termes: que tinguis a l’abast totes les referències d’un personatge qualsevol, així com les dels seus possibles alter-egos (homònims, parents, etc, etc, etc) per començar; no com quelcom immutable – la indefinició bàsica ho fa impossible -, ans bé com un punt de partida des d’on evolucionar. Un pas previ, una feina ja feta, que sia d’utilitat als investigadors[2].

Passant al cas que ens ocupa, el document fou publicat i analitzat l’any 1985 per en Gabriel Roura i Güibas a: Un diploma desconegut del rei Odó a favor del seu fidel Wicfrid (888-898), que a partir dels treballs previs identificà l’avi Stephanus del text com un dels hispans d’aquest nom que rebé un diploma de Carlemany l’any 812 i com el vicedominus de Narbona d’un document judicial del 834, el mateix també, en un diploma de Carles el Calb de l’any 849 i encara com un vassus dominicus en un altre judici de l’any 852 també a Narbona. Personatge que representa que tingué un fill anomenat com ell, Stephanus, que casat amb una Anna filla d’Alaric comte d’Empúries apareix com a jutge l’any 872 al costat del comte Miró el Vell. En Roura, opinava doncs, que la Kintila mare del Wicfridum que reb el títol, seria una germana d’aquest segon Stephanus; el punt de connexió es centra en la vila de Liciniano, que en un altre precepte, el Calb, l’havia donada al matrimoni Stephanus i Anna. Per el que fa al pare Undila, en Roura pensà en el jutge homònim que l’any 881 operava davant dels comtes Deila de Girona i Sunyer d’Empúries i encara en un altre judici l’any 925 davant del bisbe Wigo.

La pràctica totalitat dels documents que en Roura esmenta encara no han estat incorporats en el Fons (excepció feta del diploma del Calb al matrimoni Stephanus i Anna, de l’any 899),  i per tant, el gruix de les seves opinions no podien ser avaluades. Sí però sembla difícil acceptar que un pare amb un fill en edat de rebre un diploma reial pels volts de l’any 890, encara estigui en actiu trenta-cinc anys més tard – però això és sols un detall sense més rellevància -. En processar el text, quedava clar que la identificació feta per Roura, malauradament, no ens podia ser de gaire utilitat; però en tot cas, la pràctica prosopogràfica ha establert un protocol d’actuació per realitzar la fase d’identificació (en incorporar un text al Fons, hi han tres fases: normalització i segmentació del text, descripció de figurants, llocs, interrelacions i estructuració geogràfica, i finalment, identificació dels llocs i figurants del document), de manera,que cap problema, sols calia seguir els passos predeterminats per la metodologia…

Per mirar d’identificar els figurants en un text nou, el primer, és cercar quines identitats. ja conegudes del recull prosopogràfic, en el moment d’incorporar el nou text, podrien ser compatibles. Actualment, es disposa de dues eines, ambdues en el Selector de dades del Fons. Una primera, la cerca per lemes, permet introduir la llista dels noms dels figurants, i opcionalment, una llista de codis de toponímics on limitar la cerca; el procés retorna quines identitats homònimes són conegudes i en quins dels llocs indicats. En el cas que ens ocupa, tenim que dels topònims esmentats en el diploma, el Fons ja sabia de Girona=0, Narbona=4, Liciniano=683, Felcariolas=639, Oliano=5 i Crucilias=2873, o sigui que la cerca que s’executà fou: 4 683 639 0 2873 5 Wicfridus Stephanus Kintila Undila. Cerca que retornà una vintena de documents amb algun Stephanus o i/o Undila (la resta de noms eren desconeguts en aquests contexts geogràfics). És sols una primera aproximació, tota vegada que la cerca d’homònims que utilitza és molt barroera, i ni assegura que tots les formes homònimes siguin considerades, ni que ho siguin totes les retornades, però l’esforç és mínim i sí resulta usualment útil. En aquest cas, però, cap de les identitats semblava clarament adient; la totalitat d’Esteves, eren de documents posteriors, i recordem que l’Esteve del text apareix esmentat com avi, probablement, ja difunt en el moment del diploma per a Wicfridum.

La segona eina a emprar, es basa en cercar manualment, també en el Selector, primerament, per a cada figurant, quines identitats homònimes podrien ser compatibles. El mètode funciona a base d’utilitzar una cerca per expressions regulars; per exemple: per cercar un Stephanus, es cercaria una expressió com : t@[pfv]@n, que traduït seria: “cerca identitats que tinguin alguna grafia que tingui una t, seguida d’una p o una f o una v, i seguides d’una n (pensem en les formes Stephanus, Stefan, Estevenone, etc). Pot semblar estrany que en aquest cas no s’intenti utilitzar la primera lletra del nom (per convenció, sempre en majúscules), però el cert és que la pràctica quotidiana ensenya la gran variabilitat – fins la volatilitat – de les primeres lletres de molts dels antropònims altmedievals, i que usualment, l’estructura consonàntica acostuma a donar més bons resultats. Per a cada nom, es repassen doncs les identitats conegudes del Fons potencialment compatibles, i amb els seus codis es fa una llista; en el cas d’aquest document resulta : 201 3617 744 374 5727 3530 1008 1446 3457 590 1646 2533 5644 2975 2943 219 1408 623 407 986 5257 5302 285 565 3347 2902 1456 1465 2251 1370 301 739 1239 2875 2163 2750 1407 1063 2388 184.

És en aquest punt, que amb la utilitat de llista de documents compartits, el sistema retorna els documents amb més d’un d’algun d’aquest codis d’identitat, és a dir, els documents on figurin junts algun Stephanus, Undila , Kintila o Wicfridum dels de la llista de codis creada manualment abans. La teoria, és que si trobem grups d’homònims repetits, sempre hi ha una possibilitat major d’identificació positiva[3]. Evidentment, és sols una possibilitat, cal avaluar manualment les coincidències per veure si són d’algun valor o no. En aquest cas, la cerca de grups d’homònims, tampoc ajudà. Cap dels quatre documents detectats semblava ser altra cosa que simples coincidències, sense cap paral.lelisme extra que permetés alguna hipòtesi d’identificació plausible. L’única semblança podria ser un Gauzfredo744 i un Undilane739 jutges a Nimes set anys més tard; massa fràgil, cul de sac. Amb tot, veureu que hi han fins a quaranta (codis de) identitats, és a dir, que sí tenim en el Fons identitats anomenades Guifré, Undila, Chintilo i Esteve que són potencialment compatibles, el problema és que cap indici permet anar més enllà, i davant d’aquesta limitació, el mètode reclama la creació de noves identitats (per a no perdre informació) i esperar a que documents posteriors permetin la seva reunificació.

Ara bé, no estem en una compravenda entre particulars en ves a saber a quin lloc, és un precepte reial, els receptors cal pensar que han de ser nobles, i per tant, més fàcilment susceptibles de figurar en els documents del període; en altre termes, sap greu tenir que crear noves identitats, quan es probable que al menys algun dels figurants sí siguin realment algun dels codis abans llistats. Fins i tot hem parlat algun cop en aquest bloc d’una noble Ihilo/Quintilo en anys posteriors, i la resta de noms  – tret d’Esteve que és molt comú – són força específics, i per tant, la idea d’estar palpant, delineant, sondejant, una xarxa familiar es fa molt clara. La tesi d’ en Roura d’una família de nobles i jutges, és coherent amb les dades del Fons, Undila és nom d’un jutge, Guifré és un nom de referència en la nissaga comtal, i la forma Wicfridum és un hàpax, com si l’escrivà no sabés transcriure una forma que no li resultava habitual.

Fins aquí l’anàlisi habitual, però en aquest punt vaig recordar que el regest d’aquest text de la Col·lecció diplomàtica de la seu de Girona : 817-1100 (D. 24) de la mà d’en Ramon Martí i Castelló, parlava d’un comte Delà, i es aquí que saltaren les alarmes; el nom Delà no havia estat considerat! En Martí, profund coneixedor del context, veié en l’Undela fill de Kintila del text, el Deilà comte d’Empúries, fill també, d’una Quintol. L’evidència que suporta aquest parentiu comtal, tampoc ha estat encara incorporada en el Fons, però era una possibilitat a investigar que havia estat ignorada (la simplificació de formes compostes en un dels seus components, no és desconeguda – fins i tot la reina Brunequilda apareix en alguna font com Bruna -, però sí és extraordinàriament rara) de manera que s’incorporà en la llista de codis on cercar grups d’homònims repetits, el codi del l’únic Delà conegut i compatible que no és altra que el 184 del comte d’Empúries. Aquesta nova incorporació sí generà un nou resultat que presentava un document on es troba un Delà i un Guifré: un judici fet un parell d’anys mes tard sobre interessos en la vila de Bàscara. En aquest document, el Wifredo present actua de vasso del comte Deila, de manera que la possibilitat que el fill actués de vasso del pare, mereix consideració – la tesi d’en Martí, es veia documentalment recolzada-. S’hi oposen però dues consideracions: la diferència entre les formes Undila i Deila que dèiem – encara que l’hàpax de la forma Wicfridum potser podria justificar tal variació? -. L’altra és mes seria, ja que l’Undila del text no és identificat com a comte, i aquesta dificultat, entronca amb la interpretació global d’aquest document en el seu context (girona vs empuries, bisbat vs comtat, relacions familiars, reconeixement – o no – d’un rei no dinàstic, etc, etc, etc), tema que no m’atreveixo a considerar fins no tenir una perspectiva basada en una cobertura documental molt més àmplia (és  dir, haver incorporat tots els documents del període del Pilós) – una nota sols: Ullà, en el text, es descriu en el pagus gironí però en la resta de documents del Fons, tots posteriors, sempre apareix incorporada a Empúries -.

La decisió final, tenia doncs, tres opcions:

  1. Identificar l’Undila i el Wicfridum com els jutges Undila i Gausfredo de Nimes:  molt baixa probabilitat.
  2. Crear noves identitats per a cada un d’ells, i a puntar-ne les identitats prèvies compatibles: acció per defecte del protocol.
  3. Identificar l’Undila i el Wicfridum com el comte Deilà i el seu vasso Wifredo del judici de Bascara.

En aquest punt cal explicar que el Fons, per tal de poder expressar les ambivalències en les identificacions incorpora dos mecanismes. Un de genèric, que és que per a cada identitat es pot definir una llista d’identitats ‘compatibles’, usualment creada en el moment de donar d’alta la nova identitat, precisament per reflectir les identitats prèvies que en aquell moment es consideraven candidates, però per a les que mancava l’evidència necessària per donar per a bona tal identificació – tal i com s’ha expressat en la segona opció d’abans -. I l’altre, més específic, que és que per a un mateix esment és possible indicar més d’una identitat; aquest mecanisme, però, està pensat per els casos – certament molt poc freqüents – en què es possible plantejar més d’una identificació clara – usualment amb figures de relleu – atenent a com s’interpreti alguna indefinició pròpia del document (per exemple: casos, on una datació presenta un rei ‘erroni’, o documents que tenen vàries lectures contextuals alternatives) – que no és el cas del text que ens ocupa -.

Tornant per fi al document. Martí, lògicament, sí ha examinat aquest context, i vist que la seva tesi s’adequa a l’evidència fins ara processada, i vist també que la quantitat d’homònims ja coneguts compatibles amb el Wicfridum del text feien pensar que la probabilitat que fos alguns d’ells ha de ser no menor, finalment, s’acceptà aquesta possibilitat, tot i les dificultats expressades, i s’identificà l’Undila del diploma com el Delà comte d’Empúries – d’aquí el títol de l’apunt -, i el Wicfridum fill seu com el vasso Wifredo del judici de Bàscara, tot incorporant en la secció de comentaris del document tota aquesta discussió que aquí s’ha comentat.

Com ja s’ha expressat abans, és una identificació més entre les milers i milers que composen el Fons, no és especialment ferma, i de fet, res impedeix que com qualsevol altra, un document posterior pugui variar-la; mentre, però, per a mi, il·lustra dues coses: una, el treball que comporta quelcom tan bàsic com un establiment prosopogràfic – sovint, un bon grapat d’hores de feina -, i dues, com els treballs sectorials que dèiem en començar que no han de ser font d’autoritat, en certs comptats casos, poden ser claus; si més no, temporalment.

Tot és sempre més complicat del que sembla…

 

 

 

 


Notes

Publicat dins de Anna, Bàscara, Brunequilda, cerca per lemes, Crucilias, Delà, expressions regulars, Felcariolas, Fons Cathalaunia, Gabriel Roura i Güibas, Girona, Guifré, Ihilo, Kintila, Liciniano, lista de documents compartits, Narbona, Odó I, prosopografia, Quintol, Ramon Martí, segmentació textual, Selector, Stephanus, Sunyer, Throannus, Ullà, Uncategorized, Undila, Wicfridum, Wigo | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

Semblances documentals (3).

Aquest és un apunt de situació, no per presentar resultats, sinó per parlar del que s’està explorant en el camp del còmput de semblances interdocumentals en texts de l’alta edat mitjana. El dos primers apunts d’aquesta sèrie, ja van presentar les tècniques i resultats obtinguts en una primera aproximació. Resultats, que van semblar tan engrescadors que van animar a intentar anar més enllà i mirar de superar les limitacions del model llavors emprat.

En una primera aproximació, els text en llatí del Fons Cathalaunia, que en la seva incorporació al Fons havien estat segmentats manualment, s’havien processat algorítmicament per reduir les formes llatines a uns lemes mes simples que poguessin ser comparats mecànicament. El mètode era – i és – certament barroer, i podia – i pot – donar per iguals termes filològicament distints – i viceversa-, però el fet d’estar comparant cadenes de símbols, i no símbols individuals, fa que les probabilitats d’error acumulat disminueixin molt ràpidament; de fet, en els resultats no s’apreciaren cap mena d’efecte per aquest motiu. Però en el sistema llavors emprat hi havien a més dues limitacions bàsiques. Una primera, era que el texts i els seus fragments composants, s’havien definit manualment en el moment de segmentar el text per introduir-los en el Fons, i per tant, el criteri sobre el què s’estava comparant, no tenia una definició formal; el fet d’haver estat executat seguint uns criteris més o menys estables, però, feia que els resultats no es veiessin especialment compromesos. I la segona, que els noms propis, tant de lloc com de persona, no havien estat abstrets a una forma única, simbòlica, és a dir, es comparaven literalitats, i per tant, una frase com: ‘In pago Ierundense‘ era diferent d’una altra com: ‘In pago Barchinonense‘. Amb tot, el sistema de comparació sí detectava el grau de semblança, que en el cas de l’exemple estaria aproximadament en els 2/3.

De manera que el que s’està intentant és un objectiu també doble. Un de simple, que és convertir qualsevol antropònim en una forma fixe (per exemple: ANTROP), i el mateix per topònims (TOPON) i nombres en notació romana (NUMB). I el complicat, i en el que encara s’hi està treballant, és aconseguir definir un mètode que permeti superar la segmentació manual canviant-la per un procés algorítmic, mecànic, computacional. Per fer-se una idea de què estem parlant, podem agafar un dels texts del Fons com exemple. Una compravenda de l’any 918[3]..

[#]In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. [#]Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. [#]Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. [#]Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. [#]Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. [#]Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus [...] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
[#]Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
[#]Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. [#]Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.

[#]Recosindus hanc carta vindicione scripsi sub die & anno quod supra.[#]

Les marques [#], indiquen els segments en què el text ha estat descompost manualment (és un cas certament benigne, en el que la puntuació s’adapta a l’estructura del propi formulari, altres casos hi ha on això no és així). Aquest mateix text, un cop lematitzat i normalitzats els noms propis i les numeracions es transforma en:

In Nmn Dn Ag ANTROP Xr Ma ANTROP ANTROP ANTROP ANTROP Fmn Ns Sml An On Vnttr Tb ANTROP Prsbtr Mtr Pr Nt Skrptr Vntk Nstr Vntm Tr Nstr Prpr Qo Nb Vn Pr Prnt Nstr At St Ps Tr An Sbrb TOPON An Kstr TOPON An Lt Qo Tknt TOPON Afrntt Ps Tr Ta Rnt Krk An Tr Ta ANTROP Fm Vl Ta So Fl Ta Ql An Tr Ta ANTROP Vl Ta So Rt Ta Mrt An Tr Ta ANTROP Vl Ta So Rt Ta Prt Ktnt Frntt An Tr Ta ANTROP An Ps Pm Wnt Nfr St Frntkn Ntltnt Sg Vntm Tb Ab Ntgr Nprptr Prg Tst Slt NUMB Qt Mn Nstr Rkpm Nl Qt Ta Ps Prg Xnt Nn Rmnst Ast Mnfst Wm Vr Prtkt Ps Tr Ta Nstr An To Trtm Tmn Ptstt On Km Ax Vl Rgrs So Aprnt Vntnt Tnnt Vl Knmtnt An Da Nmn Ab Ptstt Wt Sa Ns Vnttr Ol Om Ta Rt Nstr Qo Kntr Nt St Krt Vntk Prsns Vnrt At Nrmpnt Ns Vnrm Kmpn Kmpnm Tb An Tpl Qnt At Ta Nmlrt Frt Ps Tr An Tpl Tb Prptm Btr Ax St Krt Vntg Frm Prmnt Mn Tmpr Fkt Krt Vntk At Prl An NUMB Rnnt ANTROP Rg Fl Ltr Pst Bt ANTROP ANTROP Sn ANTROP Fm Sn ANTROP Sn ANTROP Sn ANTROP Fm Qo Nt Krt Vntk Sml An On Fkm Tst Rgvm Frmr Sn ANTROP Sn ANTROP Prsbtr Sn ANTROP Sn ANTROP Sn ANTROP Sn ANTROP ANTROP Nt Krt Vntk Skrps Sb Ta An Qt Spr

El repte és molt fàcil d’enunciar, tota vegada que es tracta de definir un procediment que permeti establir unes marques de tall (els [#] de la versió ‘original’) que globalment, entre el conjunt de documents, minimitzin tan les diferències entre els segments definits com el propi nombre de talls o segments, i  posats a demanar, que no sigui quelcom gaire aliè a la comprensió humana (idealment, quelcom semblant a l’exemple manual anterior).

De manera que això és el que s’ha fet, s’han processat els primers 743 documents del Fons (l’exemple és el nombre D00005) normalitzant els noms propis i les formes llatines. Entre ells, n’hi han 41 que no tenen text (documents perduts, en llengua no llatina ,etc), és a dir, tenim 702 texts simplificats. Cal remarcar que la varietat tipològica del Fons és molt gran, si bé els cartularis són la font principal, i per tant, donacions, compravendes, consagracions i judicis formen un gruix considerable, tampoc són rars els texts epigràfics, relats hagiogràfics, entrades anuals d’annals, etc, etc, etc.

Aquests 702 texts estan formats per un total de 231.607 lemes, fet que situa la mitjana de paraules/lemes per document al voltant dels 330 entre els 5 del més breu i els 19.833 del més llarg. El nombre de lemes diferents, es situa en els 10.548, entre els quals en tenim 2.365 d’equivalents, deixant per tant el nombre de ‘paraules diferents’ en 8.183.

La idea inicial va ser mirar de calcular per a cada fragment un coeficient entre 0. i 1. que expressés el seu grau de repetició dins el corpus  (1.=tots els fragments li són idèntics, 0.=el fragment no té res en comú amb el corpus), tasca per a la que cal primer definir una funció de comparació entre fragments. Calcular la identitat entre dos segments (mateixos símbols en el mateix ordre) és trivial, el que ja admet més joc i implica un nombre creixent de possibilitats – i per tant de cost computacional – és detectar graus de semblança, per exemple, tenint en compte valorar mateixos símbols però en diferent ordre. En la primera aproximació, una funció així ja es va definir i aplicar satisfactòriament, el cas però d’ara és diferent, tota vegada que es tracta precisament de definir quins són els fragments sobre els que aplicar aquesta funció.

De manera que es va plantejar un procés de segmentació automàtic a base de definir una finestra d’N símbols i anar-la aplicant sobre els 702 documents des de la primera posició/paraula fins a la darrera. És lògicament un procés que es va repetint per a cada valor de N; en el cas que ens ocupa, s’ha calculat entre N=3 i N=40; és a dir, trobar tots i cada un dels segments de entre tres i quaranta símbols consecutius existents en el corpus. Idealment hauria estat millor fer-ho fins les 60 paraules, però el cost computacional ja era excessiu. El resultat és  un molt elevat nombre de possibilitats, 7.875.739 en total, entre les 145.725 de les de 3 símbols i les  215.918 de les de 15, i en el que tenim per a cada una d’elles quants cops apareixen – i a on, en quin document i a partir de quina paraula -.

Ara bé això sols detectava els casos de semblança total entre dos fragments, és adir, els casos extrems 1. i 0. d’una funció de comparació, i pensant que seria necessari també tenir un grau de semblança intermedi, es va programar una funció de comparació entre segments de la mateixa longitud per valorar els casos de semblança parcial i/o amb ordre intersimbòlic diferent. És aquest procés el que ha resultat molt costós computacionalment, de fet, ha tardat mesos – en un ordenador de baixa gama, tot sigui dit -.  El resultat, és que finalment, per a cada un del 7.875.739 segments diferents, tenim no sols en quins documents apareixen sinó també una mesura del grau de semblança amb la resta de segments de la seva mateixa longitud.

Estem doncs en el punt de mirar de cercar per fi quina és la segmentació que amb el mínim nombre de talls, maximitzi el grau de semblança entre ells i els de la resta de documents. Inicialment, es va pensar que arribats aquí, un possible mètode trivial seria, document per document, provar tots els talls possibles i com ja sabem el coeficient de semblança de cada un d’ells, elegir la combinació millor. Una aproximació per força bruta. Mala idea. El nombre de talls possibles a fer en un text donat, és un valor combinatorial, i per tant, creix exponencialment, fent inviable un procés exhaustiu. Cul de sac, calia doncs anar per altres vies.

Una primera prova ha estat encara-ho com un procés de tessel·lació, és a dir, considerar cada un dels texts com un espai (unidimensional) a cobrir amb parts (fragments) que en conjunt ens donin una mitjana del coeficient de semblança més elevat. Una possible forma de fer-ho podria ser començar per els fragments amb un coeficient més elevat, i anar-els col·locant sobre el text; no s’assegura un resultat òptim, però podria ser una primera prova. Error. Si s’hagués pensat una mica millor, s’hagués pogut preveure el resultat. Els fragments més curts, per definició tenen coeficients més elevats (és més fàcil trobar repetits grups de tres paraules que no pas de vint), ergo, el resultat és una partició amb un gran nombre de fragments, quelcom molt poc hàbil per els nostres objectius. L’error estava en que aquesta aproximació oblidava el requeriment de fer-ho amb el mínim nombre possible de talls, és a dir, amb les seqüències el més llargues possible. Cal encarar-ho de manera diferent, i les possibilitats, són certament moltes.

És aquí on s’està actualment, i per tant, com dèiem al començar, aquest no és un apunt per presentar fites sinó per descriure els passos fets fins ara. Tenim fetes les mesures de base, cal ara aprendre a utilitzar-les, i això passa necessàriament, per analitzar millor el problema i les possibles solucions.

Publicat dins de cathalaunia.org, estadística, Fons Cathalaunia, formularis, lematització, segmentació textual, semblança documental, Semblances interdocumentals | Etiquetat com a , , , , , , , | Deixa un comentari

2014-juny a cathalaunia.org

S’acaba un juny marcat per una feina molt intensa però molt poc visible. Després de mesos de recerca en temes culturals i simbòlics, aquestes darreres setmanes han estat marcades per treballs tan prosaics com imprescindibles, feina callada que continua la tasca prosopogràfica del web cathalaunia.org i que en prepara els nous desenvolupaments.

En el front de l’Epigrafia en ibèric nord-oriental, s’han acabat d’incorporar els nous testimonis de l’edició del 2013 de la revista Paleohispánica; el recull presenta actualment un total de 3.134 entrades epigràfiques. Per altra banda, la facilitat de Cerca del recull ha vist incrementar el seu ús entre els estudiosos, sembla que poc a poc es va prenent consciència de la seva utilitat… Un plaer.

També el càlcul de semblances documentals ha estat objecte d’atenció. En encarar la tercera fase (segmentació ponderada) s’ha comprovat que en tractar-se d’un problema de combinatòria, la seva natura exponencial no permet una aproximació simplista que assegurés que la solució calculada fóra l’òptima. Hi havia la infundada esperança que una programació de baix nivell ho fes possible; fetes però les proves, es constata que no és aquest el cas. Caldrà doncs desenvolupar una algorítmica que sinó garanteixi el resultat òptim (la forma de la funció a optimitzar és desconeguda) permeti trobar-ne solucions prou efectives.

Per el que fa al Fons Cathalaunia, s’ha completat l’entrada dels documents de l’any 892 i encetat l’any 891 (amb un text manipulat al segle XI, prou difícil i interessant, tot sigui dit). L’interval fins ara completat és doncs: 892-914, i el nombre de documents està en els 772.

I finalment, un altre front no visible que ha rebut bona part de la tasca d’aquest mes, està en la programació de les bases per automatitzar la generació de grafs interactius. Grafs que s’han anat utilitzant en aquest bloc – però no en el web-, tant per parlar dels cens de la Gòtia del segle X, com de les repeticions en el corpus epigràfic ibèric, i per els que es contemplen encara més usos en un futur. El que s’ha preparat, són les bases per poder-ne automatitzar la seva creació, pas imprescindible per poder incorporar-los en el Fons Cathalaunia. Un dels ideals que es persegueix, és aconseguir implementar la capacitat de navegar entre tots els continguts del Fons de manera gràfica. Imagineu que en la fitxa de cada persona o lloc del Fons podem accedir graf del seu univers documental – és a dir, la visualització de totes les dades relacionades amb ell – , graf, que al seu torn ens permet passar a qualsevol de les dades presentades i per tant, poder continuar la navegació entre grafs. També hi han altres usos en perspectiva, com la capacitat de visualitzar gràficament els resultats dels sistema de cerca textual dins la Bibliografia i de permetre nous refinaments en la navegació dels resultats, però això, actualment és d’ús intern, i encara està en el regne dels desitjos…

El que sí ha rebut poca activitat ha estat l’apartat bibliogràfic. Ja ho varem comentar, l’acumulació de lectures pendents, derivades de la darrera recerca històrica realitzada, fa que la tassa de noves incorporacions s’hagi de reduir a mínims. Amb tot, es llisten les novetats bibliogràfiques del mes, que com sempre, van per seccions[1]:

Secció Bibliografia de l’Êpoca Ibèrica i Romana:

Secció Bibliografia de l’Êpoca Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia Vària:

A la fi del mes, cathalaunia.org presenta 21.218 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathalaunia.org, estadística, Fons Cathalaunia, grafs, Iberika, programació, prosopografia, recerca, Semblances interdocumentals | Etiquetat com a , , , , , , , , , | Deixa un comentari

Otger Cataló al segle XI.

Que Otger Cataló és el pater patriae català per excel·lència, no és cap novetat, però dir que ja ho era al segle XI, sí. Més que res, perquè dinamita la noció historiogràfica, en voga des de fa uns quants segles, segons la qual el personatge era una invenció per ‘explicar’ el corònim Catalunya, ergo, posterior a la seva aparició documental en els inicis del segle XII[1]. Vagi per endavant que la formalitat del que aquí tractarem, qui ho desitgi, la pot trobar en un breu article nou: El Castell Otger de Montserrat”, que ja vàrem anunciar en el resum del mes anterior. Peró voldria començar per un punt aparentment desconnectat.

No és infreqüent en la pràctica historiogràfica, que l’esment o cita d’historiadors antics, de segles passats, desperti comentaris displaents. Entenc la raó usual: la ciència històrica ha avançat molt i els treballs antics tenen l’inconvenient d’estar farcits de nocions actualment superades; però la veritat, és que sempre m’ha semblat un raonament extremadament simple. En primer lloc, perquè implícitament anul·la la durabilitat de l’obra de qui així es manifesta – es evident que res impedeix que el ‘criteri actual’ no sigui considerat ‘superat’ d’aquí cinc cents anys – i per tant és una posició acadèmicament suïcida en el plaç llarg; però especialment, perquè la seva pitjor derivada és estendre, en el plaç immediat, la perniciosa noció de la futilesa dels treballs i la intel·ligència del nostres predecessors.

Pot semblar un comentari extemporani, però és que és el cas, per una banda, que sense la voluntat i l’interès per l’obra i el pensament d’historiadors passats, aquest apunt no existiria – altra cosa és si això es bo o no -, i per l’altra, que he de confessar un neguit personal quan veig que la gent nova – i no tan nova – dóna per suposat un mite, fill de la Il·lustració, tant poc fonamentat com el del progrés – quelcom que les Humanitats, entenc que han de mirar d’evitar- i troba ben natural ignorar l’obra dels pensadors precedents, emmetzinant-se amb el miratge d’un coneixement sempre creixent . Com si Mnemòsine no tingues al Leteu com contrapartida! O com si l’oblit no existís i la ignorància no fos la norma; contra què sinó lluiten Clio i les seves germanes!?

Va ser tot examinant la figura d’Otger Cataló, que repassant el que havien dit sobre ell els autors més reculats, vaig trobar la perla, que aquí comentaren, que no es altra cosa que un Otger, a casa nostra, mitificat ja als inicis del segle XI. No entrarem en la temàtica global de la figura del de Cataló, tota vegada que és massa àmplia per un apunt breu com és aquest i perquè forma una part de la recerca feta recentment, esperem parlar-ne en el seu moment.

Gregorio de Argaiz, al segle XVII, va ser el millor historiador de la muntanya de Montserrat, i va ser en la seva: “La Perla de Cataluña – historia de Nuestra Señora de Monserrate” que relacionà explícitament un indeterminat Castell d’Otger, en la muntanya, amb la figura del de Cataló; la referència a la seva obra vingué de la cita que d’ell en féu en Miquel Coll i Alentorn en el seu treball: “La llegenda d’Otger Cataló i els Nou Barons”.  Entrem en matèria.

De castells, a Montserrat, se’n coneixen des del segle IX[2].; però entre ells, l’anomenat d’Otger, mai ha estat localitzat, tot i saber-se amb una gran precisió la seva pretesa situació. La muntanya passà a mans cristianes en temps del Pilós – fet, però, que no eliminà completament la influència musulmana, de la qual en quedaren abundants traces[3]. – i entrà en la jurisdicció dels comtes i  – especialment dels – vescomtes de Barcelona que controlaren ja de bell antuvi el castell de Guàrdia.

El cas de la manca de localització, però, del castell d’Otger, és estrany atès que es suposava haver estat en el lloc – o a prop – de la posterior ermita de Santa Magdalena, en la regió de Tebes. Ja en temps d’Argaiz, la situació del dit castell, era desconeguda per els propis habitants de la muntanya. De fet, l’ermita de Santa Magdalena – actualment, a penes unes poques restes – tradicionalment ha estat coneguda com l’Ermita del Castell, i abans del segle XV ja havia estat prèviament destruïda, tota vegada que llavors se’n té notícia de la seva restauració[4]. – i possible trasllat a menys de 600 passes del lloc original -. De manera que si sabem on era, quin problema hi ha? Que el fa especial?

Segons Coll, i com ell, molts altres historiadors anteriors, com en Francesc Carreras i Candi, la resposta seria: res. Hauria estat un castell que va ser destruït en una etapa molt primerenca, i el nom d’Otger, és de suposar que li vingué del seu constructor o senyor en un moment determinat, res d’especial. L’associació amb el de Cataló, en tot cas, seria cosa d’Argaiz, així de senzill – col·loquialment: ja se sap, llavors es creia en mites com Guifré d’Arrià, Otger Cataló, els falsos cronicons, etc… -. Els problemes apareixen quan un obvia l’opinió establerta i passa a analitzar els detalls; llavors, la cosa canvia.

En primer lloc, els esments coneguts al dit castell, tots ells en delimitacions territorials,  es limiten a un document del segle XI i tres del segle XIII. Cal pensar que en algun moment entre els segles XIII o XIV s’hi construí l’ermita dedicada a Sant Antoni i Santa Magdalena, l’Ermita del Castell, ja que el segle XV vèiem que ja havia necessitat d’una restauració total, i que acabaria donant nom als merlets entre els que se la situà: Les Magdalenes. Però el què ens és significatiu per el que aquí ens concerneix, és que cap dels quatre esments coneguts al Castell Otger l’identifica com una construcció sinó com un element orogràfic o genèric:

Any 1042: …et de meridie ascendit ad ipsas pennas que vocant castro Odgario et sic pervadit per ipsas pennas usque …
Any 1211: …& per vadit per ipsum serradal de castel Otger, usque…
Any 1215: …Sicut extenditur de terminis firmatis. Et de Castell Otger … Sicut extenditur de castello Otger , & terminis fixis in antea versus ductum torrentem de Vallmala versus dictum Monasteriun Sanct. Mariae…
Any 1242: …unas tierras en la quadra de Sn Miguel, que de oriente afrentan con el rio Llobregat y de poniente con la cierra de Castell Otger,..

El més reculat, és el més específic, tota vegada que l’identifica explícitament com el nom d’uns merlets (ad ipsas pennas que vocant), és a dir, no està parlant d’una construcció humana, un castrum, un oppidum, sinó d’una analogia entre uns rocams imponents i un ‘castell’ – una antropomorfització del paisatge[5]., inevitable, per altra banda en un indret com Montserrat – . Tractant-se doncs de la muntanya de Montserrat i de merlets, era obligat passar a la geografia i mirar de què carai estàvem parlant.

La situació de l’ermita de Santa Magdalena és ben coneguda. Les seves restes estan entre les agulles homònimes (Superior i Inferior), que flanquejades per la Gorra Frígia i la Gorra Marinera, conformen el grup de les Gorres – o zona de Tebes – que corona la vall de Santa Maria – o Vall Mala – on hi ha el monestir.

les-magdalenes-montserrat-mapatopofoto

Vista aèria i planimetria sobreposada del grup de Les Gorres
amb la situació de l’ermita de Santa Magdalena - ICGC -
El diàmetre interior indica la situació de les restes actuals i
correspon a uns 25 m., corbes de nivell cada 10 m.
El Monestir de Santa Maria es troba en direcció est-nord-est, fora del quadre de la imatge.

L’ermita (cota 1.090) està en la part més enlairada d’una canal, entre les agulles més altes de la part sud de la muntanya, i l’accés, s’ha de fer via unes escales tallades en la roca (Escales de Jacob, en la canal que baixa en direcció sud fins el camí a Sant Joan); és a dir, en un lloc inaccessible per a qualsevol tipus de muntura. La vista sobre el monestir és certament esplèndida – es diu que s’hi senten els cants dels monjos -, com és immillorable la vista al sud i occident de muntanya des de la Miranda de Santa Magdalena, quaranta metres més amunt (cota 1.130). De manera que el que tenim és una localització completament inviable per un castrum, una fortificació; ni hi ha espai, ni accés, ni lògica estratègica – mes enllà de la funció de guaita -, és per això que usualment es suposa que en el millor dels casos, hi podria haver-hi hagut una torra de vigilància – encara que la pròpia orografia la fa certament innecessària -. I és així que la idea d’un Otger construint i donant nom a una fortificació en la part més enlairada de la muntanya es mostra completament improbable, a l’hora que s’entén que mai s’hagin localitzat les seves restes, així com l’absència de cap terme castlà associat a la seva inexistent jurisdicció en la documentació local, i que la literalitat dels esments dels texts, prenen finalment sentit, al no parlar mai de construccions sinó d’orografia.

Situem-nos sobre el mapa i llegim les afrontacions del primer esment:

..de ipso mont quadra I. terminata et resonant ipsi termini de parte horientis in auleo Lubricato et de meridie ascendit ad ipsas pennas que vocant Castro Odgario et sic pervadit per ipsas pennas usque in fundus de ipsa valle que vocant Foradada. Et de occiduo sic ascendit per ipsa valle iam dicta usque ad ipsa Palomera. Et pervadit ad ipso Salzil. De parte vero circii resonat ad ipsa cella, et descendit per ipso torrent de Vallmala usque in alvo Lubregad…

montserrat-topolab

Afrontacions quadra de l’ any 1042 (relleu de GoogleMaps). En blau, limit est, groc, limit sud, negre, limit oest, i vermell, limit nord.

Com és propi de la tradició notarial clàssica, les afrontacions segueixen un esquema quadrangular a partir dels punts cardinals, encara que la realitat a delimitar potser no sempre s’hi ajusti massa bé. A més, tenim la dificultat afegida que no tots els elements que s’esmenten estan plenament identificats. El text es suposa fet a Sant Miquel (mater ecclesia Sancti Michaelis, archangelorum principis, de Mont Serrad).

En blau, el limit est, és evident: el riu Llobregat. El sud, en groc, diu que puja fins les penyes anomenades Castro Odgario i travessa (pervadit) fins el fons de la vall anomenada Foradada. Sabem que el Castell d’Otger correspon a l’actual ermita de Santa Magdalena, en els cims del sud de la muntanya, entre les agulles homònimes, però la vall de Foradada, per context, sembla correspondre’s amb el poble d’El Bruc – el conjunt de l’actual Foradada i Cadireta estan en l’extrem nord-occidental de la muntanya, i per tant, no semblen bons candidats -. Passant al límit oest, en negre en el mapa, el que sí encara existeix sota el mateix nom, és la Palomera, en el vessant occidental de la muntanya, i des d’allí, segons el text, travessa (pervadit) altra vegada fins un Salzil[6]. que fins el moment no he sabut localitzar, però si atenem a la orografia, potser estigui resseguin la canal que des del peu de la Palomera puja fins el costat de Sant Jeroni – era aquest el Salzil del text? si algú en té alguna idea, s’agrairà qualsevol indicació -. El limit nord, en vermell, torna a estar més o menys clar, ja que a partir del Salzil aquell, va a buscar el monestir de Santa Maria en el torrent de Vallmala i baixa fins el Llobregat, tancant el perímetre.

El límit oest resulta força imprecís; depenent de quina roca o indret fos aquell Salzil, la delimitació de la Palomera al monestir i el Vallmala pot variar; el primer pervadit, indicava el traspas del vessant est del massís al  de l’oest, el segon, sembla indicar un retorn fins el vessant esquerra del torrent Vallmala. Tampoc és gens precisa la delimitació sud. Està potser feta a partir de camins antics que sortint del Llobregat i del Bruc pugessin als cims del Castell Otger ? O potser vol indicar tot el massis sud de la muntanya i l”ascendit‘ aquell cal entendre’l en un sentit merament retòric, i la vall Foradada es refereix a les coves de la vessant sud de la muntanya – Collbató, etc – ? Fins no identificar bé aquesta vall Foradada i aquest Salzil, el dubte romandrà. Però al costat d’aquests dubtes, sí veiem que hi han elements prou ben localitzats, així que posem-nos ara peu a terra i anem al monestir de Montserrat, a veure de què estem parlant.

De manera gràfica, i per captar-ho amb un sol cop d’ull:

montserrat-castell-otger-llapis-texts

El Castro Odgario del segle XI.
Quin Otger abans de l’any 1042 podia haver donat nom a aquests merlets?

Quin Otger podia haver habitat en un castell format de quatre merlets, que, a més, literalment, coronen la vall del monestir[7].?

Otger no és un nom aliè a la família dels vescomtes de Barcelona, en sabem d’un a inicis del segle XI, per exemple. Però, algú pot creure que el vescomte possés el seu nom al cim del la muntanya sagrada del país? Sols els àngels viuen en les alçades en la simbologia religiosa – noció explicitada en aquest cas, encara que sia de forma anacrònica,  fins i tot en el nom dels verticals graons que menen a l’ermita en ell construïda: ‘Escales de Jacob‘ -; els àngels, o les figures mítiques, com el gegant Rotllà que deixarà petja en els segles següents per tota la toponímia del Pirineu. Aquest Otger no és menys gran ni menys enlairat, de manera que la pregunta és molt directa, molt punyent. I sincerament, situat en el Montserrat d’inicis del segle XI, no puc sinó donar la raó a Gregorio d’Argaiz i atribuir-ho, com ell, al de Cataló[8]..

Ara, les implicacions d’un Otger així mitificat ja en el segle XI, obren una finestra completament inesperada a la simbologia dels primers comtes catalans, i de retruc, al del seu context. El monestir de Montserrat, encara que amb una data de fundació incerta – els esments al Pilós són recurrents, ja que fou ell qui representa que recuperà la muntanya per a la cristiandat -, es considera ser essencialment obra de l’abat Oliba, encara en vida en escriure’s aquest primer esment comentat. Que en temps d’Oliba existís un Otger sublimat fins el punt d’habitar en un castell simbòlic[9]. en lo més alt de la muntanya sagrada dels país, obre unes perspectives absolutament sorprenents, que, de fet, trobo que ens acosten més al que ens deien aquells historiadors antics, que diem tenir tan superats, que al que han anat repetint molts altres autors posteriors.

No me’n puc estar de dir-ho: és aquesta capacitat per oferir comprensions – a voltes fins i tot inesperades o sorprenents, però sempre interessants – sobre el nostre passat, que trobo realment fantàstic de l’estudi de la Història…!


Notes

  • [1] Any 1114, al Liber Maiolichinus.
  • [2] Collbató (s.XII), La Guàrdia (s.X) i Marro (s.IX).
  • [3] No sols en la toponímia, sinó fins i tot en l’element mític. Una de les principals llegendes de la muntanya, la de Fra Garí, té entre els seus components, elements coneguts en l’al-Andalus del segle X, i per tant, fa sospitar una gènesi probablement local i antiga.
  • [4] Liber de reformatione hujus monasterii. : “In reparatione et ampliatione Haeremitorium Castelli Sanctae Magdalenae et Sancti Antonii qui omnino destructae erant”.
  • [5] O potser seria més prescís parlar de pareidolia.
  • [6] Fins i tot l’etimologia del terme resulta dubtosa fins ara. Es tracta d’una derivat del salix (salze)? O potser és una reminiscència aràbiga?
  • [7] Diguem-li casualitat si voleu, però en aquesta imatge, no m’hi costa gens de veure-hi quatre barres, dues barretines, i a més, ara, enmig, resulta que a l’alta edat mitjana hi veien el castell d’un Otger…
  • [8] Un altre Otger mític, podria ser el Danès, que la Chanson de Roland situarà al costat de Carlemany en la desfeta del 778, però malament se li pot assignar una popularitat tal a inicis del segle XI, ni menys atribuir la legitimitat simbòlica per estar en tal lloc.
  • [9] No me n’he pogut resistir al veure una notícia del 2014-VI-21: Que als catalans ens agraden els castells, no és cap novetat , com tampoc ho és que els tenen molt grossos.
Publicat dins de abat Oliba, Castell de Guàrdia, Castell Otger, Clio, Collbató, El Bruc, Ermita del Castell, Escales de Jacob, Francesc Carreras i Candi, Gorra Frígia, Gorra Marinera, Gregorio de Argaiz, Guifré d'Arrià, Guifré Pilós, La Palomera, Les Gorres, Les Magdalenes, Leteu, Llobregat, Miquel Coll i Alentorn, Mnemòsine, Monestir de Montserrat, Monestir de Santa Maria de Montserrat, Montserrat, Otger Cataló, Pirineus, Rotllà, Salzil, Sant Miquel, Santa Magadalena, Tebes, Vall Foradada, Vallmala, vescomtes de Barcelona | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari