Semblances documentals (5).

En el darrer apunt d’aquesta sèrie, havíem vist com el mètode de transformar les paraules dels documents altmedievals a una forma simplificada, per tot seguit esmicolar la versió dels texts resultant en grups d’entre 3 i 40 paraules consecutives, permetia la detecció de segments dels texts – usualment petits – dins dels quals pràcticament mai es donaven separacions o talls en una segmentació manual feta sobre els mateixos texts – segmentació aquesta, realitzada usualment seguint les frases del document -.  Ja llavors advertíem que aquests grups es podrien utilitzar per definir les parts comuns de les formulacions dels suposats formularis que molts dels texts en el corpus semblen seguir; i també fèiem esment que fins llavors, encara no s’havia tingut en compte el fet que les paraules poden ser més o menys usuals. Continuem a partir d’aquí.

Per a cada fragment de n paraules, tenim calculat un índex normalitzat a 1. de la seva presència en els documents del corpus estudiat – els primers 743 documents del Fons Cathalaunia -. Com que cada paraula del fragment, apareix en el global del corpus un nombre concret de vegades, una freqüència determinada, li podem associar una probabilitat a base de dividir aquest nombre per la mida total, que ens donarà un valor entre 0. i 1. i si convé, el podem invertir a base de sostreure’l d’1. Això és per paraula, però les mesures de semblances estan calculades sobre grups de paraules, ens cal doncs definir una manera d’aplicar aquests coeficients de paraula als grups on hi apareixen.  L’objectiu es tenir unes mesures de semblança entre fragments que hagin incorporat el fet que algunes paraules són més freqüents que altres.

Si diem que un grup determinat té n paraules, tenim un nombre indeterminat de maneres de combinar els seus factors; per exemple, si ho tractem com una probabilitat, podem calcular un coeficient de grup a base de multiplicar el seus n components. Aquest procediment, generarà coeficients més baixos quan més gran sigui el grup, és a dir, penalitzarà les agrupacions llargues. Per altra banda, podem cercar la mitjana, que ens pot donar valors similars entre grups de mides clarament diferents. Peró podem mirar d’anar una mica més enllà si pensem que, de fet, si bé les paraules que apareixen en un únic document – i per tant tenen el coeficient més baix – no ens són de cap servei tota vegada que estem cercant repeticions i que per tant podem simplificar i reduir els seus coeficients directament a 0, per la banda alta, també passa quelcom de semblant, tota vegada que un terme que aparegui en tots els documents, tampoc ens serà de cap servei si el que volem és detectar agrupacions. Podem per tant, definir un coeficient de grup com la mitjana dels valors de cada paraula del grup amb el benentès que aquest valor de paraula pot haver estat reduït a 0. si es inferior a un percentatge de documents mínim o superior a un percentatge de documents màxim. Les proves que segueixen,  estan fetes anul·lant les paraules que apareixen un únic document, i les que apareixen en més de la meitat dels documents (306 , tota vegada que del 743 documents originals n’hi han 41 sense text) i fent la mitjana del conjunt. Aquests percentatges de tall, i en especial per el que fa al màxim, depenen de la variabilitat existent en el corpus; en el cas estudiat aquí, és tan alta, que no es pensa que hi pugui haver-hi una meitat de documents d’una mateixa tipologia, d’aquí el fet d’adoptar aquest factor de tall, en altres corpus, caldrà adaptar-lo per tal que estigui per sobre del grup més nombrós. Un dels primers efectes que trobarem, comparant amb les gràfiques fetes en el darrer apunt, és que aquests coeficients ‘correctors’ no faran sinó deprimir els valors. Gràficament, sobre el mateix document que en l’apunt anterior – una venda en la Terrassa d’inicis del segle X[1] -:

dodi2-d00005-9Les corbes rosa corresponen als valor màxims de cada paraula, i les vermelles als factors de discontinuïtat. El valors alts corresponent als coeficients que havíem calculat en l’apunt anterior, i els baixos, als nous valors un cop incorporat el factor de la freqüència de les paraules. Per facilitar la lectura, ens oblidarem del valor previs i escalarem arbitràriament els nous valors; tindrem:

dodi2-d00005-10Que com es pot veure, si bé el gràfic té punts de contacte amb els valors previs, no són pas idèntiques; el més important, és que els talls manuals (els pics negres) no tallen gairebé cap de les petites terrasses que els valors màxims (la corba rosa) formen. Tenim doncs, que les parts planes de la corba rosa ens indiquen un conjunt de paraules consecutives diferents del còmput anterior sense incorporar les freqüències de cada paraula. Cada un dels mètodes de càlcul del factor corrector segons freqüència esmentats abans ens donarà una gràfica lleugerament diferent. Caldria fer proves exhaustives amb cada una d’elles, però de moment ens limitarem a la ja descrita de mitjana amb limitació per màxim i mínim.

La idea, ara, es doncs veure cada document com una rosari o una cadena d’aquests pics de valors màxims, per fer-ho, ens limitarem a seleccionar les paraules que en la corba de valor màxim, siguin estables entre més d’una paraula consecutiva. El mètode és molt simple, i probablement fora preferible utilitzar un que es fixés en la forma de corba, per detectar sols els pics, cosa que aquest procediment no fa, tota vegada que també incorporarà valls planes si hi són, però de moment, mirem a veure els resultats. Per fer-ho clar, ho mostrem sobre el text del document en colors alterns. Els grups de paraules seleccionades són:

In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus […] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
Recosindus hanc carta vindicione scripsi sub die & anno quod supra.

Tenim doncs uns conjunts de paraules de més d’una paraula consecutiva que ens pot servir per esquematitzar encara més el texts. Processem tot el corpus aplicant aquest mètode i el resultat és per una banda un conjunt de fragments de mida variable (més gran d’1) que es van trobant en els texts, i per altra, tenim cada text expressat com una cadena d’aquests fragments. Com que el corpus és limitat, podem establir per a cada fragment, quins altres fragments apareixen just després d’ell, i construir unes cadenes de Màrkov que expressin la probabilitat que donat un fragment X, el següent serà un fragment Y.

La idea és que les fórmules d’un formulari, es podrien expressar en unes tals cadenes. Cal doncs, analitzar i cercar les agrupacions d’aquests nous fragments.

En classificació estadística, hi han dues menes de problemes, els que intenten classificar un nova dada segons la informació present en unes dades anteriors (usualment conegut com aprenentatge dirigit o supervisat) i els que donat un grapat de dades intenta extreure’n la seva estructura o ordenació subjacent (conegut com aprenentatge no dirigit). Si per exemple, en aquest corpus hi haguéssim afegit per a cada document un valor de ‘tipologia documental’, seria bastant fàcil determinar per a un document nou, desconegut, a qui tipus té més probabilitat de pertànyer. O per exemple, extreure quines són les formulacions textuals que diferencien les diferents tipologies. Aquest seria el cas fàcil – si més no per el que això escriu, que ha gastat alguna neurona dissenyant i programant classificadors d’aprenentatge dirigit -; aquí però,  ens trobem en un cas d’aprenentatge no dirigit. Tenim un grapat de dades i hem de destriar-ne la seva estructura. La majoria de classificadors d’aquesta mena, treballen a partir d’alguna assumpció inicial – per exemple un nombre màxim de classes o tipus – i usualment a partir d’uns valors inicials aleatoris, els van modificant per tal que una funció definida sobre ells, intenti distribuir els exemples del corpus a processar entre el nombre màxim de classes definides. Un altre manera de visualitzar aquesta mena de classificadors, és, projectant cada dada en un espai n-dimensional i visualitzar-ne les agrupacions, ja que en el fons, essencialment del que estem parlant és d’un problema de partició.  Una de les eines que hem emprat en aquest bloc per visualitzar dades sobre el cens de la Gòtia del segle X, és el càlcul de grafs, i associat a ell, el càlcul de Modularitat, que permet destriar les agrupacions topològiques existents dins d’un graf – bàsicament: grups de nodes amb més connexions entre ells que amb el seu entorn -. Les tècniques i el algoritmes possibles són infinits, però ens limitarem al que les eines que emprarem llavors  i que el programari Gephi ens facilita.

De manera que el que farem serà mirar d’expressar la informació dels fragments seleccionats de texts i la seva interconnexió en forma de graf per analitzar-els i poder-los visualitzar. Les convencions emprades per defecte en els grafs següents són: utilització de l’algoritme ForceAtlas2 per la disposició dels nodes, coloració a partir dels grups detectats en el càlcul de Modularitat i mida segons grau d’Intermediació. Recordem que l’algorisme de distribució de nodes, tendeix a allunyar els grups els uns dels altres, de manera que en la part central dels grafs, usualment, hi trobarem també la part comú o menys ben definida.

La primera cosa a provar és el ben senzilla. Què passa si convertim cada fragment de text diferent en un node i els connectem seguint les cadenes de Màrkov de cada un d’ells? El resultat, és:

parts-22789-32554-th

22.789 fragments i 32.554 connexions.
Versió SVG.

Com es pot veure, un bon garbuix, que serà però molt alliçonador d’analitzar.

En primer lloc, veiem que el nombre de fragments diferents es altíssim, més de 20.000, efecte degut a què el mètode emprat, de seleccionar les parts planes de la corba de màxims, ha generat molts grups de dues paraules i que sols existeixen en un únic document. En el graf es pot apreciar com un gran amàs central es veu rodejat de moltes cadenes de nodes amb un únic enllaç entre ells. És evident que donat que estem cercant repeticions, tota aquesta informació no ens aporta res.

Un segon aspecte a fer notar, és que en el graf, els colors indiquen els grups que el càlcul de Modularitat ha trobat – en aquest cas hem emprat un factor de modularitat alt (10) per tal de mirar de reduir el nombre de grups detectats (34) -; els nodes grocs formen un 30% del total, els blaus un 20%, els verds i vermells al voltant d’un 7% cada un, i la resta, són lògicament agrupacions molt petites. Ara bé, resulta difícil dir a que responen aquests grups, més que res perquè són tan grans que resulta difícil captar quin patró comparteixen. Això passa amb tots els grups grans, tret d’un, el verd, en el quadrant sud-oest, tota vegada que aquest sí és fàcil d’identificar ja que es tracta d’una errada en el procés de codificació dels texts! Si bé la majoria de documents analitzats no arriben – sovint ni de bon tros – al miler de paraules, n’hi ha un, el D00007, la narració del monjo Aymo de Saint Germain-des-Prés sobre la translació l’any 858 de les restes dels màrtirs de Còrdova, Jordi, Aureli i Natalia, que passa dels 16.000 mots, i en el qual, resulta que es barrejà el format amb el text – encara ara està pendent de renormalització -. De manera que coses com ‘Font Family Times New Roman‘ s’inseriren en el text ‘liofilitzat’[2]. Els amàs verds, en són la seva expressió gràfica. Però més enllà d’aquesta particularitat, el graf resulta de molt poca utilitat per la tasca que ens ocupa per la dificultat que dèiem d’identificar les agrupacions.

El següent pas, serà doncs, eliminar tots els fragments que sols existeixin en un únic document, i tornar a generar el graf markovià dels fragments repetits. El resultat és:

rparts-1750-9144-md2-th

1.750 fragments repetits amb 9.144 connexions i 6 classes.
Versió SVG.

Aquí ja tenim una estructuració més clara. El càlcul de Modularitat (amb una constant de 2.) ha detectat 6 agrupacions – la sisena sols ocupa un 1% del fragments – . Si fem un cop d’ull a la versió SVG, que permet fer un zoom gairebé infinit[3], es poden llegir les literalitats de cada un dels fragments. En descrivim breument els grups majors.

La més nombrosa, en groc, amb un 33% de nodes i  a la dreta del graf, agrupa expressions que potser la millor forma de definir-la seria dir que estan relacionades amb afrontacions. En la part extrema dreta tenim la modalitat d’enumeració per ‘costats’ o ‘lateralitats’ , latus : de alio latus, latus terra ANTROP, latus fines de, etc. En la part inferior a aquesta, tenim la modalitat per fronts,  fronte: alio fronte, fronte terra ANTROP, alio fronte via, etc. I en la part encara més inferior, a tocar amb la zona del nodes blau clars, la modalitat per punts cardinals: meridie in vinea, afrontat de oriente, occidente in, circi in vinea, etc. Ara bé el grup és força més complex que un recull de modalitats d’afrontacions, en la part superior, per exemple, tenim un bon grapat d’expressions relacionades amb la descripció de les parts en contractes de compravenda: ANTROP ANTROP venditores, fratribus ANTROP hemtore, Christi nomine ANTROP uxor, venerabilis abbas ANTROP praeesse, etc; o de descripció dels bens transmesos en la part més central: res in pago, pratis sylvis exiis, in comitatum TOPON, ad ipsos manso, etc. Un grup doncs, molt nombrós i lògicament d’ampli espectre temàtic.

El següent en quantitat de nodes (30%) és el grup blau fosc a la banda esquerra del graf i està clarament relacionat amb els escatocols. En l’extrem esquerra, hi trobem signatures: ANTROP SSS, roborandum signum ANTROP, firmare rogavimus, SSS ANTROP SSS, Chrismo ANTROP presbiter, etc. Just a sobre, fragments relacionats amb la signatura de l’escrivà, coses com: ANTROP archipresbiter, scripsit datavit, donation ista escribere, ANTROP rogatus subscripsit, etc. En la part més inferior, fragments de clàusules de salvaguarda: inferam vobis, fuerit dupla vobis, firmis estabilis permaneat, perpetim abitura in, venerit ad inrumpendum, etc. Ara bé, a semblança del grup anterior, el grup és més nombrós que aquestes seccions aquí comentades, i d’acord amb la mecànica de la disposició de nodes per correlació de forces, quant més al centre, més interrelacionat amb la resta de grups i per tant, menys ben definit.

El tercer grup, el verd, amb un 13% de nodes està en la part superior, i clarament interrelacionat amb els grups blau, comentat abans, i amb el grup vermell, que amb una forta dispersió és el quart amb un 12% de fragments. Sols els conjunts més externs permeten una lectura clara. En la part baixa i externa del grup verd tenim fragments de datacions per rei franc: domino ANTROP regem, domino nostro ANTROP, ANTROP gloriossisimo rege, etc. Pujant per el grup, hi trobem els quantions : indictione NUMB, NUMB cal, etc. I encara més amunt, fragments de signatures reials: firmitatem manu propria, anuli nostri, eam firmavimus anulo, etc. Finalment, en la part més alta, fragments de proemis de diplomes reials: Si necesitatibus atque, fidelium nostrorum praesentium, loca divinis cultibus, etc. En la par superior, el grup verd es barreja amb el vermell que en aquesta part nostra fragments relacionats amb institucions religioses, en especial, Sant Julià de Brioude, que utilitza en aquest període unes formulacions molt característiques: ANTROP inclytus martir, ANTROP recto praeesse, praepositus ANTROP decanus, etc; però de nou, quan més ens movem al centre més augmenta la dispersió temàtica.

Queda per remarcar el grup blau clar situat al fons, que a diferència dels altres grups, sí presenta una millor definició temàtica; es tracta de les clàusules de preu i transmissió de bens i drets: precium aput vos, ipso precio apud, remansit est manifestum, omni integritate, tu entor nobis, quod vos emtores, vinditio de presente, in res valentem, in vestro trado dominio, tuoque tradimus dominio, dominio et potestate, ab odierno, etc.

En conjunt, sembla evident que tenim un conjunt de dades fortament interconnectat i que si bé se li poden detectar àrees temàtiques, el seu nivell global d’estructuració no és massa elevat. Fet també lògic si pensem en la dispersió tipològica del corpus analitzat. Fem un pas més enllà i ajuntem a aquest graf, els documents on existeixen cada un d’aquests fragments. És a dir, creem un tipus nou de node, que representant cada un dels documents del corpus, el connecti amb els seus fragments. La idea és combinar l’atracció entre el nodes segons les seves cadenes de Màrkov, que és el que hem fet abans, amb la dels fragments versus els seus documents, a veure quines agrupacions ens detecta. A diferència dels grafs anteriors, la mida dels nodes reflectirà – més enllà de l’etiqueta – el tipus: els grans són els Documents, i en la versió SVG del graf permeten accedir als propis documents fent-hi un clic. El graf resultant, extremadament interessant,  és:

rpartsd-2419-21184-th

Fragments repetits i Documents, 2419 nodes i 21.184 connexions.
Versió SVG.

Els grups detectats en el càlcul de Modularitat (factor=1.) són 10, però sols els cinc primers superen el 10% de nodes i el més nombrós, en conté un 22%. L’estructuració dels grups (la separació per colors) és força més clara que en graf anterior format sols per les connexions de contigüitat entre els fragments, i mereix un comentari en detall.

Començarem per un aspecte poc rellevant. Hi ha un nucli verd fosc a la dreta de la part superior del grup verd, que presenta unes fletxes de mida desproporcionades: correspon al error de codificació del Font Family Times New Roman comentat abans; al damunt de l’error humà de la codificació, s’hi ha sumat el fet que l’exportació en format SVG del Gephi té problemes en dibuixar les fletxes als extrems de les connexions (segons com o no les dibuixa, o les fa de mides errònies) .

Passant ja als grups majors, el groc, a la dreta, acumula documents amb transmissions de bens immobles en la Gòtia; la majoria, compravendes a Osona. El petit grup taronja, situat en la part superior del groc, són també de tema immobiliari però centrats en Pallars i Ribagorça, fent palesa la seva diferenciació i a l’hora proximitat estilística amb la resta de la Gòtia. El grup verd, a l’extrem esquerra del graf correspon majoritàriament a diplomes reials, tant de reis dinàstics, com d’Odó o de l’emperador Lluís el Cec. Els dos grups blaus dels fons del graf, corresponen respectivament a documents aquitans i borgonyons. En blau fosc els primers, amb referències d’Alvèrnia, Roergue o Llemosí, i en blau clar els de Borgonya. Per la part superior, els dos grups es barregen i hi trobem documents localitzats a Lió dins el grups borgonyó o de Nimes en el grup aquità; en conjunt, la barreja es centra en la zona del Roina. El grup aquità, és més dispers que el borgonyó i arriba a sobreposar-se al grup verd de diplomes reials; en aquest dispersió vers el centre del graf, el grup perd coherència tipològica, com era d’esperar.

Queden per comentar els grups menors o menys ben definits. En la part superior, una amàs força ben localitat de nodes en blau molt fosc, corresponen a regests, la majoria osonencs. El grup vermell, que quantitativament és força nombrós, presenta però una gran dispersió; la majoria de documents són de la Gòtia, i en ell hi trobem consagracions d’esglésies, donacions, i alguns documents de caire jurídic. El grup es dispersa vers l’àrea dels preceptes reials, on forma un petit amàs amb entrades procedents dels Annals de Ripoll. Falta comentar el grup verd clar, que no sent gaire gran, situa la seva major concentració entre els documents de les consagracions gòtiques, en vermell, i les compravendes de la Gòtia, en groc si bé amb ramificacions vers la part central, fent de frontera amb la resta de grans grups. El seu perfil tipològic en canvi és força clar; es tracta ni més ni menys que de documents relacionats amb contexts judicials i hi trobem tots els episodis famosos: Vallfogona, Revellus, Mocorono, etc. Encara que també es cert que en la seva dispersió, perd, com la resta de grups, coherència tipològica.

En conjunt, tenim un graf que ens mostra com és possible diferenciar tipològicament una majoria de documents en funció sols dels termes emprats. I recordem en aquest sentit, que l’aproximació emprada a penes ha utilitzat criteris lingüístics, i que per tant, la seva capacitat de comparació textual és molt i molt limitada; sembla evident que un major ús dels coneixements de la llengua llatina no pot sinó augmentar la fiabilitat i claredat dels resultats. Però també serveix per mostrar les seves parts comuns o interrelacions (per exemple, les connexions entre el grup borgonyó i el gòtic – les línies blau clares – són ben evidents, i mostren un grau de proximitat textual superior a la geogràfica. Consideració que en el procés d’entrada i incorporació de texts en el Fons, ha anat apareixent recurrentment i per motius diversos, des de per exemple, constatar que en la Borgonya del segle X, al frater llatí ja li dèiem germà, a coses com proximitats formals en compravendes de terres.

Tenim doncs, com dèiem, que el graf ens és extremadament útil, ja que és una prova de com es pot generar una classificació tipològica dels documents atenent a criteris completament quantificats, sense haver de recórrer a altres àmbits del coneixement. Si mirem el graf, veurem com en cada grup, a més dels documents, també hi tenim els fragments de texts més propis, i que per tant, millor definirien la pertinença al grup; cert és que no sols hi han fragments compartits entre els diferents grups, sinó que fins i tot,  en la part central, tenim una zona comú. És a dir, el graf no sols ens proporciona una tipologia documental quantificada, sinó una primera separació tipològica dels fragments; quins fragments són indicadors de quina tipologia. Però en aquest graf, recordem que els fragments anaven lligats entre ells per vincles de continuïtat, fet que potser distorsioni aquesta separació, podem mirar d’anar encara més enllà, i eliminar els lligams entre fragments – les cadenes de Màrkov – per deixar sols els lligams entre documents i fragments, per veure si tenim una classificació encara més clara. El resultat, es:

rpartsd-2419-12040-th

Documents i Fragments repetits, 2.194 nodes i 12.040 connexions.
Versió SVG.

Un graf força similar, amb 11 grups, dels quals sols els primers cinc superen el 10% de nodes i amb el més nombrós, amb un 19%, però amb diferències en la mida dels grups i per tant en la seva coloració. El mes gran, en groc, és el dels documents aquitans, en la part superior, mentre que el nucli vermell que es situa al seu costat correspon als documents de Borgonya. El grup gòtic, aquí és en blau fosc, i els únics grups que mantenen els colors són els verds, el dels diplomes reials i el més fosc de l’error de codificació i el blau fosc del dels regests. El grup de Pallars el trobem en blau clar, el dels documents judicials en verd clar i en rosa el de les consagracions. Tenim doncs la mateixa disposició general que abans, potser una mica més clara, en el sentit que la part central és més petita i que s’aprecien millor els subgrups existents dins els diferents conjunts calculats – per exemple, l’excrescència més a la dreta dels diplomes reials, en verd, correspon a diplomes de la Grassa -. I que la relació entre el grup gòtic i el borgonyó és més ben definida que amb el grup aquità, és veu més clarament, tota vegada que les línies entre el grup aquità i el gòtic passen per el centre del graf, és a dir, per la part més compartida, mentre que les connexions entre literalitats en documents gòtics i borgonyons (les línies liles i vermelles) van per l’exterior del graf i no són compartides amb la resta de grups (tret del de Pallars).

La darrera aportació d’aquest graf, és mostrar clarament que si bé es poden definir quantitativament grups tipològics, també existeix una zona central on també hi han un nombre no pas petit de documents que fan de mal classificar i que ve a evidenciar la varietat tipològica del corpus del Fons Cathalaunia analitzat.

Recapitulem.

Hem vist com a partir d’haver incorporat el factor de la freqüència dels mots en el càlcul de semblances realitzat prèviament, podíem seleccionar en base als valors màxims relacionats amb cada una de les paraules d’un document, un conjunt de fragments representatius, que habiliten la descripció simplificada d’un document com una concatenació de fragments. L’estructuració subjacent del graf format per les cadenes de Màrkov d’aquests fragments i dels propis documents, permet detectar quantitativament un conjunt de tipologies documentals majors clarament definides; en el cas concret estudiat aquí: transmissions immobiliàries en la Gòtia,  Borgonya i Alvèrnia, documents judicials gòtics i preceptes reials. Així com l’existència d’altres agrupacions menys clarament delimitades. És dir, podem avaluar quantitativament el grau de coherència tipològica del corpus estudiat.

Tornant al nostre objecte d’estudi, podem doncs mirar quins fragments es connecten sols a documents d’un cert tipus, i per tant, definir per dir-ho així, els maons, els components,  de la seva identificació formulària. I viceversa, cercar també quins fragments són compartits entre aquest grups majors per mirar d’aïllar les formulacions comunes o d’ús generalitzat.

Abans dèiem que una separació dels documents per tipologies permetria identificar més fàcilment les seqüències repetides derivades de la utilització de formularis propis de la tipologia. Doncs d’aquesta excursió al món dels grafs, n’hem retornat precisament amb això, una tipologia calculada per a cada document. Cert és que el conjunt és força sorollós, i ple d’ambigüitats, però la ruta es clara. Identificar per una banda els fragments que indiquen inequívocament cada una de les tipologies, i per l’altra, detectar els fragments compartits entre vàries tipologies, ja que és de preveure que les diferents tipologies compartiran alguns trets. A partir d’aquí, mirar de definir les formulacions comuns, i amb una mica de sort, mirar d’assolir l’objectiu de segmentar els texts de maneres semblants a les manuals.

Però això, encara s’ha de fer, i ja mirarem de comentar-ho en el seu moment, que per ara, aquest apunt ja és prou llarg.

 

Notes

  • [1]  Diplomatari de la cartoixa de Montalegre (segles X-XII)  D. 1
  • [2] Per si això fos poc, el mateix error es repetí – puntualment – en dos documents més… – porca miseria!
  • [3] Si més no, en navegadors que així ho permetin, per exemple, en el Firefox, cal ajustar uns quants paràmetres en la pàgina about:config: browser.zoom.siteSpecific a false per tenir zoom individualitzat per pestanya que és més convenient; i per incrementar el zoom efectiu, per exemple: posar zoom.minPercent a 10 i zoom.maxPercent, per exemple a 3000. i toolkit.zoomManager.zoomValues a .1,.2,.3,.5,.6,.7,.8,.9,1,1.1,1.2,1.33,1.5,1.7,2,2.4,3,4,6,8,10,12,14,16,18,20,22,24,26,28,30. La primera indica fins un mínim d’un 10% d’allunyament, la segona un augment màxim de 30 cops (3000%), i la tercera – i també imprescindible – indica els factors a aplicar cada cop que es puja o baixa el nivell de zoom (amb les tecles CTRL  i +/-), en aquest cas, entre .1 i 30.
Aquesta entrada s'ha publicat en Alvèrnia, aprenentage no supervisat, aprenentage supervisat, Aquitània, Borgonya, cadenes de Màrkov, cathalaunia.org, classificadors estadístics, detecció de formularis, estadística, Fons Cathalaunia, formularis, Gòtia, Gephi, Llemosí, Lluís el Cec, Mocorono, Odó I, Revellus, Roergue, segmentació textual, semblança documental, Semblances interdocumentals, SVG, Terrassa, Vallfogona i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s