Semblances documentals (3).

Aquest és un apunt de situació, no per presentar resultats, sinó per parlar del que s’està explorant en el camp del còmput de semblances interdocumentals en texts de l’alta edat mitjana. El dos primers apunts d’aquesta sèrie, ja van presentar les tècniques i resultats obtinguts en una primera aproximació. Resultats, que van semblar tan engrescadors que van animar a intentar anar més enllà i mirar de superar les limitacions del model llavors emprat.

En una primera aproximació, els text en llatí del Fons Cathalaunia, que en la seva incorporació al Fons havien estat segmentats manualment, s’havien processat algorítmicament per reduir les formes llatines a uns lemes mes simples que poguessin ser comparats mecànicament. El mètode era – i és – certament barroer, i podia – i pot – donar per iguals termes filològicament distints – i viceversa-, però el fet d’estar comparant cadenes de símbols, i no símbols individuals, fa que les probabilitats d’error acumulat disminueixin molt ràpidament; de fet, en els resultats no s’apreciaren cap mena d’efecte per aquest motiu. Però en el sistema llavors emprat hi havien a més dues limitacions bàsiques. Una primera, era que el texts i els seus fragments composants, s’havien definit manualment en el moment de segmentar el text per introduir-los en el Fons, i per tant, el criteri sobre el què s’estava comparant, no tenia una definició formal; el fet d’haver estat executat seguint uns criteris més o menys estables, però, feia que els resultats no es veiessin especialment compromesos. I la segona, que els noms propis, tant de lloc com de persona, no havien estat abstrets a una forma única, simbòlica, és a dir, es comparaven literalitats, i per tant, una frase com: ‘In pago Ierundense‘ era diferent d’una altra com: ‘In pago Barchinonense‘. Amb tot, el sistema de comparació sí detectava el grau de semblança, que en el cas de l’exemple estaria aproximadament en els 2/3.

De manera que el que s’està intentant és un objectiu també doble. Un de simple, que és convertir qualsevol antropònim en una forma fixe (per exemple: ANTROP), i el mateix per topònims (TOPON) i nombres en notació romana (NUMB). I el complicat, i en el que encara s’hi està treballant, és aconseguir definir un mètode que permeti superar la segmentació manual canviant-la per un procés algorítmic, mecànic, computacional. Per fer-se una idea de què estem parlant, podem agafar un dels texts del Fons com exemple. Una compravenda de l’any 918[3]..

[#]In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. [#]Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. [#]Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. [#]Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. [#]Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. [#]Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus […] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
[#]Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
[#]Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. [#]Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.

[#]Recosindus hanc carta vindicione scripsi sub die & anno quod supra.[#]

Les marques [#], indiquen els segments en què el text ha estat descompost manualment (és un cas certament benigne, en el que la puntuació s’adapta a l’estructura del propi formulari, altres casos hi ha on això no és així). Aquest mateix text, un cop lematitzat i normalitzats els noms propis i les numeracions es transforma en:

In Nmn Dn Ag ANTROP Xr Ma ANTROP ANTROP ANTROP ANTROP Fmn Ns Sml An On Vnttr Tb ANTROP Prsbtr Mtr Pr Nt Skrptr Vntk Nstr Vntm Tr Nstr Prpr Qo Nb Vn Pr Prnt Nstr At St Ps Tr An Sbrb TOPON An Kstr TOPON An Lt Qo Tknt TOPON Afrntt Ps Tr Ta Rnt Krk An Tr Ta ANTROP Fm Vl Ta So Fl Ta Ql An Tr Ta ANTROP Vl Ta So Rt Ta Mrt An Tr Ta ANTROP Vl Ta So Rt Ta Prt Ktnt Frntt An Tr Ta ANTROP An Ps Pm Wnt Nfr St Frntkn Ntltnt Sg Vntm Tb Ab Ntgr Nprptr Prg Tst Slt NUMB Qt Mn Nstr Rkpm Nl Qt Ta Ps Prg Xnt Nn Rmnst Ast Mnfst Wm Vr Prtkt Ps Tr Ta Nstr An To Trtm Tmn Ptstt On Km Ax Vl Rgrs So Aprnt Vntnt Tnnt Vl Knmtnt An Da Nmn Ab Ptstt Wt Sa Ns Vnttr Ol Om Ta Rt Nstr Qo Kntr Nt St Krt Vntk Prsns Vnrt At Nrmpnt Ns Vnrm Kmpn Kmpnm Tb An Tpl Qnt At Ta Nmlrt Frt Ps Tr An Tpl Tb Prptm Btr Ax St Krt Vntg Frm Prmnt Mn Tmpr Fkt Krt Vntk At Prl An NUMB Rnnt ANTROP Rg Fl Ltr Pst Bt ANTROP ANTROP Sn ANTROP Fm Sn ANTROP Sn ANTROP Sn ANTROP Fm Qo Nt Krt Vntk Sml An On Fkm Tst Rgvm Frmr Sn ANTROP Sn ANTROP Prsbtr Sn ANTROP Sn ANTROP Sn ANTROP Sn ANTROP ANTROP Nt Krt Vntk Skrps Sb Ta An Qt Spr

El repte és molt fàcil d’enunciar, tota vegada que es tracta de definir un procediment que permeti establir unes marques de tall (els [#] de la versió ‘original’) que globalment, entre el conjunt de documents, minimitzin tan les diferències entre els segments definits com el propi nombre de talls o segments, i  posats a demanar, que no sigui quelcom gaire aliè a la comprensió humana (idealment, quelcom semblant a l’exemple manual anterior).

De manera que això és el que s’ha fet, s’han processat els primers 743 documents del Fons (l’exemple és el nombre D00005) normalitzant els noms propis i les formes llatines. Entre ells, n’hi han 41 que no tenen text (documents perduts, en llengua no llatina ,etc), és a dir, tenim 702 texts simplificats. Cal remarcar que la varietat tipològica del Fons és molt gran, si bé els cartularis són la font principal, i per tant, donacions, compravendes, consagracions i judicis formen un gruix considerable, tampoc són rars els texts epigràfics, relats hagiogràfics, entrades anuals d’annals, etc, etc, etc.

Aquests 702 texts estan formats per un total de 231.607 lemes, fet que situa la mitjana de paraules/lemes per document al voltant dels 330 entre els 5 del més breu i els 19.833 del més llarg. El nombre de lemes diferents, es situa en els 10.548, entre els quals en tenim 2.365 d’equivalents, deixant per tant el nombre de ‘paraules diferents’ en 8.183.

La idea inicial va ser mirar de calcular per a cada fragment un coeficient entre 0. i 1. que expressés el seu grau de repetició dins el corpus  (1.=tots els fragments li són idèntics, 0.=el fragment no té res en comú amb el corpus), tasca per a la que cal primer definir una funció de comparació entre fragments. Calcular la identitat entre dos segments (mateixos símbols en el mateix ordre) és trivial, el que ja admet més joc i implica un nombre creixent de possibilitats – i per tant de cost computacional – és detectar graus de semblança, per exemple, tenint en compte valorar mateixos símbols però en diferent ordre. En la primera aproximació, una funció així ja es va definir i aplicar satisfactòriament, el cas però d’ara és diferent, tota vegada que es tracta precisament de definir quins són els fragments sobre els que aplicar aquesta funció.

De manera que es va plantejar un procés de segmentació automàtic a base de definir una finestra d’N símbols i anar-la aplicant sobre els 702 documents des de la primera posició/paraula fins a la darrera. És lògicament un procés que es va repetint per a cada valor de N; en el cas que ens ocupa, s’ha calculat entre N=3 i N=40; és a dir, trobar tots i cada un dels segments de entre tres i quaranta símbols consecutius existents en el corpus. Idealment hauria estat millor fer-ho fins les 60 paraules, però el cost computacional ja era excessiu. El resultat és  un molt elevat nombre de possibilitats, 7.875.739 en total, entre les 145.725 de les de 3 símbols i les  215.918 de les de 15, i en el que tenim per a cada una d’elles quants cops apareixen – i a on, en quin document i a partir de quina paraula -.

Ara bé això sols detectava els casos de semblança total entre dos fragments, és adir, els casos extrems 1. i 0. d’una funció de comparació, i pensant que seria necessari també tenir un grau de semblança intermedi, es va programar una funció de comparació entre segments de la mateixa longitud per valorar els casos de semblança parcial i/o amb ordre intersimbòlic diferent. És aquest procés el que ha resultat molt costós computacionalment, de fet, ha tardat mesos – en un ordenador de baixa gama, tot sigui dit -.  El resultat, és que finalment, per a cada un del 7.875.739 segments diferents, tenim no sols en quins documents apareixen sinó també una mesura del grau de semblança amb la resta de segments de la seva mateixa longitud.

Estem doncs en el punt de mirar de cercar per fi quina és la segmentació que amb el mínim nombre de talls, maximitzi el grau de semblança entre ells i els de la resta de documents. Inicialment, es va pensar que arribats aquí, un possible mètode trivial seria, document per document, provar tots els talls possibles i com ja sabem el coeficient de semblança de cada un d’ells, elegir la combinació millor. Una aproximació per força bruta. Mala idea. El nombre de talls possibles a fer en un text donat, és un valor combinatorial, i per tant, creix exponencialment, fent inviable un procés exhaustiu. Cul de sac, calia doncs anar per altres vies.

Una primera prova ha estat encara-ho com un procés de tessel·lació, és a dir, considerar cada un dels texts com un espai (unidimensional) a cobrir amb parts (fragments) que en conjunt ens donin una mitjana del coeficient de semblança més elevat. Una possible forma de fer-ho podria ser començar per els fragments amb un coeficient més elevat, i anar-els col·locant sobre el text; no s’assegura un resultat òptim, però podria ser una primera prova. Error. Si s’hagués pensat una mica millor, s’hagués pogut preveure el resultat. Els fragments més curts, per definició tenen coeficients més elevats (és més fàcil trobar repetits grups de tres paraules que no pas de vint), ergo, el resultat és una partició amb un gran nombre de fragments, quelcom molt poc hàbil per els nostres objectius. L’error estava en que aquesta aproximació oblidava el requeriment de fer-ho amb el mínim nombre possible de talls, és a dir, amb les seqüències el més llargues possible. Cal encarar-ho de manera diferent, i les possibilitats, són certament moltes.

És aquí on s’està actualment, i per tant, com dèiem al començar, aquest no és un apunt per presentar fites sinó per descriure els passos fets fins ara. Tenim fetes les mesures de base, cal ara aprendre a utilitzar-les, i això passa necessàriament, per analitzar millor el problema i les possibles solucions.

Aquesta entrada s'ha publicat en cathalaunia.org, estadística, Fons Cathalaunia, formularis, lematització, segmentació textual, semblança documental, Semblances interdocumentals i etiquetada amb , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s