Semblances documentals (4).

En el tercer apunt d’aquesta sèrie, s’havia comentat el darrer càlcul realitzat per mirar de trobar un procediment de segmentació de documents altmedievals que basat exclusivament en criteris quantitatius, produís idealment uns resultats similars als de la segmentació manual, basada en criteris semàntics, de contingut. Una tal aproximació es considera amb possibilitats de tenir èxit, atesa la natura molt formal i repetitiva d’una bona part dels texts processats. Un altra forma de plantejar-ho, seria dir que estem cercant un procediment per detectar les fórmules subjacents en els documents.

Repassem el què s’havia fet. Els texts del corpus havien estat preprocessats convertint les paraules en uns lemes llatins simplificats, les puntuacions van ser eliminades i els noms de persona, lloc i numeracions romanes reduïdes a una única forma: ANTROP, o TOPON o NUMB. Un cop així ‘liofilitzats’ – permeteu-me la conya – els texts havien estat passats per la picadora reduint-los en tots els fragments possibles d’entre 3 i 40 paraules consecutives. Un cop fet això, es va calcular la semblança entre els fragments d’una mateixa longitud amb una funció que donat un fragment i un document, retorna un valor entre 0 i 1: 1 si el fragment es troba tal qual en el text, 0 si cap part del fragment hi és, i entre 0 i 1 amb el coeficient o percentatge de semblança del fragment més semblant que hi hagi. El resultat, és que tenim no sols en quins documents hi han quins fragments, sinó a més, un coeficient de representativitat en els documents de cada fragment possible.

En una primera aproximació, s’havia pensat que tal vegada, donat un text qualsevol, podríem segmentar-el a partir de les parts o segments que tinguessin el coeficient més elevat. Idea naïf, tota vegada que els fragments més curts, a priori sempre tendiran a tenir coeficients més elevats al ser més fàcil trobar-ne de semblants que no pas els llargs. Aquí ens havíem quedat en el darrer apunt.

La propera idea fou imaginar el text com una gràfica. Posem les paraules/lemes del document en el seu ordre d’aparició, en el eix de les X (la primera=1, la segona=2, etc) i en l’eix de les Y, hi dibuixem els valors que calculem per a cada una de les paraules – per facilitat de lectura del gràfic, tots els càlculs es normalitzaran entre 0. i 1. -.

Ara bé, els mesuraments calculats, ho eren a partir de grups de paraules consecutives, mentre que la gràfica reclama valors per a cada paraula; així doncs, una primera consideració a fer, és: en quants fragments participa cada una de les paraules? El normal, és que una determinada paraula, aparegui en totes les posicions de tots els segments que l’inclouen (primera d’un de tres, segona d’un altre de tres, tercera d’un altre de tres, primera d’un de quatre, segona d’un de quatre…. etc), és a dir, si tenim segments d’entre 3 i 40 paraules, tindrem que una paraula participa en un màxim de 817 fragments ((40*(40+1))/2)-3 – aquest -3, darrer degut als fragments descartats de mida 1 i 2 -, però menys en els extrems, ja que els fragments en cap cas poden superar ni per davant ni per darrera el text. O sigui que en les primeres – i darreres – 40 paraules del document, les quantitats de mesures/fragments van augmentant des de les 38 inicials (mides entre 3 i 40) fins el màxim de 817. A l’hora de presentar un valor normalitzat per a cada paraula cal doncs tenir en compte el diferent nombre de mesures presses per a cada una d’elles.

Una primera idea, nascuda precisament del fet que cada paraula té un nombre de segments/mesures propi, va ser imaginar la gràfica – amb les paraules al fons, en les X, – com si fos un joc d’aquells en que es van deixant caure discs de colors per unes columnes, o potser millor, sabeu aquells dibuixos fets per deposició amb sorra de colors entre dos vidres? Tenim doncs, una gràfica i milers de fragments, cada un d’ells amb una x d’inici, i una mida. Imaginem doncs que anem deixant caure cada una dels fragments en la gràfica – inicialment, cada paraula del fragment amb un mateix valor, diguem 1. – i que els deixem anar acumulant-se en el fons. Si féssim això, començaríem amb una gràfica buida, amb una línia plana al 0, i un cop aportats tot els valors, tindríem una corba creixent a l’inici, des dels 38 fragments possibles de la primera paraula, fins els 817 màxim de la part central, i una corba decreixent fins els 38 fragments de la paraula final. Per tal de neutralitzar l’efecte d’aquesta corba, hem dit que normalitzarem el valor de cada paraula per el nombre de mesures màximes, de manera, que un cop avocats tots els fragments no resulti una corba entre 38 i 817 sinó, com dèiem, una gràfica tota a 1. una línia plana en el màxim.

L’interessant, evidentment, està al mig, entre la línia inicial al 0. i la final al 1., en com es va omplint, i per això, també sembla evident que l’ordre en que es vagin deixant caure – acumulant – les mesures dels fragments és crític. Una forma de mirar de compensar la propensió del fragments petits a aparèixer més freqüentment és multiplicar el seu coeficient per la mida del propi segment, és a dir, expressar el coeficient de semblança no com a percentatge de documents sinó en quantitat de paraules del fragment compartides entre tots els documents. Això afavoreix els fragments més llargs, és cert, però ho fa de manera més matisada. Així doncs, ordenarem els fragments d’un determinat document per aquest valor i els anirem deixant caure i acumulant-se en el fons. Si prenem el text que varem utilitzar d’exemple en l’apunt anterior[1] – una transmissió de terres, més o menys habitual – i deixem caure les primeres 1.000 mesures seguint aquest criteri, tindrem:

dodi2-d00005-1Com era d’esperar, una gràfica a mig omplir (el document conté 206 paraules, ergo 9.101 fragments, de manera que a penes hem ‘avocat’ una novena part del total).

La següent pregunta és, fins quan tenim que anar acumulant mesures? Fins la meitat, un terç? Aquí, mirant a la gràfica, veiem que hi han paraules sense cap mesura, a 0.. de manera que s’establí un primer eurisme: s’aniran deixant caure mesures, ordenades per nombre de paraules compartides entre tots els documents del corpus mentre hi ha hagi alguna paraula del document sense cap mesura, o viceversa:  la caiguda de mesures s’aturarà en el moment que totes les paraules tinguin 1 o més mesures acumulades. El resultat per el mateix document és:dodi2-d00005-2El que la gràfica ens mostra, és quines parts del document estan formades per paraules i grups de paraules més habituals entre els documents del corpus – en aquest cas, recordem, els primers 743 documents del Fons Cathalaunia -.  Si recuperem el text i mostrem en vermell les paraules per sobre d’un valor arbitrari, diguem, 0.5, tindrem:

In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus […] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
Recosindus hanc carta vindicione scripsi sub die & anno quod supra.

Cal remarcar que el fet d’haver reduït tots els antropònims, topònims i nombres a una única formulació, evidentment, fa que les parts on aquests s’acumulin tinguin més probabilitats de tenir puntuacions altes. Passem a un text diferent, el fals de la consagració de la seu d’Urgell[2], notable per presentar una acumulació de més de dues-centes parròquies. Un text de gaire bé 2.000 paraules i més de 72.000 fragments, la seva gràfica, és:

dodi2-d00004-1Mostrem només una part del text – entre la paraula 270 i la 516 -, ja que seria massa llarg posar-lo tot sencer, però si més no, per visualitzar la part corresponent a les dues primeres ‘punxes’ grans.  De nou, amb vermell per sobre 0.5.

Tradimus atque condotamus parrochias Vrgellensem pagus eidem pertinentes , id est , ipsa parrochia primae sedis Vico , sive sancti Stephani , vel Calpitiano , Linzirt , atque Sardina , seu Sancta Columba.
Deinde ipsam parrochiam de Archavel , sive ipsam de Ferrera , sive ipsam parrochiam de Ares , vel Civiz , atque Asnur , vel Sancti Iohannis , sive Orgollel , atque Ovoss , cum villulis vel villarunculis earum. Tradimus namque ipsas parrochias de Valle Andorrensi , id est , ipsa parrochia de Lauredia atque Andorra , cum Sancta Columba , sive illa Matrana , atque Ordinavi , vel Encap , sive Canillaus , cum omnibus Ecclesiis atque villulis vel villarunculis earum.
Deinde ipsam parrochiam de Stamarit , sive Bescharan , atque Corcobite , cum ipsos torrentes. Similiter ipsam parrochiam de Villanova , vel Banathi , atque Lorone , cum Ecclesia Sancti Iacobi , sive illa parrochia de Alafs , vel ipsa parrochia de Valle Vrsian , cum Aragen.
Deinde Nabiners , sive Ollafracta , atque ipsa parrochia de Tost , vel Montedamno , sive ipso Plano Sancti Thirici , cum Villanova , atque Assoa , vel Adrall , sive Castellione , vel Villa Mediana , sive Casamuniz , & Sancta Cruce , cum Stacione , vel Palerols , sive etiam Cutenavarchii , atque Aniano , Ortone , cum Solanello , vel Cercheda , atque Capellas. Harum parrochiarum , cum omnibus Ecclesiis vel villulis atque villarunculis earum.
Similiter ipsam parrochiam de Noves , atque Garamonse , vel Helinse , atque Beren , sive Eguils , seu etiam Lavarzda , cum Confluent , vel Sancta Eulalia , cum Conjuncta , atque Villa Rubea , cum Bocona , vel Tyrone , cum omnibus Ecclesiis vel villulis atque villarunculis earum.

El text, va repetint clàusules especificant possessions, que a grosso modo es corresponen amb les oscil·lacions del gràfic. Podem encara cercar un tercer tipus de text, un diploma carolingi, per veure la seva estructura. Visualitzarem el precepte que Carles el Simple emeté per l’església de Narbona d’1 de novembre de l’any 898[3]:dodi2-d00031-1I el text per damunt d’un coeficient 0.5:

In nomine sancte & individue Trinitatis. Karolus divina propiciante clementia rex. Si erga loca sanctorum divino cultui mancipatorum aliquid de rebus juris nostri conferre studemus , non solum in hoc regiam exercemus consuetudinen , sed maxime , divina auxiliante gratia , profuturum nobis nullatenus dubitamus. Idcirco omnium sancte Dei ecclesie fidelium nostrorumque , tam presentium quam & futurorum , solers industria noverit quod dirigens presentie serenitatis nostre Arnustus , sancte Narbonensis ac Redensis ecclesie venerabilis archiepiscopus , innotuit nobis per quosdam sui fideles quemadmodum sua sedes & pene omnes ecclesie ejusdem civitatis ruine jam proxime existebant , ita ut per ipsum nullatenus possent restaurari , intimans etiam qualiter jamdudum piissimus genitor noster Ludovicus quedam beneficiola ad augmentum sue ecclesie perpetualiter possidenda contulerat. Cujus petitionem ac intinacionem necessariam esse cognoscentes , placuit celsitudini nostre , pro remedio anime nostre nostrique genitoris atque predulcissime genitricis nostre Adeleidis deprecatione , quatenus ad eandem ecclesiam , scilicet sancti Justi & sancti Pastori necnon & sancti Pauli confessoris , qui ibi corpore requiescit , abbatiam Sancti Laurentii cum omnibus suis villulis & cellis atque terminis cum omnia integritate locorum , veluti in preceptis monachorum ab antecessoris nostris piissimis regibus factis , perpetualiter concederemus , ei videlicet tenore ut stipendia monachorum ibidem degentium juxta vires presulis non deficiant ; & in ipso comitatu Narbonensi Colonicas fiscum cum omni integritate. Addimus quoque prefatae ecclesie sanctorum Justi & Pastoris , ex nostra regali liberalitate , in comitatu Redensi abbatiam Cubarias cum ecclesiis , cellulis , villis , villaribus & omnibus adjacentis suis ac mancipiis utriusque sexus ad eundem locum pertinentibus ; & in comitatu Substantionense fiscum Juviniacum cum ecclesia ; in comitatu Nemausense , suburbio castro Salavense , in valle Ocilianense , ecclesiam Sancti Saturnini cum villa Torta & omnibus appendiciis duis. Si vero infra istas vel alias villas ejusdem ecclesie homines hostolenses vel Hispani furint , quicquid jus fisci inde exigere debet , totum ad opus sancte matris ecclesie Narbonensis jure perpetuo concedimus optinendum , atque per hoc nostre auctoritatis prfeceptum confirmamus , per quod decernimus ayque jubemus ut nullus judiciare potestatis , nec ullus ex fidelibus nostris , in ecclesias aut loca , que moderno tempore possidet , vel que deinceps in jure & potestate ecclesie ipsius divina pietas voluerit augere , ad causas audiendas , vel freda aut tributa exigenda , aut mansiones vel paratas faciendas , aut fidejussores tollendos , aut homines ipsius ecclesie , tam ingenuos quam servos distringendos , aut ullas redibitiones vel inlicitas occasiones requirendas , nostris futurisque temporibus ingredi audeat , vel ea que supra memorata sunt penitus exigere presumat ; sec liceat memorato presuli suisque succesoribus sub nostra defensione quiete residere & nostre parere jussioni. Et quicquid jus fisci exinde exigere poterat , totum nos pro eterna remuneratione eidem concedimus ecclesie , ut perpetuis temporibus clericis ibidem Deo famulantibus proficiat in augmentum , quatenus rectores ipsius ecclesie cum omnibus ad se pertinentibus , cum clero & populo sibi subjecto , pro nobis & locius regni nostri stabilimento Domini misericordiam alacriter exorare delectet. Et ut hoc preceptum nostre auctoritatis inviolabilem ac eternum obtineat vigorem , manu propria subter firmavimus & anulo nostro insigniri jussimus.
Signum Karoli (Monogramma) gloriosissimi regis.
Heriveus notarius ad vicem Folchonis archiepiscopi recognovit.
Data kal. novembris , indictione I. , anno VI. regnante Karolo serenissimo rege , & in successione Odonis II. Actum aput Viennam. In Dei nomine feliciter. Amen.

Cal remarcar que com que per cada paraula s’integren els valors de tots els fragments que l’incorporen – en el cas calculat aquí, una finestra d’un màxim de 39 caràcters abans i després de la paraula en qüestió – forçosament la corba de la gràfica ha de resultar suau tota vegada que paraules properes comparteixen la majoria dels coeficients integrats.

Ara bé, fins aquí, aquestes gràfiques, sols consideraven el nombre de mesures acumulades per a cada paraula – com si cada mesura fos de valor 1. – mentre que es limitava per un eurisme el nombre total de mesures a incorporar. Podem, per altra banda, no limitar el nombre de fragments a considerar i acumular els valors reals dels coeficients. Això, ens donarà una gràfica en la que s’hauran considerat tots el valors disponibles. Afegim doncs una nova línia que ens mostri els coeficients acumulats de cada paraula segons índex de semblança. Tornem al primer document:

dodi2-d00005-3On veiem com els valors ‘reals’ són molt més matisats, a penes arriben a coeficient del 0.4 , és a dir, les parts més repetides, encara no figuren ni en la meitat de documents del corpus de mitjana, posant en evidència la forta dispersió tipològica dels documents del Fons Cathalaunia. Altra cosa seria si enlloc de barrejar tota mena d’entrades documentals (epigràfiques, judicials, hagiogràfiques, etc, etc) s’hagués seleccionat un conjunt de documents més homogeni. Però és precisament per poder mesurar aquesta mena de coses que es va decidir no seleccionar un subconjunt de l’evidència – si més no en aquestes primeres fases de ‘descobriment’ o ‘tanteig’ de la natura del problema -; res impedeix que a posteriori, i amb lo aprés en aquests mesuraments, es puguin plantejar experiments posteriors més puntualment focalitzats.

Ara bé, aquesta segona gràfica ens ensenya que si bé és cert que forma unes oscil·lacions similars a la primera – al ser una corba més plana costa més d’apreciar-se però la correlació és clara -, també és cert que presenta alguna divergència significativa, en aquest cas, en la part inicial del text. Per mirar d’entendre millor a què es deu aquesta discrepància, el que farem serà dibuixar dues línies més, per mostrar els valors màxim i mínim acumulats en cada paraula. El resultat és:

dodi2-d00005-4Aquí es pot percebre com la línia de mínims, en verd,  es situa per sota i a prop del coeficient de semblança per paraula, indicant que la majoria de mesures acumulades són de valors baixos, però la línia de màxims, en rosa, hi presenta una separació molt clara, i per tant, cal pensar que hi han un nombre menor de mesures amb valors més alts, i provinents de fragments més petits que el mètode de càlcul de la primera línia, deixava de banda. En altres termes, es visualitza la influència dels fragments més curts, que ja havíem detectat en la primera aproximació a les dades.

Ara bé, amb les dues corbes inicials, ja podem definir un primer sistema de segmentació automàtica que compleixi el doble requeriment de minimitzar el nombre de segments i a l’hora maximitzar la semblança entre ells. És ben senzill: sols cal imaginar que des d’a dalt, anem desplaçant cap avall una línia horitzontal de ‘sostre’, i quan toqui un punt de línia de valors, ja sia la primera, en blau fosc, si volen utilitzar el nombre de mesures, o la carbassa, si volem emprar els coeficients de semblança,  crear un segment en la posició del fragment que contenint aquella paraula tingui el coeficient en paraules més alt; l’única restricció, serà que si el fragment col·lisiona amb algun fragment previ, – i per tant, de coeficient superior -, s’ignora. El resultat és el següent.

dodi2-d00005-5On veiem dibuixat en blau clar els set fragments que aquest procediment seleccionaria per aquest text. Es minimitza el nombre de talls, ja que es seleccionen primer els segment amb coeficients en nombre de paraules més alts, que en la majoria de casos corresponen als fragments més llargs – la mida mitja és de 261/7 ~= 37 paraules -. I es pot veure que maximitza el grau de semblança tota vegada que gairebé es sobreposa a la línia de coeficients, la carbassa; de fet, el dibuix incorpora, encara que no es veu gaire bé, una línia de mitja per ambdues corbes, i la diferència entre elles és sols de 0.02. Mostrem però el resultat d’una tal segmentació sobre el text; per fer-ho, ressaltarem en negreta els segments senars.

In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus […] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
Recosindus hanc carta vindicione scripsi sub die & anno quod supra.

Una partició, que com es pot veure, poc té a veure amb la partició manual, feta a partir de les frases del text. Per deixar-ho ben clar, sobreposem una línia amb valors màxim en les paraules d’inici de cada un dels talls manuals – per claredat també, no es mostren els fixes de  l’inici ni el del final -.

dodi2-d00005-6De fet, son resultats perfectament previsibles i ja anticipats quan en plantejar el problema, es considerava un desideratum el què les particions mecàniques, quantitatives, de quelcom com: In Nmn Dn Ag ANTROP Xr Ma ANTROP ANTROP ANTROP ANTROP Fmn Ns Sml An On Vnttr Tb ANTROP Prsbtr Mtr Pr Nt Skrptr Vntk Nstr Vntm Tr Nstr Prpr Qo Nb Vn Pr Prnt Nstr At St Ps Tr An Sbrb TOPON An Kstr TOPON An Lt Qo Tknt TOPON Afrntt Ps Tr Ta Rnt Krk An Tr Ta ANTROP Fm Vl Ta So Fl Ta Ql An Tr Ta ANTROP Vl Ta So Rt Ta Mrt An Tr Ta ANTROP Vl Ta So Rt Ta Prt Ktnt Frntt An Tr Ta ANTROP An Ps Pm Wnt Nfr St Frntkn Ntltnt Sg Vntm Tb Ab Ntgr Nprptr Prg Tst Slt NUMB Qt Mn Nstr Rkpm Nl Qt Ta Ps Prg Xnt Nn Rmnst Ast Mnfst Wm Vr Prtkt Ps Tr Ta Nstr An To Trtm Tmn Ptstt On Km Ax Vl Rgrs So Aprnt Vntnt Tnnt Vl Knmtnt An Da Nmn Ab Ptstt Wt Sa Ns Vnttr Ol Om Ta Rt Nstr Qo Kntr Nt St Krt Vntk Prsns Vnrt At Nrmpnt Ns Vnrm Kmpn Kmpnm Tb An Tpl Qnt At Ta Nmlrt Frt Ps Tr An Tpl Tb Prptm Btr Ax St Krt Vntg Frm Prmnt Mn Tmpr Fkt Krt Vntk At Prl An NUMB Rnnt ANTROP Rg Fl Ltr Pst Bt ANTROP ANTROP Sn ANTROP Fm Sn ANTROP Sn ANTROP Sn ANTROP Fm Qo Nt Krt Vntk Sml An On Fkm Tst Rgvm Frmr Sn ANTROP Sn ANTROP Prsbtr Sn ANTROP Sn ANTROP Sn ANTROP Sn ANTROP ANTROP Nt Krt Vntk Skrps Sb Ta An Qt Spr, es sobreposés amb les particions manuals que a grosso modo segueixen els conjunts de frases gramaticals que formen cada una de les seccions del text. La gràfica, a més, mostra com en la partició manual, hi han segments de més de quaranta paraules, un dels límits pràctics del model calculat.

En conjunt, res de nou, són els límits naturals del sistema plantejat. Pensem per exemple en dues frases gramaticals distintes però que apareixen en el corpus sempre una rera l’altra; en una mirada exclusivament quantitativa com la que estem fent aquí, són a tots els efectes, una sola unitat. Però alternativament, també podem pensar que si no és aquest el cas, i aquestes dues frases apareixen juntes en un cert nombre de texts, però al costat d’altres frases en altres documents, potser sí que fora bona idea cercar aquesta diferència. Una primera manera de fer-ho, podria ser: per a cada paraula, considerem separadament tots el fragments que acaben just abans d’ella, i tots els que comencen just en ella. Si els coeficients són diferents, seria un indici de discontinuitat, i per tant potser un bon candidat a marcar una separació en el text. Encara que és certament possible, que si els coeficients dels fragments que acaben just abans i els dels que comencen just allà són semblants, tot i així, realment hi hagi una discontinuïtat, res impedeix que els coeficients a banda i banda tinguin magnituts similars; amb tot, cal provar-ho. De manera que inserirem tres línies més, una, en lila, on per cada paraula tinguem el valor dels fragments que acaben abans d’ella, una altra, en taronja, per el dels que comencen en ella, i una tercera, en vermell, per la seva diferència, o diguem-li, coeficient de discontinuïtat. El resultat, desprès d’eliminar – per claredat – les segmentacions calculades, la línia de coeficients i la de mínims, és:

dodi2-d00005-7On tenim que certament, cinc de les particions manuals coincideixen en pics de la línia roja, però tres no i una, l’última, a més, coincideix amb una diferència d’entre fragments anteriors i posteriors pràcticament nuŀla. Tenim doncs que les consideracions fetes sobre aquest índex es confirmen. Detecta casos en que hi ha un canvi de frase, si bé no sempre, i per tant constitueix un element significatiu per considerar si una paraula és limit de partició o no, però en cap cas és l’únic índex a tenir en compte, com era de preveure.

Ara bé, fixem-nos en que la corba de valor màxims per paraula, la verda, cap d’aquestes petites punxes planes que fa coincideix en cap tall manual. Visualitzem-ho tot remarcant-les en negreta sobre el text i recuperant les marques de tall originals [#].

[#]In nomine Dni, ego Recosindo & uxori mea Fruilo, & Mirone & Ixila & Etella feminas nos simul in unum venditores tibi Gilimiro presbitero emtore. [#]Per hanc scriptura vendicionis nostre vindimus terra nostra propria , que nobis aveni per parentorum nostrorum. [#]Et est ipsa terra in suburbio Barquinonense , in castrum Terracense , in alodio que dicunt Villa de Alique. Afrontat ipsa terra de oriente & circi in terra de Ilulo femina vel de suos filios , & de aquilone in terra de Exter vel de suos eredes , & de meride in terra de Olterdo vel de suos eredes , & de parte occidentis afrontat in terra de Adeleovel , in ipsa puma. [#]Quantum infra istas afrontaciones includunt , sic vindimus tibi ab integrum inpropter precio idest solidos .IIII. , quod manibus nostris recepimus e nihil quod de ipso precium exinde non remansit. Est manifestum. [#]Quem vero praedicta ipsa terra de nostro iure in tuo tradimus dominio & potestate una cum exio vel regresio suo. Aprehendi , vindendi , donandi vel conmutandi in Dei nomine abeas potestate. [#]Quod si nos vinditores aut ullus omo de eredibus nostris qui contra hanc ista carta vindicione presens venerit ad inrumpendum aut nos venerimus […] , componam aut componamus tibi in duplo quantum at te inmeliorata fuerit ipsa terra in duplo tibi perpetuim abitura ex ista carta vindicio firmis permaneat omni tempore.
[#]Facta carta vindicione idus aprelis , anno .XVIII. regnante Karulo reges filius Leutario post obitum Odoni.
[#]Recosindo , Sig+num Fruilo femina , Sig+num Mirone , Sig+num Ixila , Sig+num Ella femina , qui hanc carta vindicione simul in unum fecimus & testes rogavimus firmare. [#]Sig+num Quisando. Sig+num Wilielmus presbiter. Sig+num Quizlisilo. Sig+num Sesuldo. Sig+num Godebertus. Sig+num Saborone.
[#]Recosindus hanc carta vindicione scripsi sub die & anno quod supra.[#]

Tenim que cap de les zones en negreta, o sigui, els fragments curts amb coeficients més alts estables que els del seu voltant, intersecta amb cap dels talls manuals [#]; cap, tret d’una: la darrera, on el coeficient de Recosindus es igual al de Saborone, fet comprensibe si recordem que el procediment de mesura els havia igualat als dos a: ANTROP.

Tenim doncs una possible norma a la vista: un tall pot estar a partir d’una paraula on la diferència entre els fragments que acaben abans i els que acaben després sigui localment màxima, i no intersecti cap dels fragments amb valors màxims estables. Podem mirar de visualitzar-ho amb una gràfica on sols tinguem la corba inicial, la de fragments màxims, la de discontinuitat i la dels talls manual. Provem-ho en uns quants documents a l’atzar, començant per el que ja tenim:

dodi2-d00005-8Un judici del comte Miró l’any 904[4].

dodi2-d00150-1Una venda de terra de Susana a Vic l’any 910[5].

dodi2-d00250-1I una donació d’un sacerdot Odó a Sant Julià de Brioude l’any 909[6].

dodi2-d00550-1Podríem multiplicar els exemples, però crec que no cal. El que s’entreveu, és que els fragments curts i amb coeficients alts, sovint estan en els extrems dels talls manuals, si més no, pràcticament mai són tallats per ells; fet lògic si pensem ser aquests fragments com parts atòmiques del discurs – rarament es tallarà una frase entre un nom i els seus adjectius qualificatius, per exemple -. I l’índex de discontinuïtat pot ser un indicador de punt de tall. Sumant les dues consideracions arribem a un plantejament nou.

Podem mirar de definir les fórmules, els modismes dels formularis que estem buscant, com seqüències o cadenes específiques d’aquests fragments curts, i superar així una de les limitacions que més nosa feien del plantejament inicial, que era que a diferència del primer còmput de semblança interdocumental, que es calculà, que es basava en les particions manuals, i que per tant, comparava i agrupava fragments de mida diversa, el model actual, per evitar l’explosió combinatòria, ha limitat els càlculs de semblança entre els fragments amb un mateix nombre de paraules – i tot i així, va tardar mesos -.

Tampoc s’han tingut en compte en cap moment fins ara, el fet que hi han paraules més comuns que altres, ben probablement, per això els fragments més curts i amb coeficients més elevats es centren al voltant de les paraules comodí: ANTROP, TOPON i NUMB. És d’esperar que si incorporem en l’anàlisi aquest factor, el resultats siguin encara més clars. Com també és evident que hi han moltes altres possibles aproximacions alternatives a provar.

Tot plegat, jo diria que tot i la dificultat intrínseca del problema, s’albira un possible mètode de detecció de fórmules textuals, però en aquest camí, encara hi ha força llana per cardar[7], i aquest apunt ja és prou llarg…

 


Notes

Aquesta entrada s'ha publicat en cathalaunia.org, estadística, Fons Cathalaunia, segmentació textual, semblança documental, Semblances interdocumentals i etiquetada amb , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s