Antroponímia, lematització i mesures de semblança documental.

Aquest apunt no deixa de ser una petició d’ajut filològic. Encara no fa un parell de mesos que en una entrada anterior havíem explicat que el Selector del Fons Cathalaunia havia rebut una nova eina per el treball prosopogràfic: la capacitat de cercar participants en els documents utilitzant únicament els seus noms. És a dir, cercar quins documents tenen, per exemple,  un Rodegarii, una Ihilo i un Stephanus o alguna combinació de dos o més d’ells[1]. Aquí mirarem d’explicar com funciona actualment el sistema subjacent, les seves implicacions i anticipar la direcció d’alguns dels futurs desenvolupaments; i el primer que s’ha de dir, és que aquest és encara un tema en evolució, i que per tant, els comentaris que farem no volen en cap cas esgotar el tema sinó bàsicament explicar on s’està i com s’hi ha arribat.

Començarem per el primer element del títol…

Antroponímia

En començar a crear el registre de les identitats personals esmentades en el Fons, va semblar en un primer moment que una de les dades que hi hauria d’haver-hi forçosament en el seu dossier individual, era el seu nom; decisió aparentment evident, feta però des del desconeixement. En anar incorporant documents es començà a prendre consciència de la complexitat real del què en un primer moment havia semblat trivial. El subjectes, tot i acostumar a tenir un sòl nom, no sempre apareixien sota formes similars – descomptant declinacions i errors de transcripció més o menys evidents així com la problemàtica dels sobrenoms i/o noms compostos -. La variabilitat formal semblava àdhuc a voltes intencionada, de manera que el què en un principi semblava clar, el concepte ‘antropònim‘, s’anà difuminant fins entendre’l com una mena de gradació, on en un extrem tenim noms certament estables i clarament diferenciables, i a l’altre,  quelcom més proper a les consonàncies fonètiques que no pas a la unitat conceptual i/o semàntica actualment en vigor.

El resultat, fou doncs evolucionar i entendre que calia registrar totes les formes literals[2] en les que una identitat apareixia en els documents i deixar per un pas posterior les possibles formalitzacions o simplificacions que el fet d’assignar un ‘nom’ implica. El que es perdé per tant, hi encara hi manca, és que el Fons presenti un apartat amb un llistat i/o desglòs d’Antroponímia – d’aquí l’ajut filològic que dèiem en començar que ens cal -.

En aquest sentit, i per el que comentarem ben aviat, una de les incorporacions bibliogràfiques significades ha estat una obra de referència, el: Repertori d’Antropònims Catalans (RAC) I d’en Jordi Bolòs i Masclans i en Josep Moran i Ocerinjauregui.

rac1-thObra que si bé ja figurava des de feia anys en la secció bibliogràfica del web cathalaunia.org – els seus estudis introductoris són pràcticament de lectura obligada a tothom qui examini el corpus documental de l’alta edat mitjana catalana – no formava part de la biblioteca física, ni s’havia arribat tampoc al punt de poder-ne aprofitar satisfactòriament el gruix dels ensenyaments que conté.

El RAC, és un volum que en un recull magnífic de la gran majoria d’antroponímia dels comtats de la futura Catalunya Vella dels segles IX i X, mercès al treball d’experts filòlegs, entre altres coses, es capaç de reduir les desenes de milers de noms enregistrats en la documentació a una llista de 3.823 ‘grups antroponímics’ – cada un d’ells identificable per una forma estabilitzada  – que és el concepte en que s’agrupen les formes particulars per formar el que nosaltres de manera genèrica coneixem actualment com un ‘nom de persona’ ( per exemple, l’entrada Gelsindus comprèn les formes: Gelesinda, Gelsenna, Gelsinda, Gelsindus, Gilesinda, Gilsenda, Ielesinda i Ielsinda ).

Però si hem començat per recordar que actualment ja es pot cercar en el Fons per ‘noms’ de persona, com es menja això si per altra banda acabem de manifestar que el Fons encara no conté pas un registre antroponímic? Si no sabem què carai és un nom, com dimonis podem cercar-el? És aquí que arribem a la segona part del títol, la…

Lematització

Un lema, s’acostuma a entendre com una forma estable – que pot ser fàcilment artificial – aplicable a un conjunt de paraules. Generalment, la igualtat o la diferència entre lemes s’entén ser una simple diferencia de les seves literalitats, o sigui, que en principi un lema STEFAN, tot i la semblança, hauria de ser divers d’un lema ESTEFANO.

Els autors del RAC, assenyalen (p.15) fins a cinc fases en l’anàlisi i el recull antroponímic:

  1. Reproducció (recull de totes les ocurrències de les formes antroponòmiques)
  2. Reducció (de formes similars)
  3. Ordenació i agrupació
  4. Lematització
  5. Etimologia

De les quals, el treball exposat en el RAC s’atura en la tercera fase; és a dir, que no presenta ni una esquematització a lema, ni cap estudi etimològic dels noms recollits, i per tant, no ens és d’utilització directa en les tasques del Fons.

La problemàtica inicial, recordem que era, i és encara, la de la identificació dels figurants en els documents medievals, i com que estem parlant de mitjans computacionals, ho podríem resumir com la necessitat ( conveniència, si així es vol ) de tenir una funció que donades dues formes antroponímiques qualsevulles ens digui amb un alt grau de fiabilitat si corresponen o no a un mateix ‘nom’. En aquest context, semblaria que una forma adient seria poder passar de la grafia concreta que apareix en un document (per exemple: Estevenoni) a un lema estable (diguem-li: ESTEFAN);  per fer això, podem pensar com a mínim en tres maneres d’aconseguir-ho:

  1. Amb criteris filològics, cobrint tot l’espai antroponímic del Fons ( que abasta un territori força més extens que el del RAC, per exemple ) i posteriorment, realitzant la tasca de la 4ª fase, agrupar les formes en lemes estables. És a dir, tenir a priori una llista de tots els lemes i totes les formes antroponímiques associades a cada un d’ells; en aquest cas, l’aparellatge informàtic es limita a una simple consulta a unes dades prefixades i es pot considerar a tots els efectes, trivial.
  2. Per mitjans computacionals, algorítmics. Idealment basats en principis filològics i que calculin donada una forma antroponímica qualsevol, el seu lema estable; és a dir, una funció que tant aplicada a la forma Stephanii com a la d’Estevenonus doni per resultat del seu càlcul un mateix valor, per exemple: ESTEFAN.
  3. A ull, considerant manualment cada vegada si dues formes són o no un mateix ‘nom’. Per exemple: Stephanii i Estevenono = SI; Solmu i Salomone = … ?

La primera opció seria la més desitjable, atès que proporcionaria el màxim de garanties, però desgraciadament no sabem de cap recull antroponímic medieval lematitzat disponible en format electrònic que cobreixi els continguts del Fons. Donat que la tasca d’identificació es ve fent des del dia primer, l’opció per defecte ha estat sempre la tercera, la menys fiable, fins que va arribar un moment en que s’encarà la possibilitat de construir la segona, és a dir, dissenyar un algoritme que donada una forma antroponímica en calculés un lema. O el que seria la seva conseqüència lògica, poder computar algorítmicament a partir de les formes particulars, una llista de noms estabilitzats detectats en el Fons.

Tot i que es cercà – i encara es cerca, i aquest apunt n’és una prova fefaent – l’ajut de professionals de la filologia llatina medieval, el fet és que no s’aconseguí en un grau mínimament resolutiu, de manera que durant mesos, el que s’ha anat fent, és perfilar uns algoritmes de lematització propis, per la vella via de la prova i l’error. Diem algoritmes, en plural, perquè la manca d’una guia filològica ha comportat, fins el moment, no arribar directament a uns lemes estables que amb una simple comparació literal ens diguessin si dues formes són o no són un mateix nom, sinó a quelcom més complex, com és una transformació de forma a forma normalitzada i d’aquesta, a lema, més una funció específica que donats dos lemes ens diu si són o no equivalents.

Els resultats d’aquest procés, han estat varis.

  1. Per una banda,  i des de fa ja uns mesos, en el Selector hi ha l’opció del calcular el conjunt de noms detectables algorítmicament. És a dir, de generar programàticament una llista de ‘noms’ a partir dels lemes de les grafies particulars i de les seves semblances entre ells.
  2. Per altra, la capacitat – farà un parell de mesos –  de cercar en quins documents apareixen uns certs antropònims. Aquest procés, strictu sensu, no està cercant dins dels documents, sinó que opera de manera indirecta. Els noms a cercar es lematitzen i llavors es repassa la llista d’identitats del sistema, separant les que apareixen amb grafies que tinguin uns lemes compatibles amb algun dels que es cerquen, i  finalment, un cop tenim la llista d’individualitats compatibles, creuem les seves llistes dels documents on apareixen de cada una d’elles.
  3. I en tercer lloc, des d’aquest mateix mes de juliol, la capacitat de comparar documents; i això ens porta al tercer ítem del títol…

Mesures de Semblança Documental

Encara que les funcions de lematització i comparació antroponímica actualment implementades són molt matusseres i tenen un gran camp de millora, el fet és que resulten lo suficientment efectives com per ser utilitzades. Cal ser clar en això. Les agrupacions computades actualment no es corresponen plenament amb les agrupacions fetes per experts humans ( en aquest sentit, els grups antroponímics del RAC sí que s’espera que siguin una molt bona ajuda, al proporcionar una possible guia a la qual mirar d’ajustar els resultats, però aquesta és una tasca encara futura ). Per una banda hi han casos manifests d’agrupació excessiva, on formes nominals diverses es veuen artificialment agrupades, com també hi ha casos on formes que haurien d’anar plegades apareixen  artificiosament separades. Ara, un cop dit això, també és cert que el criteri d’agrupació lemàtica no és en cap cas universal, sinó condicionat i depenent dels criteris filològics emprats, i aquests, no són pas únics ni unívocs. En qualsevol cas, sí resulta evident que una major utilització d’aquest criteris en els algoritmes de lematització, no pot sinó millorar el sistema – de nou, la demanda d’ajut que es va repetint tot al llarg d’aquest apunt –

Amb tot, tenim doncs, com dèiem, un sistema que encara que sols pensat en origen per l’antroponímia i amb un ampli marge de millora, ja ens permet comparar literalitats en llengua llatina. El proper pas estava servit: i si utilitzen la capacitat lematitzant per implementar un sistema de comparació documental?

La idea en principi és ben simple. Imaginem una funció a la que se li passen dos documents, i que retorna el grau de semblança entre ells. Parlant en abstracte, dos documents seran considerats iguals, si presenten els mateixos lemes en el mateix ordre; l’extrem de la igualtat és fàcilment definible. Pensem en valors normalitzats i fem que en aquest cas la funció ens retorni un 1.. El seu oposat, la dissemblança  – com sòl passar en temes de comparacions – no té una definició tan unívoca ( hi han moltes maneres de ser diferent ) però per no complicar les coses, diguem que si dos documents no comparteixen cap lema, el seu grau de semblança es 0.. Qualsevol altre cas intermedi, hauria de donar un valor >0. i <1.. Ja es pot imaginar que no hi ha una única manera de calcular aquests valors intermedis, de fet, n’hi ha una infinitud, i la seva bondat o no, dependrà essencialment més aviat del grau d’adaptació que presenti a les nostres necessitats que no pas a algun criteri especialment transcendent.

Però com sempre, les coses són més complicades. Demanar que dos documents tinguin tots el lemes iguals i en el mateix ordre, és molt demanar, i a més, els documents estan formats usualment per frases – de fet, en el procés d’incorporació de nous documents del Fons Cathalaunia, una de les fases consisteix en segmentar el text, no exactament per ‘frases’, sinó per grups no excessivament llargs ( aquest procés nasqué quan es va implementar el sistema d’enllaçat automàtic en les entrades documentals, entre els figurants i la toponímia i la literalitat del text; cap dels enllaços a identitats o llocs que els texts dels documents presenten estan entrats a ma – seria una tasca gairebé impossible – sinó que són fruit d’un procés de càlcul automatitzat ).

Considerar que dues frases són iguals si tenen els mateixos lemes i en el mateix ordre, això ja sembla tenir més probabilitats de succeir, si més no parcialment ( pensem per exemple en els formularis ). De manera que això és el que s’ha acabat implementat, una facilitat que compara dos documents, a base de comparar els lemes dels seus fragments. El resultat és quelcom més complex ( el mateix fet de segmentar, per exemple, ja introdueix un grau d’arbitrarietat que pot no ser irrellevant ) però amb més probabilitats de tenir utilitat. I aquí és on s’està, amb un sistema en principi capaç de calcular no sols els graus de semblança entre documents, sinó entre les seves parts composants.

No és aquest l’apunt adient on exposar el resultats de tals capacitats, per una banda perquè aquest ja és prou llarg – i exposar els resultats d’aquestes semblances voldrà dir molt probablement tornar a utilitzar grafs interactius com fèiem en els apunt de la sèrie Visualitzant el cens de la Gòtia – i per l’altra, perquè en el moment d’escriure això, encara s’estan calculant…[3]!


Notes

  • [1] En el moment d’escriure aquest apunt se’n detecten no menys de 10 documents. I aprofitem per fer constar que la facilitat s’ha complementat amb la possibilitat de limitar la cerca als documents que continguns determinats topònims.
  • [2] Tal i com ja varem dir en altre lloc, els comentaris del doctor Jonathan Jarrett hi tingueren alguna cosa a veure en aquesta pressa de consciència.
  • [3] El mètode emprat és extraordinàriament ineficient i el nombre de comparacions a realitzar, creix semi-quadràticament; una pèssima combinació. Entre els poc més de set-cents documents del Fons cal fer més d’un quart de milió de comparacions; entre fragments, el nombre total creix al menys dos ordres de magnitud i en termes de comparacions entre lemes, cal afegir-hi encara un parell més d’ordres de magnitud.
Aquesta entrada s'ha publicat en antroponímia, cathalaunia.org, cerca lematitzada, detecció de formularis, distància documental, estadística, filologia llatina medieval, Fons Cathalaunia, Gelsindus, grup antroponímic, Jordi Bolòs i Masclans, Josep Moran i Ocerinjauregui, lematització, Repertori d'Antropònims Catalans (RAC), segmentació textual, semblança documental i etiquetada amb , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s