XML-TEI a la Institució Milà i Fontanals.

Entre els dies 15 i 17 d’aquest mes de maig de 2013, en la Institució Milà i Fontanals – que és el centre d’investigacions en Humanitats del Consejo Superior de Investigaciones Científicas a Catalunya – els responsables del Glossarium Mediae Latinitatis Cataloniae (GMLC) han organitzat un molt  interessant seminari de títol: XML-TEI per obres lexicogràfiques de l’Antiguitat i de l’Edat Mitjana.

xml-tei-thAtès que el Fons Cathalaunia pot exportar les dades en format XML i que la recent incorporació del corpus en ibèric nord-oriental en la secció d’Epigrafia Ibèrica ha obligat a plantejar-se com exportar també aquesta nova informació, no vaig poder sinó inscriure’m el mateix dia que ho vaig veure anunciat per tal de mirar si en podia treure alguna llum, i en tot cas, encuriosit per la possibilitat de poder testimoniar com expert informàtic el ressò pràctic d’una iniciativa tan ambiciosa com és el XML-TEI en un camp que em resulta tant proper com el de la documentació medieval. Després d’haver pogut assistir a onze de les divuit ponències del seminari hi ha un bon grapat de coses que crec que poden ser interessants per els amants de l’alta edat mitjana catalana i en especial, per els que estan motivats per l’impacte de les tecnologies de la informació en el seu estudi. El que segueix, no pretén ser doncs un comentari savant dels continguts de les xerrades – ni sabria, ni podria fer-ho – sinó una mirada encuriosida, subjectiva i parcial d’algú aliè a la temàtica troncal del seminari ( és a dir, la filologia, o més en concret, la lexicografia llatina medieval ) que coneixent les tècniques informàtiques a les que s’estan veient avesats els protagonistes del seminari pot preveure els reptes als que s’enfronten.

Hi ha sí però un aspecte negatiu, genèric, que prefereixo aprofitar l’ocasió per airejar-el abans d’entrar pròpiament en matèria i que no és altre que manifestar la meva preocupació perquè ja són dues les ocasions que en un mateix any, he assistit a actes acadèmics de perfil europeu fets a casa nostra on no he pogut sentir ni una sola ponència en català tot i participar-hi ponents locals. Fet que em resulta especialment incoherent si parlem d’un públic expert en Humanitats, que entén sense problemes el francès, el castellà, l’anglès, i el llatí. Fet aquest parèntesi, entrem en matèria i passem a la problemàtica de la codificació en XML-TEI dels diccionaris de llatí medieval.

Una de les coses més recompensants de la pràctica de la programació, és la possibilitat de conèixer per períodes de temps curts però de gran intensitat, el funcionament i les problemàtiques de moltes àrees d’activitat humana alienes strictu sensu a la computació,  ja que només des del coneixement profund de la problemàtica real de l’usuari es poden dissenyar eines que li siguin efectives en la seva labor. Això és el que el seminari m’ha permès albirar, els problemes que tenen els filòlegs europeus actuals en el moment de codificar informàticament els diccionaris del llatí medieval – d’aquí el XML i en concret el XML-TEI del títol del seminari -, a quins reptes han de fer front i quines són les seves fites actuals. Però cal primer explicitar els rudiments del que estem parlant per tal de fer entenedora l’exposició d’una temàtica que conceptualment és més simple del que pot semblar.

Tradicionalment, el gruix de la feina de produir les edicions clàssiques dels diccionaris llatins medievals, acabava en el moment en que l’obra prenia forma física, i és que un cop feta, l’obra romania estable en el temps per desenes sinó centenars d’anys. Els lexicògrafs actuals però, es troben en un mitjà molt menys estable. La informació en format digital – única manera raonable actualment de processar la informació impresa – té una data de caducitat mesurada a penes en anys que obliga al seu periòdic re-arxivament i/o conversió de format per poder continuar sent accessible, és a dir, per existir. És aquest un dels reptes bàsics que la tecnologia digital té encara pendent de solució i és just d’aquí on la codificació XML pren el seu sentit i objectiu, en voler proposar una certa tipologia de codificació que si més no alleugi els problemes de canvis de format i tingui un plaç de vida útil amb possibilitats de ser més perdurable. Això, però, cal remarcar que sols cobreix l’aspecte més subtil del problema, el de l’estabilitat de les codificacions emprades, el problema físic i molt més definitiu de la curta durada dels suports tangibles en els que aquests formats existeixen encara resta pendent d’una solució mínimament estable i no sembla per desgràcia tenir pas una solució viable  anytime soon que diuen els anglòfils.

Faig però primer una digressió tècnica per mirar d’aclarir en termes senzills que és la codificació XML, ja que són termes i conceptes que sovint sento – fins i tot a gent molt i molt formada – aplicat a coses i contexts sense gaire sentit[1]. Qui ho desitgi però, pot estalviar-se aquesta secció i anar directament a les ponències del seminari que vaig poder escoltar.

XML

Donat que la teoria de la informació defineix matemàticament el seu subjecte, podem començar imaginant que tenim un conjunt de N símbols possibles ( col·loquialment, lletres, ‘A’, ‘B’, ‘C’, etc) i que els identifiquem cada un d’ells amb un nombre enter correlatiu de 0 a N-1. En aquest supòsit, un escrit, un text, no és més que una cadena de nombres ( o el que és el mateix, un nombre enter definit per la seva concatenació[2] ) tota vegada que entre els N símbols, apart de ‘lletres’, també podem dedicar-ne alguns a coses com un ‘espai’, un ‘canvi de línia’, un ‘tabulador’[3] i en general a qualsevol concepte que ens sigui adient, ja que al treballar sols amb nombres ens hem efectivament deslligat formalment del significat associat que els ha justificat en primer terme[4]. Així doncs, podem entendre fàcilment com tots els texts que la humanitat ha produït, en totes les seves formes, al no ser res més que un nombre enter, no són ni seran mai més que un infinitament petit subgrup dels nombres enters ( i el mateix passa evidentment per qualsevol altre tipus d’informació codificada semblantment ).

Tenim doncs que el nostre ‘text’ no es més que una cadena de números. Què hauria de fer si dins d’ell, ara volgués indicar inequívocament que unes parts son en una llengua i altres en una altra? Si tingués la possibilitat de definir símbols nous (N+1) podria fer per exemple, que el símbol N identifiqués al segon llenguatge i a base d’anar-ne intercalant en el text, abans i després de cada bloc escrit en aquesta segona llengua diferenciar ( ‘marcar’ ) numèricament els fragments escrits en ella dels de la resta del text. Molt bé, però: i si no puc crear un símbol nou i m’he de limitar als N símbols disponibles? Com ho podria fer?

Aquest simple exemple il·lustra la problemàtica de la codificació de les ‘meta-dades’,  dades que existeixen en funció d’altres dades ( en el nostre exemple, la necessitat de diferenciar una llengua de la resta )  i que és una problemàtica tant vella com la capacitat d’abstracció; les solucions estan perfectament estudiades  i són ben conegudes. La teoria de la informació és clara al respecte; una ‘meta-dada’ no deixa de ser una ‘dada’ normal i corrent i per tant la seva representació consumirà una energia ( o quantitat d’informació ) superior a 0, és a dir, que si no podem ampliar el diccionari amb nous símbols ( el mètode més econòmic ), forçosament haurem d’expandir el nombre de cops que apareixen en el nostre text els símbols dels que es disposa, per tal de reflectir la nova informació – en aquest cas, ‘meta’ – que s’hi vol incorporar.

Imaginem doncs que utilitzem un símbol qualsevol (dels N originals) per indicar la presència d’una ‘meta-dada’, diguem, el 0 (o sigui la ‘A’), de forma que ens inventem la convenció que una meta-dada ( és a dir, un fragment en l’altra llengua ) ha d’anar tancada entre 0s. Això té dues conseqüències: una que sembla bona, ja que així tenim una forma simple d’indicar una meta-dada ( això sí, sempre i quant aquesta no contingui 0s ), i una de dolenta, ja que hem perdut les ‘A’s del text! Estem anant a pitjor… Ens cal afegir doncs a la nostra convenció de definir les meta-dates a base de  tancar-les entre 0s la manera de solucionar aquests dos problemes.

Una solució simple és tornar a aplicar el mateix principi de símbols ‘reservats’ i inventar-se una manera alternativa d’especificar un codi qualsevol a base de més d’un símbol. Per exemple: imaginem que dediquem el símbol 1, ‘B’ per indicar que el codi que s’ha de considerar com a contingut no és ell sinó el que vingui a continuació en el text, o sigui: que 1,0 ja no representi ‘B,A’, sinó sols ‘A’, i que per tant, per escriure una ‘B’, cal posar 1,1 (o el que és el mateix, duplicar-les). D’aquesta manera, ja hem pogut recuperar les nostres ‘A’s i marcar els fragments en una llengua diferent emprant en tot cas, solament símbols entre 0 i N-1. La norma de lectura final, seria doncs: si trobes un 1, el següent símbol és sols contingut, i si no és un 1, si és un 0, indica inici o final de fragment en segona llengua. D’aquesta forma un autòmat mecànic podria fiablement separar els fragments escrits en cada una de les llengües, o el que és el mateix, haurem codificat rigorosament una distinció entre dos tipus de contingut del nostre text emprant sols N símbols. El cost, d’acord amb les lleis de la termodinàmica, ha estat l’increment del nombre d’aparicions dels codis emprats; específicament: en el doble del sumatori del nombre de fragments en segona llengua més el de les ‘A’s i ‘B’s del text original.

L’exemple és molt matusser, però il.lustra com amb una sèrie de normes d’interpretació simples es pot adaptar la codificació d’una informació formada per un conjunt limitat de símbols per expressar un nombre infinit de tipologies de fragments dins d’una mateixa dada.

El desenvolupament matemàtic d’aquests principis i la seva implementació en tecnologia binaria, va donar lloc al SGML o Standard Generalized Markup Language, és a dir, un (L) llenguatge (S) estàndard (G), formal, matemàtic, d’anotació o marcatge (M) de tipologies de dades dins de dades del que el XML o Extensible Markup Language. no n’és sinó una derivació simplificada i en el que tenim que els fragments de meta-dada van expressats ( a semblança del nostre exemple ) per iniciadors i terminadors de blocs. En el seu cas, sota la forma: <identificador>contingut lliure </identificador>, i on a semblança també del nostre exemple simplificat, per indicar el caràcter ‘<‘ quant no volem que indiqui inici de marcador, s’ha d’emprar ‘&amp;‘ per evitar ambigüitats, és a dir, una seqüència reservada.

El quid, l’element vital que ens falta en aquesta descripció, està en què dins del contigut-lliure d’un <identificador> ( ‘tag’ en l’argot anglocèntric usual ) a més de qualsevol símbol, s’hi poden especificar altres grups de ‘<identificador>contingut-lliure</identificador>‘. És a dir, les meta-dades poden incloure altres meta-dades, i per tant prendre una forma estructurada, niada, o si es vol, en arbre ( seguint el nostre exemple, seria el cas de voler indicar dins d’un fragment en segona llengua que un subfragment seu n’està en una vessant dialectal tal o qual ), característica que resulta molt apropiada per descriure una gran quantitat de menes de dades i que per tant té una gran expressivitat codicològica efectiva. D’aquí que n’estiguem parlant, no pas perquè la seva teoria subjacent sigui res de l’altre món.

En el cas del XML, el nombre de símbols diferents possibles, la N del nostre exemple, si la memòria no em falla, és de 2^32, o sigui uns quatre mil milions, el sentit base dels quals, a priori, ve definit per l’estàndard Unicode. Notis que el protocol no posa cap limitació seriosa a com han de ser els valors dels identificadors, ni a l’àrea de contingut-lliure, ni a quins identificadors poden o no anar dins de quins altres. Sols obliga a que cada fragment de meta-dada s’acabi amb el mateix identificador que l’ha obert; no poden haver-hi ‘tags’ ‘desaparellats’[5]. I és que un principi bàsic subjacent en la codificació XML ( com a descendent del SGML ) no és altre que el de descriure formalment les dades, no la seva representació, amb la voluntat expressa de separar la ‘cosa’ del seus ‘aspectes’, la ‘informació’ de la seva ‘utilització’, les ‘dades’ de les ‘meta-dades’ – tornarem sobre aquest punt més endavant -.

El que sí s’afegí, ja de vell antuvi i pensant en els aspectes pràctics de la utilització de la codificació, fou la possibilitat de definir localment restriccions en la sintaxis i l’estructura dels identificadors, per tal que fos possible verificar la correcció formal d’un document determinat si així es desitjava. I és que es pot fàcilment copsar que si bé la llibertat d’elecció dels marcadors per part dels usuaris de la codificació és lògicament essencial, també és cert que sense un cert grau d’acord en quins identificadors emprem per quines coses, la utilitat final del conjunt seria ben pobra, ja que si un actor X no sap cabalment què indica un ‘tag’ creat per un actor Y, difícilment en podrà treure profit, per més que sigui capaç de llegir-el i ( mitjançant el mecanisme de verificació ) de saber si el document és o no formalment vàlid. De manera que aquestes restriccions en la sintaxi, que es coneixen ben descriptivament com ‘esquemes‘, són en la pràctica una part essencial per la interoperativitat efectiva de la codificació XML i és on lògicament s’han concentrat els esforços d’estandardització, i per tant, és aquí que entren els consorcis i que la cosa es complicà de debò.

I es que fins ara només ens hem estat fixant en el formalisme matemàtic que és quelcom ben senzill, altra cosa és mirar de posar d’acord a grups de gent per tal que utilitzin una sèrie de marcadors comuns en el seus documents a fi que puguin ser d’utilitat a la comunitat, independentment del seu autor. Ja se sap, si vols enfonsar quelcom, crea una comissió…! I aquest és un dels problemes pràctics del XML[6]; cadascú utilitza els marcadors que li sembla bé, i evidentment les grans corporacions procuren utilitzar-ne de propis – i quan més incompatibles amb els de la competència millor – i anar-els canviant per tal d’obligar <sarcasme>- se’n diu convèncer – a la clientela a que compri el darrer producte, <sarcasme>que és certament molt i molt millor</sarcasme></sarcasme>.

XML-TEI

Arribem per fi al XML-TEI del títol, i és que ben conscients de tot lo expressat fins ara, s’està intentant crear una sèrie de codificacions ( els ‘esquemes’ que dèiem ) per l’àmbit del processament de la informació textual. I aquí, parlant metafòricament, s’han obert tots el inferns, ja que no és sols que els interessos – i les necessitats – en general, evolucionen en el temps i per tant són contràries a una codificació estable, és que la pròpia natura de la informació textual hi és contrària per la intrínseca manca de formalitat matemàtica ( no confonguem el fet que podem codificar numèricament un text qualsevol amb que podem manipular totes les altres coses que l’hi van associades, entre altres, per exemple, la seva comprensió ).

XML-TEI està doncs intentant definir i promoure un conjunt d’esquemes XML per àmbits específics de l’activitat textual. Fins aquí, res a dir, però el primer problema evident, està en que la seva proposta és inevitablement complexa – ja ho dèiem, la informació textual no és sinèrgica amb la codificació numèrica -. Les seves Guidelines presenten centenars de tipologies amb milers i milers d’exemples de codificacions, símptoma clàssic de l’excés d’abstracció i de l’allunyament de la simplicitat necessària per una utilització satisfactòria per part de l’usuari final. XML-TEI està mirant de proposar codificacions, esquemes, per a: diccionaris, obres teatrals, prosa, gràfics, anàlisi lingüístic, aparell crític, dates, etc, etc, etc. El problema conceptual és doble: per una banda, està en què moltes d’aquestes especificacions violen inevitablement la separació bàsica de la codificació entre ‘dada’ i ‘representació’ ( pensem per exemple en la necessitat d’incorporar el concepte de paginació ) i el resultat, no pot ser altre que l’explosió de la complexitat de l’esquematització ( la darrera versió – P5- de les Guidelines estan recollides en anglès en un PDF de més de 1600 pàgines ), i per l’altra, que cada un d’aquests àmbits de l’activitat textual és tremendament complex en la seva concreció real. Cada un d’ells és un mundus, un univers propi on una esquematització concreta raonablement simple sols podrà ser aplicable a un subconjunt petit de les problemàtiques reals, mentre que una que pretengui reflectir la complexitat real del conjunt de casuístiques existents resultarà en quelcom probablement fora de l’abast de les capacitats usuals humanes. Conscients d’aquesta realitat, la proposta XML-TEI mira de cenyir-se a uns esquemes bàsics als que incorpora com no podia ser d’altra manera, la definició de mecanismes d’extensió per tal d’adaptar-els a les necessitats del seus usuaris. De nou, la clau estarà en la mesura en què la seva adopció aporti més avantatges que inconvenients; el problema, és que sembla ser que això no és evident. No és que XML-TEI faci res malament, molt al contrari, ho fan tot molt i molt bé, i tampoc és que no tingui sentit la seva tasca, ben al contrari; és que el domini sobre el que treballen és molt i molt refractari a la normalització, que en el fons és la tasca essencial del consorci. És en aquest equilibri entre la necessitat real d’esquematitzacions compartides i la variabilitat salvatge de la informació textual que es desenvolupa la tasca del XML-TEI, quelcom certament digne de respecte.

Altres intents en àmbits de l’activitat humana molt més senzills i acotats no han funcionat, ja fos per falta de quorum, d’acceptació o d’adequació[7]. D’aquí que la promesa d’un futur amb una inter-operativitat millor, que l’adopció del XML semblava prometre inicialment, no s’ha acomplert i s’ha vist redimensionada en la seva justa capacitat, que no és pas poca: una bona tècnica de codificació, molt adient per l’estandardització i l’intercanvi de dades, res més, res menys. El gruix del problema, la transmissió fiable de significats, continua pendent de solució – des del temps de Licurg – ja que no pertany naturalment a l’àmbit de la matemàtica sinó al de la semàntica. Podem transmetre fiablement dades, no el que aquestes dades signifiquen.

I després d’aquest llarg preàmbul descriptiu de la meva mirada sobre les tècniques de codificació textual i la seva problemàtica, passem a comentar el poc que m’és donat de les ponències del seminari que vaig poder presenciar i dels problemes concrets que hi vaig veure expressats, amb un especial èmfasi en els aspectes – ara sí – pertinents a la història de Catalunya d’abans del segle XII.

Seminari

El primer dia sols vaig poder assistir al final de la primera sessió que anava encapçalada sota el lema: “Projectes i tipologies estructurals en els diccionaris antics i medievals“.

En Krysztof Novak sota el títol “eLexicon Mediae Laltinitatis Polonorum; goals, methods , workflow” va presentar sumàriament el projecte eLexicon – que com el títol indicia és una versió en línia d’un diccionari polonès de llatí clàssic llatí medieval – i la metodologia que estan emprant en la seva elaboració. Destacaria la claredat de la seva cadena de processament: escaneig de les fonts – OCR ( amb programari comercial, en concret Abbyy ) – transformació XLST – ODT – correcció manual amb LibreOffice – transformació a TEI. L’exemple del grup d’en Krysztof fou molt interessant per evidenciar com els problemes pràctics afecten a decisions estructurals. En el seu cas, la conversió de lo escanejat a format de text (ODT) per tal de poder corregir el text i marcar les diferents seccions que composen les entrades, funciona a base de anar seleccionant manualment parts del text escanejat i aplicant-hi uns estils pre-definits per el grup a propòsit per la tasca. La limitació però d’aquest mètode de treball, com bé va remarcar en Krysztof, és que LibreOffice no permet marcar de forma niada i per tant les àrees seleccionades no poden ‘contenir’ altres àrees marcades, és a dir, és una estructuració completament plana. Però l’important, crec que és assenyalar que aquest esquema tot i ser conceptualment limitat, a ells els hi funciona i produeix el resultat desitjat. El que no em quedà clar és com de la seva codificació plana passaven a la del XML-TEI…

La següent xerrada, va estar protagonitzada per en José Manuel Díaz de Bustamente, responsable – i un dels genitors – del projecte CODOLGA o Corpus Documentale Latinum Gallaeciae que sota el títol “Proto- e intrahistoria de CODOLGA: un proyecto anterior a la era PC” explicà de manera amena els precedents del projecte – abans dels ordenadors – amb la transcripció manual de centenars de fitxes de la documentació galaica visigòtica i dels heroics – vist des de la perspectiva actual – esforços fets en un Toshiba T-100 en la era pre-PC. No vaig poder sinó somriure al sentir la seva narració, ja que jo mateix també tinc la meva provisió de records personals relacionats amb aquest mateix model… Expressà com en la confecció de CODOLGA, el criteri d’inclusió d’un document en el corpus s’anà expandint tant geogràficament com conceptualment fins mirar de cobrir tot document que tingués quelcom a veure amb qualsevulla cosa que pugui ser denominada gallega. També aquí la seva exposició em resultà d’allò més proper atesa la tasca de construcció del Fons Cathalaunia. El que ja no m’agradà tant, és que si bé disposen actualment dels documents en format digital, no n’obren l’accés al públic – si però al propi grup d’investigació -: El motiu? El típic, els drets de copyright. En tornarem mes endavant sobre aquest tema. Interessant també la seva declaració de l’elevada tassa d’errors en les versions impreses dels documents medievals i com s’espera que les noves transcripcions, fetes amb l’accés informatitzat als documents originals en millorin força la qualitat. Finalment, he de subratllar la menció als projectes que CODOLGA té en cartera per un futur previsible, que passarien per detectar programàticament els topònims i antropònims de la seva base documental i poder-ne oferir per cada un d’ells els marcs geo-temporals en els que es manifesten, via consulta a través d’Internet; possibilitat certament interessant i que esperem que es porti a bon port el més aviat possible.

Aquesta sessió introductòria la tancà en Pere J. Quetglas que com a director de l’equip organitzador de les jornades, sota el títol “El Glossarium Mediae Latinitatis Cataloniae: historia t perspectivas digitales de futuro” feu una introducció, també molt amena, del passat pretèrit del projecte CODOLCAT que enfilant-se als temps d’en Josep Balari i Jovany, recordà les peripècies dels seus voluminosos arxius, que sembla ser que duts a la Universitat de Barcelona adquiriren l’estrany poder de desaparèixer d’aquesta realitat per reaparèixer al cap d’anys, incòlumes! Ja més a prop en el temps i en terreny més sòlid, comentà l’origen i la feina recollida en el Glossarium Mediae Latinitatis Cataloniae (GMLC) que dóna peu a l’eina de cerca filològica en línia CODOLCAT, i explicà també com era l’objectiu de l’equip director avaluar l’ús de la codificació XML-TEI en el treball de mirar de lligar la interfície de cerca actualment implementada en el CODOLCAT amb l’edició electrònica del GMLC i la seva base documental – uns 22.000 documents d’entre el s segles IX i XII segons consta en la seva pàgina web  – que actualment és solament visible en la intranet de l’equip de recerca.

Aquí he de fer un incís, ja que el fet de verificar com dos equips d’investigadors declaraven disposar de col·leccions electròniques de documents medievals més que considerables que no estan a l’abast del públic, em resultà d’allò més lamentable. No puc acceptar que texts escrits fa mil anys tinguin l’accés restringit; no em valen les justificacions usuals, que conec prou bé. Especialment quan he pogut comprovar arreu que entre els professionals hi ha un transvàs quotidià de versions electròniques d’obres antigues – i no hi tinc pas res a dir-hi, que la ciència no es pot fer des del silenci i l’obscurantisme -. Esperem doncs que aquesta voluntat d’apertura es materialitzi el més aviat possible i posem finalment a l’abast de la Humanitat una part més, al meu parer, ben preciosa, del seu propi llegat.

En resum, s’acabava una primera jornada d’un seminari que prometia ser de molt d’interès.

El segon dia, no hi pogué assistir fins la sessió de la tarda que tenia per lema: “XML – TEI, llenguatges informàtics i els treballs lexicogràfics“. El que era doncs la tercera sessió del seminari, l’obrí na Susanna Allés i Torrent sota el títol “Puesta en marcha del marcado del GLMC“. No sent filòleg i menys lexicògraf, no pretendré donar raó de la problemàtica que exposà que detectaven en la seva tasca de marcar mitjançant la codificació XML-TEI els continguts del GMLC. El que sí entengué, és que com era de preveure, les necessitats concretes de caracteritzar les entrades d’un diccionari de llatí medieval específic, no tenien uns corresponents adients, o si més no clars i evidents, en la codificació de l’estàndard en el mòdul per diccionaris del XML-TEI. En aquest sentit, ben previsiblement, el que es feia vaig entendre, era sobre-utilitzar alguna de les classes genèriques que XML-TEI – al igual que moltes altres codificacions – reserva per casos que s’escapin de la norma prevista[8]. Sí vaig trobar força rellevant la menció a la necessitat que les referencies a recursos externs en la web ( per exemple, altres diccionaris ) tinguessin URLs estables com per exemple el molt i molt citat exemple del DuCange. I també destacar la menció de la voluntat – encara en futurible – d’enllaçar les entrades del GMLC en línia amb els documents. No cal que digui que estic completament d’acord amb aquesta línia de desenvolupament.

La seguí en l’exposició i la temàtica na Frédérique Laugrost, sota el títol: “Problèmes d’encodage dans le GMLC“. La seva presentació reblà el clau de l’anterior ponent al detectar no pas pocs problemes comuns, que des del punt de vista d’un outsider, semblaven tenir en part un origen comú: una certa manca de distinció entre el que és aparença i dada, com si no hi hagués una conceptualització de base prou clara en la definició de les entrades, probablement signe d’un estadi encara incipient del projecte. Tothom que hagi hagut d’incorporar un volum significatiu d’informació en ordenadors, aprèn per les males, que ho hagués hagut de fer diferentment, o el que s’acostuma a dir: “primer has de fer la cosa per saber com s’ha de fer la cosa” i per tant no puc sinó solidaritzar-me al testimoniar una mena de problemàtiques que no em són pas alienes. Al final adjunto algunes consideracions sistèmiques sobre aquest tema.

Després d’una pausa per prendre un cafè i xerrar una estona, en Krysztof Nowak reprengué la sessió sota el títol: “TEI for eLexicon Mediae Latinitatis Polonorum: challenges from lexicographer’s view“. En aquest punt, mea culpa, les notes em fallen i no puc donar raó cabal del contingut precís de l’exposició d’en Krysztof que sí recordo que expressà problemes entre el sistema de codificació plana que utilitzaven en el seu grup i les estructuracions del XML-TEI. Recordo per exemple, dubtes en quant a la utilització de les recomanacions del consorci sobre el llenguatge natural dels continguts dels fitxers XML, però no puc sinó demanar disculpes per aquesta defectuosa descripció.

La darrera ponència de la sessió vingué de la mà de n’Agnieska Maciag que ens exposà: “eLexicon Mediae Latinitatis Polonorum: annotator’s perspective” que vingué a complementar la descripció que en Krysztof ens havia fet abans sobre el eLMLP en proporcionar exemples de les dificultats que es troben els anotadors a l’hora d’haver de triar entre una paleta limitada de classes d’anotacions amb la extensíssima variabilitat de la concreció d’una obra feta fa molts anys i òbviament sota criteris editorials força diferents dels actuals. Crec que és un problema semàntic, ja que la codificació sovint implica una conceptualització inherent; per exemple: recordo que Agnieska va presentar un parell d’exemples d’entrades on la categoria ‘definició‘ ( que a priori semblaria que sempre hauria d’existir en una entrada d’un diccionari ) no tenia equivalent evident. És a dir, alguns dels problemes venen de conceptualitzacions distintes, per això, sóc de l’opinió que ha de ser la pràctica, que és la que detecta quines són les categoritzacions reals que una obra o una tasca corporifica, la que ha de dirigir el procés de definició dels esquemes de codificació, la pràctica inversa, anar de la teoria a la pràctica és de preveure que porti aquesta mena de problemes.

El tercer i darrer dia, anava sota el lema: “Problemes d’interoperabilitat i perspectives de futur entre les obres lexicogràfiques” i començà amb una nova presentació d’en José Manuel Díaz  de Bustamente, en aquest cas, sota el títol: “Perspectivas de interoperabilidad entre corpus y diccionarios: la cuestión de la base de datos“. En José Manuel feu una introducció curiosa a alguns del conceptes del processament estadístic de texts i la seva utilització, per exemple, per detectar inclusions de fonts versificades dins la prosa medieval. Apuntà també la possibilitat d’una línia de recerca que explorés la utilització dels formularis visigots en els sistemes d’anàlisi estadístic dels corpus, i donà algunes dades prou rellevants, com que es calcula que en la literatura llatina, hi han no menys de tretze mil autors, més de dues centes vuitanta sis mil obres, de les quals un 73% estaria encara pendent d’edició, o que en la documentació dels regnes de Galícia i Lleó es disposen de no menys de cinquanta mil document medievals – dades que trec de les meves notes, i que prego disculpar si no s’ajustessin a la veritat – . Acabà presentant un projecte de Diccionari de Diccionaris, que si no ho vaig entendre malament s’està portant a terme a Lugo, i que fou tot un presagi de la següent exposició del matí.

Ja que el seguí la ponència en tàndem d’en Krysztof Nowak i en Bruno Bon sota el lema: “Un Wiki pour les dictionaires de latin médiéval“, que com el títol indica, presentaren un projecte – crec que amb finançament europeu – que implementa un wiki dedicat a aglutinar els diferents diccionaris especialitzats existents en cada part d’Europa. Idea que donat que el web cathalaunia.org és també un wiki puc entendre perfectament. Tal i com expressà en Bruno: un cop trobada la idea, resultà d’allò més natural; ho subscric completament. Com també subscric la seva decisió de fer un wiki d’edició restringida; exactament la mateixa decisió que es va prendre també a cathalaunia.org i que és ben natural quan els continguts del wiki tenen un grau d’estructuració no trivial.

La seva presentació fou molt interessant per mostrar la mena de desenvolupaments que es poden fer avui en dia. Per exemple: donat que els diccionaris van organitzats per paraules, una URL formada per un prefixe estable a partir del nom del web seguida del terme a consultar, pot dur a una pàgina on es trobi la informació sobre l’entrada que sigui global o comú als diferents diccionaris, mentre que si es prefixa el terme en la URL amb un codi geogràfic estàndard de dues lletres, es pot accedir al contingut de cada un dels diccionaris locals sobre el terme en qüestió. El grup utilitza una sèrie de plantilles per les diferents menes de pàgines del wiki, i en les dels termes, inclouen entre altres, descriptors de les fonts documentals on el terme es testimonia i donat que aquestes fonts poden també tenir associada una informació geo-temporal, les pàgines dels termes del wiki per defecte presenten una cronografia visual i una representació sobre el mapamundi d’on es situen les proves documentals de l’ús del terme. Conceptualment no puc sinó aplaudir entusiàsticament aquesta mena de realitzacions, però com fa l’adagi: the devil is in the detail , també he de fer una sèrie de consideracions crítiques.

Com aficionat a la Història, sóc conscient que la precisió de les informacions sovint és tant o més important que les pròpies dades, de forma que al veure que els mapes presentaven la informació sense indicar-ne visiblement el grau de fiabilitat, hem resultà intranquil·litzant per la possibilitat que al ser d’accés públic, els usuaris poguessin confondre la informació que es presenta en el mapes sobre utilització d’un cert terme llatí amb la que realment fou. L’alarma saltà ja completament quan es feu menció a la possibilitat de sobreposar sobre el mapamundi capes per indicar els països del context històric que s’estigui visualitzant; de nou, aplaudeixo la idea, però sols si es fa des del rigor, altrament, l’accés públic el que produirà serà la multiplicació de l’error ( la fiabilitat de la majoria de ‘mapes històrics’ públicament accessibles és més que discutible ). XML-TEI té esquematització per expressar fiabilitat, o sigui que a priori la seva codificació no hauria de ser un problema. Per el que fa als aspectes programàtics, tampoc puc aprovar el fet que aquesta tècnica de visualització actualment es basi en tecnologia propietària, en aquest cas, de Google, hauria de fer-se amb alternatives de codi obert per ser acceptable per els estàndards científics.

Però més enllà d’aquestes problemàtiques concretes, que crec perfectament adreçables si es fa amb més rigor, aquesta iniciativa és un bon exemple de la mena de desenvolupaments que les tècniques de la informació permeten i que espero que vagi a més el més aviat possible. Ben fet!

Després d’una animada pausa per el cafè, reprengué el fil de les exposicions na Mechthild Pörnbacher en una presentació titulada: “Lexicon musicum Latinum medii aevi: Un dictionnaire spécial elaboré dés son debut en 1961 avec l’aide d’une base de donnés pour les textes exploités“. Una presentació extremadament sòbria, que anà desglossant la tasca de creació de les fitxes – primer manualment, abans dels ordenadors – que van donar lloc al Lexicon musicum Latinum medii aevi. Compendi certament impressionant per la seva extensió i rigorositat. En clau personal, sí em feu gràcia, per els records que m’evocà, ja que algunes de les imatges de les primeres fitxes informatitzades que els responsables del projecte van utilitzar semblaven ser fetes amb Access 1.0.

La darrera ponència vingué de la mà d’en Lou Burnard sota el suggeridor títol de: “Interoperabilité des projects TEI: chimère ou apòthéose?“. He de confessar que m’esperava que amb aquest títol i sabent que en Lou venia com representant del XML-TEI, la ponència es centrés – més aviat favorablement – a la problemàtica intrínseca de l’aplicació pràctica de la iniciativa del consorci que hem explicat abastament abans, però no. Suposo que havent detectat que entre els diferents grups de filòlegs hi havia una certa mancança d’assumpció de la importància de l’esquematització, centrà la seva magnífica exposició en els rudiments i les eines pròpies del XML-TEI, de les que en feu per exemple, una llarga explicació de l’eina d’edició dels esquemes XML_TEI, Roma. Presentació doncs molt pràctica que acabà amb una sèrie de preguntes i respostes en les que en Lou explicà el procés de formació de l’estàndard i animà lògicament als p0nents a presentar els resultats de les seves esquematitzacions al propi consorci i cercar l’aprovació de la resta de la comunitat.

Tancà finalment el seminari tot exposant les Conclusions na Susanna Allés i Torrent. Que com no podia ser d’altra manera, ressaltà la coincidència entre les problemàtiques detectades entre els diferents projectes europeus en curs, i la doble necessitat, tant de continuar compartint experiències, com d’ampliar les tasques de col·laboració conjunta. Es tancava així un seminari eminentment pràctic que crec que ha estat de molt de profit per tots els participants.

Recomanacions

He dubtat molt abans d’incloure aquesta secció, ja que si deia al començar que sols des del coneixement profund de la problemàtica real es poden  dissenyar eines i solucions computacionals que siguin efectives, és evident que cap d’aquests dos supòsits poden complir-se en apenes unes hores d’exposició a la problemàtica de la codificació d’obres lexicogràfiques en llatí antic i medieval i que per tant, fora bo que em mantingués calladet. Amb tot, m’ha pogut el desig d’ajudar i en conseqüència, mirar de fer des de la més estricta modèstia la meva petita contribució a la problemàtica que el seminari m’ha permès de conèixer, com agraïment, i per si pugues ser casualment d’alguna utilitat. En tot cas, quedi clar que el que segueix cal prendre-s’ho cum grano salis!.

Encoratjaria des d’aquí als filòlegs del seminari a aprofitar l’experiència que ja tenen acumulada fins el dia d’avui en aquest esforç per mirar de consensuar – sempre des de la practicalitat – una esquematització global del que hauria de ser una entrada d’un diccionari de llatí medieval. És a dir, que cada un dels grups participants, desenvolupés en primer lloc una esquematització pròpia, parteixi o no de l’especificació XML-TEI, que resolgués efectiva i còmodament la seva problemàtica local, per després – o si es vol, paral·lelament –  mirar si és possible de trobar un comú denominador amb la resta de grups europeus que treballen en problemàtiques semblants. I sols als final d’aquest procés, i suposant que s’hagin consensuat una sèrie d’esquemes o convencions – totes elles convenientment explicades i explicitades -, mirar: 1) si aquest esquema s’adapta als del consorci XML-TEI , ja sigui via extensions de les seves classes o per un nou mòdul, si no s’ha partir dels seus esquemes, i 2) presentar, defensar i promocionar els resultats obtinguts al comitè i la comunitat del XML-TEI.

El que sí crec que fóra bo, és que hi hagués un retro-enllaç, una realimentació, entre la tasca de creació d’una esquematització adient i la de l’entrada de la informació, de manera que fos la pròpia pràctica de la incorporació de les entrades del diccionari la que anés definint com han de ser aquestes a nivell formal – mai al revés – i fer de manera que cada canvi en l’esquema sigui heretat per les entrades fins aquell moment ja realitzades. Dit així, sembla més complicat del que crec que seria, ja que per el que vaig entendre, amb l’experiència que els participants demostraven en la tasca, fer una esquematització inicial que sigui ja força ajustada no em donà la impressió de ser quelcom gaire difícil.

En tot cas, en la meva opinió, l’adopció de la codificació XML-TEI s’hauria de contemplar com un pas final, subsidiari de l’objectiu principal, que entenc ser la codificació efectiva dels diccionaris de llatí medieval. Fins i tot pot resultar recomanable l’estratègia d’utilitzar localment una esquematització pròpia, eficient, per un cop entrat tot el diccionari, crear un procés de transformació ( per exemple, basat en XLST ) que en generi una versió conformant amb l’estàndard XML-TEI en vistes a millorar la interoperativitat dels resultats, el que seria de fet,  una utilitat d’exportació en format XML-TEI.

Coda

Al final, cap de les problemàtiques privades que em van motivar a assistir al seminari, la codificació XML-TEI de documents de l’alta edat mitjana catalana i d’inscripcions ibèriques ( que tenen l’agreujant de no disposar encara de codificació Unicode! ) van tenir resposta. Però no vaig marxar pas decebut, ben al contrari, agraït per poder aprendre d’una temàtica que desconeixia i poder fer un cop d’ull privilegiat al món de la Filologia llatina medieval – món del que tinc molt a aprendre, com també és el cas del de la Filologia de l’ibèric – de la mà, d’una gent que no puc sinó qualificar que d’encantadora.

– Actualització –

Me’n adono un cop publicada aquesta entrada d’haver comés la indelicadesa de no haver mencionat a la resta de ponents que no vaig tenir oportunitat de sentir!

Del programa del seminari: Sabine Thuillier, que presentà: “Présentation du project éditorial du Diccionario Griego-Español et de son informatisation” i Renaud Alexandre sota el títol de: “NGML Markup Language: retour d’expériences“.

Vagi’ls-hi doncs aquesta menció tardana amb les meves disculpes per tal omissió.

– Actualització 2013-VI-2 –

Feliçment, he pogut localitzar un comentari del seminari en el bloc del propi Lou Burnard – publicat el dia abans d’aquest mateix apunt -que cobreix especialment les ponències que no vaig poder presenciar i que per tant  complementa aquest comentari i en proporciona un agradable punt de vista alternatiu.


Notes

  • [1] Quelcom similar passa amb altres termes tècnics, com per exemple: ‘reds neuronals‘, que quasi be mai he sentit correctament aplicat en boca d’experts humanistes. El que sí els he vist expressar obertament, és la seva poca ‘confiança’ – per dir-ho suaument – vers els professionals de la computació! Sóc ben conscient de la merescuda mala fama de la gent de les TIC, però també és cert – com es diu dins del ram – que de vegades el problema està entre la cadira i el teclat!🙂
  • [2] Generat per exemple a base de calcular el sumatori del valor de cada símbol multiplicat per N elevat a la potència de la seva posició en la sèrie.
  • [3] Exemples aquests tots ells provinents de les màquines d’escriure mecàniques i dels primers teletips electrònics que les imitaven, i que reflecteixen l’arbitrarietat subjacent en algunes de les codificacions encara en ús.
  • [4] Les radicals conseqüències socio-econòmiques d’aquest simple fet, estan encara lluny de fer-se plenament visibles.
  • [5] Sí es permet però, per comoditat, que si un meta-dada no té contingut lliure, es pugui suprimir el tag de tancament variant el terminador de d’obertura, per exemple: ‘<tag-sense-contingut/>‘.
  • [6] L’altre major problema pràctic és la seva verbositat, ja que no és infreqüent que el marcatge ocupi més lloc que el contingut.
  • [7] Especialment en camps relacionats amb la computació i la comunicació via Internet.
  • [8] Concretament crec que es cità l’element dictScrap.
Aquesta entrada s'ha publicat en Abbyy, Access, Agnieska Maciag, Bruno Bon, cathalaunia.org, CODOCAT, CODOGA, CSIC, DuCange, eLMLP, filologia llatina medieval, Fons Cathalaunia, Frédérique Laugrost, GLMC, IMF, José Manuel Díaz de Bustamente, Josep Balari i Jovany, Krysztof Novak, Lexicon musicum Latinum medii aevi, LibreOffice, Mechthild Pörnbacher, OCR, Pere J. Quetglas, Susanna Allés i Torrent, teoria de la informació, Toshiba-T100, Universitat de Barcelona, XLST, xml, xml-tei i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

2 respostes a XML-TEI a la Institució Milà i Fontanals.

  1. Carles Vela ha dit:

    Benvolgut, m’han interessat molt els teus comentaris i el perfil que es dedueix que tens arran de la teva ressenya… voldria dirigir-me a tu més discretament, però m’ha resultat impossible trobar una adreça de correu de contacte o fins i tot el teu nom… M’agradaria comentar-te un projecte que tinc al cap… si em pots passar una adreça de contacte, te’n faria cinc cèntims més. Agraït, Carles

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s