2016-octubre a cathalaunia.org

Inesperadament, octubre ha estat un mes ibèric. També el més passat havia tingut una forta activitat en aquesta temàtica, però la previsió inicial era concentrar-se en el Fons Cathalaunia i l’alta edat mitjana (la proximitat de la marca dels 1.000 documents, encara que sigui una fotesa, fa il·lusió). Amb tot, tot just encetat el mes, una idea va fer irrupció i a partir d’ella se n’ha anat tota l’activitat del mes. El resultat és més que interessant, així que no ens queixarem pas, però és ben cert que no estava pas previst.

La idea va ser molt simple: atès que el corpus d’epigrafia ibèrica de cathalaunia està fet codificant informàticament els signes originals de l’escriptura, i no a base de translacions fonètiques amb lletres llatines com acostumen a emprar els filòlegs, es podia analitzar la presència conjunta de més d’una variant d’un mateix so (dues ‘a’s, o dues ‘l’s, escrites amb glifs diferents) en una mateixa inscripció, sota el principi que si això es detectava de forma no espúria, podia indicar intencionalitat per part de l’autor original (com nosaltres bé diferenciem entre majúscules i minúscules o entre posar o no accents), i per tant, ser una informació a tenir present.

Hom podrà pensar que una consideració tan bàsica, ja hauria estat atesa fa molt de temps, però la realitat és que no. La dificultat de treballar amb els signes originals (i entre les escriptures preromanes, s’han detectats més de dos cents glifs diferents) i la necessitat de mirar d’escatir com sonava (el que els filòlegs entenen per ‘desxifrar’) van fer que la transliteració sigui la norma, i que l’aspecte original d’una inscripció fos un tema, si bé inevitable, en tant que en ser de factura autògrafa la seva lectura és sovint dubtosa, no per això, integrat en l’estudi integral de la llengua. Interessava saber si hi havia un ‘ti’ o un ‘to’, la forma en que estigués escrit no era (lògicament) una informació especialment rellevant.

Excepte quan s’ha arribat a plantejar l’establiment d’un signari unificat, llavors és quan el tema dels glifs i el de la seva variabilitat ha passat a ser indefugible, i la solució més recentment proposada (en la codificació de l’escriptura ibèrica per l’estàndard Unicode), ha estat dràsticament reduccionista. Dels més de cent-trenta glifs diferenciables emprats en la codificació de cathalaunia (seguint essencialment la proposta de na Carme Huertas), o dels 95 llistats per Untermann, hem passat a 49, amb un únic glif per so. Segons això, tot el corpus ibèric es pot resumir en cadenes d’aquests 49 signes. Ara, era això així per els autors? La contradicció entre una llengua amb 49 sons, però amb un centenar de glifs per representar-els, sembla evident. I el que resulta simptomàtic, preguntats els experts per tal incongruència, no hi ha una resposta clara. El tema sovint s’obvia, la mateixa proposta per Unicode es limita simplement a dir que existeixen variants i que s’han triat les formes més representatives per a cada un dels sons  (una consideració de passada: com poden saber quin glif, quina forma és la més freqüent, si els únics corpus globals existents amb tal informació són, el creat per la Carme Huertas i en David Folch i el derivat del seu de cathalaunia…!?).

Així que tenim una manera de verificar si efectivament només ‘s’emprava un únic glif per so en un moment donat, ja que si fos així, mai, (o molt rarament) trobaríem dues variants d’un mateix so en un mateix escrit (excloent els casos de glifs amb formes molt properes, i per tant explicables a partir de la variabilitat natural d’una escriptura autògrafa). Informàticament resulta trivial detectar quins signes apareixen amb quins altres, de manera que tenint el corpus, les capacitats tècniques i la idea, no es podia deixar passar l’oportunitat. El que no s’esperava era que arrastrés la feina de tot un més a partir de les seves conseqüències.

Aquest bloc, ha tingut un entrada on es detallen els resultats d’aquesta recerca (purament quantitativa), i queda encara un apunt més per fer sobre aquest tema, de manera que avui ho deixarem aquí.

Però l’àrea ibèrica de cathalaunia, ha tingut també un seguit de millores durant aquest mes.

  1. S’ha corregit un petit error que feia que en certes ocasions (epigrafies d’una única lletra) en els resultats de les cerques, en comptes de mostrar-les ressaltades, no apareguessin.
  2. Si un mateix text original existeix en més d’una versió en el corpus (relectures fetes per diversos autors) s’han afegit les referències a questes altres versions (amb la notació ‘idems’, en cada una d’elles, a semblança del que ja es feia per altres redundàncies en el Fons Cathalaunia). Actualment hi han una seixantena d’epigrafies ‘redundants’[1].
  3. Les eines de cerca simplificada s’han vist reforçades, amb un seguit d’agrupacions de signes predefinides noves (coses com: vocals, consonants, sil·làbics, etc). Això no és estrictament una novetat, és sols una facilitat (emprant els ‘[”]’ ja es podien fer les mateixes cerques) és sols que ara, són més fàcils de fer. Però també s’ha afegit un operador lògic nou ‘&’, i això sí es una millora estructural. Fins ara, una cerca buscava epigrafies que complissin una única condició (per exemple, que presentin una ‘a’ seguida d’un ‘ki’), amb aquest nou operador podem afegir condicions extres (en l’exemple anterior, que a més, tinguin una ‘o’ seguida d’un ‘ba’). És una primera versió, encara està en proves i hi han coses a polir, però tot el que sigui ampliar les capacitats de consulta és més que benvingut.
  4. I per si fos poc, s’han afegit un grapat d’epigrafies noves.

Però el mes havia començat amb un parell d’esdeveniments acadèmics que ja havien estat anunciats en aquest bloc. Esdeveniments als que es va poder assistir, i que, tot i que no han generat un apunt propi per manca de la necessària adequació, si poden ser col·loquialment consignats en aquest resum mensual. Començant per el darrer…

El dia 5 del mes tingué lloc en la sala Nicolau Olwer de l’IEC, la conferència: L’auge dels Cartellà al segle XIII: política i genealogia, de la mà de na Mercé Homs i d’en Stefano Cingolani. Havent tingut notícies prèvies de la cuina del projecte, no va ser cap sorpresa el grau d’erudició, documentació i detall del treball presentat. Sempre sembla un luxe rar per els qui estem estudiant èpoques menys ben documentades, el poder disposar de centenars de documents sobre la matèria a investigar. No així en l’edat mitjana, on el repte sovint és saber organitzar i presentar la massa documental disponible. Entenc que en aquest sentit, el treball presentat en l’ocasió mostrarà en la seva edició sobre paper un més que ben servit aparell documental. El nivell d’excel·lència de la producció prèvia d’en Cingolani en aquesta mena de reptes, aportarà sens dubte la contrapart complementària a la exhaustiva reconstrucció genealògica realitzada per Homs.

A tall personal. Sempre té quelcom de captivador sentir les disquisicions de qui s’ha dedicat a reconstruir vides i famílies llongament passades. És un punt on la vivència de la Història s’acosta a l’Art; i on el contrapunt d’una documentació rigorosa forneix el complement per fer-ne de tot plegat un digne fruit de l’amor al saber.

Un parell de dies abans, en la Sala Pi i Sunyer del mateix IEC, s’havia celebrat una Jornada de títol: Catalunya i les noves tendències en cartografia històrica. Esdeveniment que reuní set ponències que donaren un tast molt ben equilibrat de la temàtica enunciada.

No sent cartògraf, disculpeu que no entri en els detalls de les ponències, – no podria fer més que mostrar ignorància -, però sí aportar un comentari com a professional del món de la computació i estudiant de les labors de Clio; però primer, llistem les ponències.

  1. Obrí la sessió, en Josep Guitar (UAB,ICAC,IEC): Cent anys de cartografia del món romà: el programa TIR-FOR.
  2. Rafael Roset (ICGC): La digitalització de mapes antics.
  3. Jordi Bolós i Masclans i Víctor Hurtado (UdL): Els atles dels comtats de Catalunya i la digitalització de la cartografia històrica.
  4. Marta Prevosti i Núria Romaní (ICAC): Una nova metodologia per a la cartografia del món romà.
  5. Ada Cortés i Pau de Soto (IEC,ICAC): Panorama de la cartografia del món antic on line.
  6. Johan Åhlfeldt (Lund University): The Digital Atlas of Roman Empire.
  7. Leif Isaksen (Lancaster University: Mapping the Ancient World in a Digital Age.

Abans d’entrar en el nucli del tema que sí vaig trobar sorprenent de la jornada, no puc deixar de comentar que en la ponència d’en Bolós i Hurtado, es va anunciar que l’any que ve apareixeria el darrer volum dels ‘Atles del comtats de Catalunya‘. Es completa així una feinada de trenta anys! Només puc afegir des d’aquí el desig que, tant de bo pugui trobar el seu reflex digital.

Ara, anant al tema espinal de la jornada: la digitalització i la cartografia històrica.

Va ser una jornada on es va poder evidenciar les dues menes d’iniciatives actualment existents en la intersecció entre el mon del coneixement i el de la difusió digital d’informació. En un primer nivell tenim les iniciatives que generen les dades, on els experts van aportant i construint el coneixement que es mostra al públic (biblioteques, diccionaris, enciclopèdies, bases de dades, webs, instituts, etc, etc) i en un segon nivell, les iniciatives que a partir de les dades que proporcionen els primers, procura crear un valor afegit agrupant-les i presentant-les de manera adient. Simplificant, col·loquialment: productors i recol·lectors.

El conjunt funciona gràcies a que en el primer nivell, els productors, segueixen generalment la recomanació dels experts en comunicació i per a cada ítem que volen exposar al públic faciliten una adreça electrònica estable (URI, en la terminologia del sector). Així, per exemple, cada biblioteca assigna a cada una de les seves entrades bibliogràfiques una adreça d’accés públic única i fixa. El mateix, per a qualsevol altra mena d’iniciativa, siguin llibres d’una biblioteca, topònims d’una base de dades geogràfica, o entrades d’una enciclopèdia (a cathalaunia.org, per exemple, cada document altmedieval, cada epigrafia ibèrica, cada antropònim, etc, té una adreça única i estable al llarg dels temps). Això permet que un actor extern, humà o mecànic, pugui enllaçar de manera fiable amb els continguts presentats.

Bé, aquest primer nivell, és  doncs on es genera el coneixement i on treballen els experts en cada un del camps corresponents a cada una de les iniciatives. Un nivell format per milers de webs i institucions, cada una experta en el seu camp.

El segon nivell, és més eteri, i per copsar-lo cal com cal cal entendre que en la informació digital, els éssers humans no som el principal consumidor, ho són les màquines, els programes.

La majoria de les comunicacions entre ordenadors estan originades per programes, no per persones. La gent som els creadors i com a molt l’usuari i controlador final, però un programa pot fer en dècimes de segon el que a una persona li prendria tot un dia, i per tant, en realitat, el gruix dels intercanvis entre ordenadors estan originats per programes. Tant si tenen un objectiu més o menys decent, com per exemple recollir i analitzar la informació per facilitar-ne el seu accés (cercadors), com per altres usos més tèrbols. De manera que cada una d’aquelles adreces web estables (URIs) que els productors de coneixement van creant i assignant a les dades, en realitat és emprada bàsicament per màquines, per programes que van recollint la informació. I és que la informació es compra i es ven, res és innocent en aquest món.

En el segon nivell, dèiem que tenim les iniciatives que viuen de les dades presentades per els productors del primer nivell, de manera que a efectes pràctics estan al mateix nivell que els programes i empreses que es dediquen a col·leccionar/mercadejar amb les dades. Cert que no tenen perquè ser el mateix, però cert també que tampoc es poden diferenciar operativament. La idea, és que en el millor del casos, algunes iniciatives intenten aprofitar les sinergies derivades del creuament de dades de varis productors del primer nivell per afegir un valor nou, no present en cada un dels productors per separat. Però a diferència dels del primer nivell, que resulten relativament fàcils de qualificar (és bona la informació que presenten? és completa? verificable? etc, etc), aquest valor afegit, emanat d’una agrupació i organització/presentació de les dades del primer nivell, és mes difús i de mal avaluar. Hi ha de tot, des de projectes amb molt de sentit a autèntics venedors de fum. I aquí tinc que tornar a la jornada.

Entre els primer ponents tindríem exemples d’iniciatives del primer nivell, productors nets de coneixement. El sisè, en Johan Åhlfeldt, el del projecte DARE, seria un exemple dels de segon nivell (a cathalunia.org ja fa anys que en les adreces d’interès hi figura un altre dels seus projectes: el Regnum Francorum Online). Un intent d’aprofitar la connectivitat i les dades d’una pluralitat de productors per fornir una versió digital del projecte TIR-FOR on poder consultar en línia les dades disponibles de cada assentament conegut de l’imperi romà. Un projecte encomiable, però com tots els ‘recol·lectors’, a priori,  de mal avaluar o verificar.

La setena ponència, però, mereix un esment a part ja que en Leif Isaksen representava al projecte Pelagios, una variant diferent d’aquest mateix segon nivell, i aquí, com a professional del món de la computació hi tinc força més a dir.

Hem dit que les iniciatives de segon nivell recollien informació, ara, és ben evident que no és el mateix recollir/organitzar informació històrica, que sobre biologia, o sobre calçat, si voleu. Cada àmbit del coneixement defineix una pluralitat de maneres possibles d’organització, de manera que les iniciatives de segon nivell, utilitzen, cada una d’elles, les convencions per agrupar i presentar la informació que els hi semblen més adients. Dit d’altra manera, generen un nivell d’abstracció superior al dels productors. El problema amb els nivells d’abstracció (i els professionals de la computació en som especialment conscients) és que res impedeix que siguin també abstrets al seu torn, de manera que podem anar construint jerarquies ontològiques per organitzar la informació amb una certa facilitat i/o arbitrarietat. En els productors, aquest problema també hi és, però està força acotat, tota vegada que cada disciplina defineix les seves formes d’organització bàsiques; no així entre els recol·lectors, on no hi ha cap norma o criteri fiable a seguir. Tots els intents coneguts de sistematització ontològica (i la informàtica n’ha esperonat uns quants) s’han enfonsat davant la natura eclèctica del coneixement humà.

El projecte Pelagios està entre els que malden per crear estàndards d’intercomunicació de projectes sobre coneixements històrics, especialment entre nomenclàtors digitals (gazetteers en la moda del sector, com per exemple el projecte parent Plèiades). La idea és basa en mirar d’utilitzar/compartir/promoure una ontologia/conjunt d’ontologies descriptives d’aquesta mena d’informació. El problema és doble: tècnic i pràctic.

En la part tècnica, volen emprar els principis del Web Semàntic, un dels blufs informàtics més repetits aquests darrers anys, ja que per una banda necessita sí o sí que la gent (els productors, i especialment els  recol·lectors) facin servir les seves facilitats i anotin la informació d’una certa manera (les ontologies que dèiem), i per l’altra, confia infundadament en les suposades bondats del tractament informàtic del llenguatge, quelcom que la pràctica ha anat desmentin reiteradament. I en la part pràctica, tenim que en dependre essencialment del grau d’utilització dels productors i/o recol·lectors de les seves utilitats/convencions, adopten estratègies de màrqueting per mirar d’implantar-se; quelcom que sembla antitètic amb la filosofia dels productors, que a priori sols procuren atendre al Coneixement. Hom trobarà en les pàgines dels llocs web d’aquesta mena d’iniciatives desenes d’invitacions a ‘unir-se a la causa’, però poca o cap descripció de ‘la causa’, una casuística recurrent en els models de màrqueting expansius. Recorda aquells intents basats en el: ‘si tothom fes les coses així…’, on usualment hi ha algú que controla el ‘com’ i que en el fons aspiren a fer-se ‘too big to fail’. Entenguis, no és que no pugui tenir beneficis per a la comunitat en general, en teoria, (i el basar-se en estàndards oberts és una decisió absolutament correcta),  és que la pràctica recomana no posar massa ous en un mateix cistell[2].

Aquí hi ha un perill real, ja que l’experiència ensenya -durament- que apostar per projectes amb una base teòrica feble[3], fa perdre molt de temps i esforços mirant de fer girar una roda que per començar no era rodona. Pot semblar un comentari dur, però neix de l’experiència acumulada en dècades de programació en la IA. Suposo que és un punt de vista contrari a una part dels ponents (alguns d’ells relacionats directa o indirectament amb el projecte Pelagios), però he vist massa vegades esforços dedicats a intents de codificació (per descomptat,  fets amb la millor de les intencions), que han acabat a la paperera, a voltes per no ser pràctics, a voltes per la desaparició d’alguns dels participants claus, a voltes per simples interessos econòmics, o simplement per fer-se vells. Si una iniciativa així pot servir per recollir subvencions i fer bullir l’olla un temps, fantàstic; si incrementa la visibilitat d’alguns dels productors, millor encara; però els grans plans d’un futur millor via integració de la informació són, ara per ara, fum. El futur de la codificació i manipulació de la informació està encara massa obert. De fet, ho està tant, que no tenim ni idea de per on evolucionarà.

Tornant finalment a la visió general. Els productors generen un coneixement efectiu, alguns recol·lectors com els d’en Åhlfeldt, poden també generar-ne en la mesura que complexin els estàndards de rigor i verificabilitat dels productors base que utilitzen, però nivells superiors d’abstracció, d’organització de la informació, tenen el perill real de ser més bones intencions que no pas ajudes efectives, ja que la teoria i la pràctica, ensenyen que el consens es difumina quan el camp examinat, el domini del coneixement, s’amplia -i en aquest bloc ja vàrem comentar fa un temps la problemàtica d’un cas força més concret i per tant força menys problemàtic-. Com s’ha dit abans: tots els intents de sistematització/mecanització ontològica del coneixement humà han fracassat fins el dia d’avui[4].

Resumint, vaig sortir de la jornada amb una sensació agredolça. Que la gent que treballa amb nomenclàtors sigui conscient dels beneficis potencials de la difusió digital és una excel·lent notícia, ara, que puguin abraçar-la satisfactòriament sense recórrer al consell dels experts en computació (i aquesta és la sensació que un sovint té), és fals. Les monedes sempre tenen dues cares.

La Bibliografia del mes també ha estat marcada per la llengua i l’escriptura ibèrica. Un allau de lectures ha fet desbordar la llista de ‘perllegir’s, i en tractar-se d’una temàtica no troncal, s’ha preferit atacar-la frontalment i llegir i processar-ho tot, per tal de no deixar un pòsit potent de lectures pendents no estrictament històriques. La majoria d’aportacions són treballs excel·lents, però també hi ha alguna astracanada, tot sigui dit.

Però per el que fa a l’alta edat mitjana, aquest mes també hi han hagut un parell de notícies bibliogràfiques inesperades, aquest cop en la Gallica de la BNF. Per una banda un parell de cartularis de la zona Tolosana, que si bé afecten poc al treball en el Fons Cathalaunia (actualment processant els documents anteriors al 915), sí aporten informació rellevant un cop ben entrat el segle X, es tracta de: Durban, Cau : 1896 : “Abbaye du Mas d’Azil. Monographie et cartulaire 817 – 1774. I especialment, de: Ourliac, Paul + Magnou, Anne-Marie : 1984 : “Cartulaire de l’abbaye de Lézat”, cartulari aquest que si ja en la ressenya del primer volum es féu notar la manca d’índexs, promesos per el segon, l’edició final d’aquest, obvià presentar-ne per a la cronologia. Manca inexplicable, després de la feinada dels editors.

De manera que per a qui li sigui convenient, aprofitem aquest apunt per proporcionar dos PDFs amb els índexs cronològics del cartulari de Lézat. Un ordenat per document, i l‘altra per data.

L’altra sorpresa va ser constatar que els volums de: Magnou-Nortier, Elisabeth + Magnou, Anne-Marie : 1996 : “Recueil des chartes de l’abbaye de la Grasse”, ara es troben disponibles en format PDF (seguint l’enllaç, els trobareu). Potser ja fa temps que hi són, però aquí, certament ha estat una novetat; les fotocòpies sobre la taula ho proven fefaentment.

Finalment, seguint el costum, llistem les incorporacions del mes per seccions[5]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.559 pàgines consultables.


Notes

  • [1] Es poden llistar especificant en la cerca global del web (a dalt a la dreta de la finestra): “Iberika/ idem”. Actualment llista 121 epigrafies, on la immensa majoria corresponen a texts existents en dues versions alternatives.
  • [2] Tot i que en la presentació del projecte es descriu com una iniciativa descentralitzada, el fet, és que els programes que vulguin emprar les seves facilitats programàtiques (la seva API), acaben enviant peticions a pelagios.org. La pregunta és inevitable: i si falla pelagios.org?
  • [3] La debilitat estructural del Web Semàntic rau en una indemostrada confiança en la capacitat de processar mecànicament el coneixement i la parla humana. L’estat actual, és que les dues úniques vies d’aproximació efectiva a aquesta problemàtica tenen dificultats estructurals sèries. Les xarxes recurrents, per falta d’una modelització matemàtica estable, i l’aproximació estadística (simulació a gran escala) per comportar un cost computacional prohibitiu i un abast sempre limitat a domini.
  • [4] Per exemple, no vull ni pensar en el desgavell que poden causar en aquesta mena d’agregadors de dades semi-automatitzats els programes fets amb mala intenció. I la trista realitat, és que el dubte no és is passarà o no, és quan.
  • [5] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Aquesta entrada s'ha publicat en Ada Cortés, Atles del comtats de Catalunya, Carme J Huertas, Cartellà, cartografia històrica, Cartulaire de l'abbaye de Lézat, cathalaunia.org, DARE, David Folch, epigrafia ibèrica, Fons Cathalaunia, Gallica, genealogia, IA, Iberika, IEC, Jürgen Untermann, Johan Åhlfeldt, Jordi Bolòs i Masclans, Josep Guitar, La Grassa, Leif Isaksen, Marta Prevosti, Mas d'Azil, Mercé Homs, Núria Romaní, Pau De Soto, Pelagios, pelagios.org, Pleiades, Rafael Roset, Recueil de chartes de l'abbaye de la Grasse, Regnum Francorum Online, Stefano Maria Cingolani, TIR-FOR, Tolosa, Uncategorized, URI, Víctor Hurtado, Web Semàntic i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s