Un corpus unificat de texts antics.

English version

Farà un dies, en una entrada en el bloc d’en Jonathan Jarrett sobre el tractament del gènere en la història, els comentaris derivaren vers una qüestió que he sentit unes quantes vegades i que trobo certament rellevant.

El tema era que en la Història, a diferència d’altres ciències, l’empirisme juga un rol més aviat secundari i no és estrany que els historiadors facin asseveracions sobre una base documental que no es presenta o no és obertament accessible per la resta d’investigadors, sense que això generi un rebuig sistèmic, com passaria en altres disciplines com Matemàtiques, Geografia o Física. En la conversa es qüestionava – ben lúcidament – fins i tot, fins a quin punt, el coneixement que tingui un historiador del corpus documental que estigui utilitzant un altre, afavoreix de fet, l’objectivitat del judici del primer sobre el treball del segon.

Aquests comentaris van disparar una reacció personal, ja que com aficionat recent a l’estudi de la Història, recordo la meva genuïna estupefacció al comprovar la inexistència de coses que per a una persona més aviat ‘de Ciències’ com jo, semblaven del tot bàsiques per l’estudi de la matèria… Per exemple: ni tant sols les fonts documentals estaven ‘normalitzades’ i no era estrany haver de recórrer a edicions de llibres antics o de difícil localització.

Per això, vaig proposar en la conversa del bloc d’en Jonathan l’establiment de quelcom que a mi em resulta del tot evident, desitjable i necessari, com seria un recull, un corpus unificat de texts antics, i derivat del seu ús, una notació associada normalitzada – que cada ‘text’ tingui un identificatiu únic -. Mogut per el convenciment de què tot el que es faci per mirar d’objectivitzar el coneixement és en principi beneficiós, sense per això deixar de ser conscient també que hi ha molt de saber en l’estudi de les Humanitats, que és per natura difícilment correl·lacionable a quelcom tan concret com un conjunt de fons documentals determinat. Les respostes van plantejar ja les primeres dificultats d’un tal projecte.

El tema va ser posteriorment adreçat magistralment en el bloc de magistra, tot detectant-t’hi unes quantes dificultats més, i donant raó dels desenvolupaments coneguts actualment en aquest tòpic. He volgut doncs mirar de posar per escrit, per claredat, els rudiments de la proposta de com podria ser un tal Fons mirant de respondre – en la mesura de lo possible – les dificultats detectades.

Esborrany per un Fons Unificat de Texts Antics

El motiu per la creació d’un tal projecte, ha estat ja exposat, i es basa essencialment en els guanys que representaria per el treball dels historiadors l’existència a Internet d’un Fons públic i d’accés universal de texts antics disponibles en format electrònic estandarditzat.

L’objectiu pràctic seria reduir a un mínim el temps emprat per accedir a un text antic, i l’estratègic, seria complementar el sistema de citació/notació actual basat en el llibre imprès amb l’ús d’identificadors textuals universals – trivialment transformables en URLs – per tal d’anar incorporant la utilització de recursos electrònics en la pràctica de la disciplina historiogràfica.

L’ús

El sistema s’imagina basat en l’existència d’un lloc web, diguem-li genèricament ‘fons.org’, on es presenten els texts antics coneguts, identificats cada un d’ells per un codi diferent, en la seva forma més simple, un número correlatiu; anomenem a aquest codi per exemple ‘TID’. El lloc web, fons.org, a més, se suposa que respon a una URL com: ‘http://fons.org/TID123245’ amb una pàgina web on es troba una versió pública i en format estandarditzat del text antic amb el TID=12345 al costat d’altra informació disponible sobre el text demanat.

És a dir, l’historiador, si vol saber a quin text correspon un TID, tant sols ha de consultar una URL trivialment derivada del propi TID. Alternativament, si un investigador vol referenciar en un treball seu un text del Fons, tant sols ha d’indicar el seu TID, per exemple : (TID12345).

Una analogia útil, és pensar que cada TID, no és res més que una edició nova del text antic, i que pot ser utilitzat per tant exactament igual que s’utilitza una edició de la HGL d’en de Vic, els Catalunya Carolíngia o la MGH. La diferència, és que l’edició es digital, gratuïta, i d’abast global al ser accessible des de Internet.

Per que un sistema com aquest funcioni, cal que cada TID sigui tant estable com ho són els llibres impresos, és a dir, cal emular el principi físic que dóna validesa al sistema de citació actual, i per això, tota modificació en el contingut d’un TID després de la seva creació, ha de comportar el canvi del propi TID, per tal de no alterar involuntàriament els continguts referenciats externament en la literatura historiogràfica preexistent. Una manera fàcil d’aconseguir aquesta estabilitat, sense desvirtuar essencialment la unicitat dels TIDs, és afegint-els-hi una notació de versió, per exemple, el TID12345.22 indicaria que s’està referint en concret a l’edició o modificació 22 del text 12345, mentre que un TID12345 faria referència al text 12345 en versió inicial, o si es vol, en versió genèrica.

L’organització

La creació d’un tal sistema, implica l’existència d’una organització estable que li dongui suport. Organització responsable per tant del manteniment del Fons i de l’assignació dels TIDs. Tasca que si bé és de natura acumulativa, cal esperar que vagi evolucionant en el temps segons els requeriments canviants no sols del objectius parcials que es vagin proposant per la constitució del Fons, sinó de la pròpia evolució de les demandes del propi sector historiogràfic.

Donada la possible amplitud del corpus a incorporar, no sembla raonable esperar que la pròpia organització disposi permanentment de tots els experts necessaris per gestionar la incorporació dels texts, i per això semblaria raonable establir vies de col·laboració amb els grups acadèmics adients a cada tipus de text. Per la mateixa raó, no sembla tampoc raonable que sigui la pròpia organització la que faci la tasca d’identificar i incorporar els texts en el Fons. Sí però hauria de ser la responsable de crear les eines programàtiques per el seu funcionament estable, motors de cerca textual, eines d’exportació, etc.

El funcionament, doncs, es podria establir com altres organismes existeixen a Internet , per exemple, l’ICANN, i establir uns protocols públics d’incorporació i edició de texts en el Fons. La organització sí és responsable de gestionar aquests protocols.

Per el que fa a la creació de les dades del Fons, tindríem essencialment dues menes de peticions externes : d’incorporació o creació d’un nou TID, i d’edició o modificació d’un TID ja existent. N’avancem una esquematització bàsica de cada una d’elles.

Per crear un nou TID cal presentar una petició d’incorporació (PI) que ha de proporcionar com a mínim: el text a incorporar – lliure de drets – i informació de la seva font (bibliografia on ha estat prèviament imprès, URL d’edició digital, manuscrit d’on ha estat transcrit, etc). Opcionalment, es poden incloure molts altres conceptes, que poden ajudar al procés de decisió. La organització processa aquesta petició als experts col·laboradors adients, i pot acabar essencialment de tres maneres:

  1. Rebutjada, per el motiu que sigui (formals, legal, tècnics, etc).
  2. Acceptada i creant un nou TID. És a dir: la organització i els experts han dictaminat que efectivament el text presentat és vàlid i no existeix prèviament en el Fons. En aquest cas, el resultat és el nou TID creat a partir de la versió del text proporcionada, de la informació de la seva font i la resta de dades aportades.
  3. Acceptada, però creant l’edició d’un TID prèviament existent. És a dir: s’ha considerat que el text no és una novetat sinó una derivació d’un text ja existent en el Fons. En aquest cas el resultat és el TID de la nova edició.

El procés d’edició, és similar, però amb la significativa diferència de què no té perquè implicar un nova versió del text. És a dir, per presentar una petició d’edició (PE), cal referir-se a un TID preexistent, i especificar, les dades a canviar amb la seva justificació pertinent. Les dades poden ser tant el text en sí, com les dades opcionalment associades (per exemple, bibliografia). Conceptualment, pot acabar de quatre maneres possibles:

  1. Rebutjada.
  2. Acceptada i creant una edició nova del TID.
  3. Acceptada però incorporada en el propi TID referenciat. Per els casos de modificacions menors o de poca importància.
  4. Acceptada però creant un nou TID. Aquest seria el cas si es considerés que els canvis requereixen la creació d’un TID propi.

La discussió

Cal ara repassar les dificultats que són de preveure en la creació d’un tal corpus unificat de texts antics, tot examinant les objeccions fins ara ja expressades i fins a quin punt un sistema com el proposat pot donar-els-hi resposta.

El primer problema expressat va ser la pràcticament impossible definició de què és un ‘text’, i per tant, quin criteri es podria fer servir per diferenciar un TID d’un altre. Certament no existeix una definició, un criteri únic que es pugui utilitzar de manera universal, ja que la noció d’unitat textual és certament relativa i depenent de factors externs al propi text.

La resposta a aquesta dificultat crec que ha de ser que no és imprescindible l’existència d’un criteri uniforme o unitari per la creació d’un corpus. El Fons, no pretén ser l’encarnació de o basar-se en una taxonomia textual preestablerta. Per això, per respondre a la crítica pregunta de si un text existeix o no dins del Fons, es planteja de diferir la decisió als experts corresponents segons el tipus del text; el que sí se’ls hi ha de proporcionar són les eines informàtiques necessàries (per exemple, facilitats per detectar similituds entre un text nou i els texts existents en el Fons). En altres paraules, el Fons no ha de seguir un criteri unitari, tant sols un criteri que es demostri efectiu en el seu ús, i per això, basat en  l’opinió dels experts sectorials. O mirat des d’un altre angle: el Fons serà més aviat d’utilitat en la mesura que els seus continguts siguin hàbils per els seus usuaris, i en aquest sentit, és probable que casos de molt difícil o disputada catalogació no siguin especialment freqüents, i per tant tinguin un impacte relativament menor en el seu ús.

La segona dificultat expressada va ser la magnitud d’un tal corpus. Atenent a que entenguem per ‘text antic’, les possibilitats varien salvatgement. Tant per la banda del ‘text’ (per exemple, si es decideix incorporar o no evidència epigràfica i/o numismàtica, o segons el nombre de llengües originals a incorporar) com per la de ‘antic’ (la evidència textual creix molt ràpidament a partir de l’any 1000, depenent on es posi el límit, els nombres canvien molt).

La resposta és que no hi ha resposta, és inevitablement un gran projecte, El que sí es poden plantejar són estratègies per abordar la creació del Fons per fases. Per exemple: per el que fa als texts de l’alta edat mitjana europea, es podria començar per organitzar la incorporació dels corpus electrònics actualment existents, (CBMA/Telma/ASChart/etc) atès que aquests podrien fàcilment generar les PIs corresponents als seus continguts – ells ja disposen dels texts en format digital -. L’ús de TIDs ajudaria a millorar la visibilitat dels seus continguts i estendre el seu ús en la literatura historiogràfica.

La tercera dificultat que va aparèixer, va ser que l’ús d’identificadors únics com els proposats, no era gaire necessari ja que de fet les referències documentals actuals ja són lo prou úniques.

Observació encertada, i que cal respondre en base a que el benefici d’un sistema com el proposat no rau sols en la unicitat dels TIDs, sinó en  la simplificació i uniformització de la notació, i molt especialment en el fet que va lligada a l’existència d’un corpus unitari que permet l’accés al recurs textual adreçat de manera simple i uniforme.

La quarta dificultat, és tal vegada la més difícil, ja que es tracta de l’evidència experiencial dels historiadors professionals de què molt probablement no hi ha prou demanda per la construcció d’un tal Fons, ni hi han interessos econòmics suficients per donar llum a un tal macro-corpus. Els diferents grups d’experts han anat creant el conjunt de corpus parcials que poblen l’estudi de la Història, però són poca gent i amb poc poder de decisió. Tal i com magistra ho va expressar: ‘No-one cares about history’; observació que he pogut testimoniar personalment amb altres historiadors professionals.

La resposta crec que ha de tenir dues parts. En primer lloc, ressaltar que un corpus com l’indicat, no elimina, més aviat complementa els corpus digitals ja existents, gairebé com si fos un index global. De fet, podria funcionar com un accés comú als continguts dels diferents corpus existents,  ja que cada TID pot enllaçar amb cada una de les seves edicions digitals conegudes, aprofitant i realçant per tant el valor afegit diferent que cada corpus aïllat aporta. Fins i tot es poden dissenyar facilitats inverses, es a dir: donada una referència documental actual (electrònica o impresa), veure a quin TID correspon.

I en segon lloc, ressaltar els beneficis d’un corpus unitari informatitzat i les sinergies que provocaria en obrir els texts antics a tothom. Jo tant sols sé imaginar unes quantes possibilitats evidents, com estudis sistemàtics informatitzats sobre tota la producció literària antiga, però crec que gent amb més coneixements, en sabrien treure bastant més profit que el que jo sé imaginar.

De manera que, no, la quarta dificultat tampoc té una resposta clara, però si poguéssim fer veure als experts, institucions i a la gent que cada edició d’un text antic, és una aportació al bagatge cultural de la humanitat, potser podríem fer entendre que l’aportació necessària per fer un projecte com aquest és una minúcia si considerem els beneficis que aportaria. Al menys, és el que a mi em sembla…

Versió catalana

An Unified Corpus of Ancient Texts

Some days ago, in a post on Jonathan Jarrett’s blog about gender treatment in history, comments derived to a somewwhat recurrent topic that I think to be of value.

The point was that unlike other sciences as math, geography or physics, empirism plays mostly a secundary role in History; so, it’s not uncommon to make assertions upon a textual evidence not fully disclosed or of difficult access, without raising a systematic rejection. Conversation evolved and it was even also questioned -quite luclidly – if the acquaintance on the sources a historian is using guarantees the fairness of others peer evaluation.

These comments struck a chord on me. As a recent Clio’s lover, I remember quite well mi genuine astonishmen when I realized the lack of things that to a ‘number oriented’ guy as me, seemed to be absolutely basic for the study of the matter… For instance, not even the sources were ‘normalized’; it was not uncommon to have to use ancient or difficult to locate book editions.

That’s why, moved by the conviction that knowledged objectivation is always beneficial – and study of History has already enough enlightments not easily correlationable with something so specific as a set of ancient texts -, I proposed on Jonathan’s blog conversation the creation of something absolutely evident, desirable and necessari to me, as is a unified repository, or corpus of ancient texts, with an standarized and normalized notation – where each ‘text’ had a single identifier -. The answers raised the first objections to such a project.

Some days later, the topic was magistrally resumed on magistra’s blog,  documenting current developments on this topic and raising some more difficulties. That’s why I have written, for clarity’s sake, a short and schematic draft about how a such Corpus could work and to try to answer – only to a limited extend – the objections already suggested.

Draft for An Unified Corpus of Ancient Texts

The main reason to build such a project has already been stated; essentially it’s all about the advantage historians could gain by using a public, open, and international Interned based Repository of ancient texts in standarized digital format.

The practical target is to reduce to a minimum the time needed to access an ancient text; the strategic one, to complement the current printed book based, notation/citation system with universal texts identifiers – trivially transformable to URLs – to gradually promote the use of electronic resources in historiographical discipline/literature.

Usage

The systen is thought to be based on a website – let’s call-it generically ‘corpus.org’ – where the ancient texts are stored, each one identified by a unique code, in his simpler expression, a correlative number: let’s call this identifier ‘TID’. The corpus.org website being able to serve an URL of the form: ‘http://copus.org/TID12345’ with an html page where a public and open version of the ancient text with a TID=12345 is presented, along with other available information about the text.

So, if a historian wants to know to what text is referring a given TID it only needs to access an URL trivially derived from the TID itself. Conversely, if a researcher wants to reference a given text, he only needs to declare de TID being used, ie: (TID12345).

A useful analogy is to think that each TID is just a new edition of the ancient text, and as such, it can be used exactly as the HGL, Catalunya Carolíngia or MGH are already being used. The difference is that this edition is digital, free and of global scope by being accessed from the Internet.

In order for a system like this to work, the TIDs had to be as stable as printed books are; in other words, we need to emulate the physical principle that sustains the current citation system, and accordingly, any modification of a TID’s content has to imply the change of the TID itself to mantain the consitency of preexisting citations. An easy way to achieve this stability without voiding the essential uniqueness of TIDs could be to add a version notation. For example, TID12345.22 would refer to the version or modification 22 of the text 12345, whereas TID12345 refers to the text 12345 in its initial or generic version.

The organization

The creation of such a system implies a stable organization in charge of the Corpus maintenance and the assignation of TIDs. This is basically an accumulative work, but hopefully it could evolve in time reacting to changing demands; for example, on the completion of the partial goals proposed for the constitution of the Corpus, or to accomodate to the evolution of historiographic sector’s needs.

The size of such a corpus discourages the inclusion as permanent members of the organization of the experts needed to manage the incorporation of new texts; a better approach could be to reach specific agreements with academic resources for each type of texts to be included in the corpus. The same logic dictates that it’s not the organization’s role to identify and incorporate new texts on the corpus, or to make historiographically technical decisions about his contents, such decisions should be always dictated by the external experts on each type of textual resource. It’s the organization duty, to maintain the system, and to facilate the tools needed for these experts’ work; ie: informatic tools to detect text duplicates/intertextual-metrics, export tools, etc.

The workings of such a organization could be mirrored from already existing interned based ones (ie: ICANN), and to setup a set of public protocols to add or edit content to the Corpus or to address the organization for other requests. The organization should be responsible for the management of those protocols.

So, to change the contents of the Corpus, two kind of external requests can be expected: to add a new text, or to change an already existing one; let’s delineate a possible basic schematization for each one.

To add a new TID, a creation request (CR) must be presented, with at least a public or CC license version of the text, and information about the source used (printed/digital/others); optionally, additional information could be presented to help or to inform the process of the request. The organization routes this proposal to the experts that evaluate the information presented and give one of the three different possible outcomes.

  1. Rejected, for whatever reason (formal, legal, thecnical, etc).
  2. Accepted with a new TID. In this case, the organization and the experts dictamined that the text is valid and has to be added as a standalone new text. A new TID is created with the information presented in the request; that is, the free text version, the original source(s) and the additional information. The net result is the newly created TID.
  3. Accepted, but as an edition of an already existing TID. In this case, experts considered the text to be a valid variation/version of an already existing TID. The net result is the TID of the new edition.

To edit an already existing TID is quite similar; a modificacion request (MR) has to: refer to an existing TID, and to specify the data that needs to be changed; it could be the text, sources, or any other associated data. The request has to declare also the rationale underlying the proposed edition. There are four possible outcomes:

  1. Rejected.
  2. Accepted creating a new edition of the TID. The net result is the TID of this new edition.
  3. Accepted, but without a new edition being created, and  changes incorporated in the referenced TID. Only for trivial changes/corrections.
  4. Accepted, but as a new whole TID. If the experts dictaminated the proposed changes to be better served under a new TID.

Discussion

It’s now time to address the difficulties detected to the creation of such a Corpus and try to evaluate if this setup could give some answers.

The first problem was the almost impossible definition of a what a ‘text’ is, and accordingly, the difficulty to setup a coherent criteria to differentiate between TIDs or texts. There is no universal criterion, of course,  as the notion of what a textual unit is is relative and depends on external factors.

The answer to this question could be that an uniform and unitary criteria is simply not needed. Is not the Corpus’ goal to implement a texual taxonomy, just to be a useful resource for scholars; that’s why those decisions are delegated to experts on each class or type of text; the organization has only to provide the tools the experts needs for his work. Or from another pow: the Corpus will be successful only if it’s useful to scholars; cases of specially difficult or debated catalogation are expected to be percentually a minority.

The second detected difficulty was the magnitude of such a corpus. Depending of the meaning of ‘ancient text’, possibilities vary wildly in both senses: ‘ancient’ (textual evidence instances grows very fast after C10th) and ‘text’ (by the incorporation or not of epigraphic/numismatic evidence or different original languages).

The answer to this question is that there is no answer, inevitably is a big project; but implementation by stages strategies can be devised. For instance: the early medieval Europe context could be started collaborating with already existing electronic collections (CBMA/Telma/ASChart/etc), as they could easily generate the needed CRs to initially populate the Corpus. TID’s usage could help to visualize his contents and added value, and promote his references in historiographic literature.

The third difficulty pointed to the fact that the use of unique identificators are not that necessary, given the uniqueness of today’s documentary references.

That’s a valid objection, but hopefully  the benefits of the proposed system does not come only from the uniqueness of TIDs, but from a simpler and standarized notation that allows an almost direct online access to the referenced textual resource.

The fourth difficulty is probably the hardest one. Professional historians know by dire experience that there’s no demand to build such a corpus, and nobody is interested in financing the birth of such mega-corpus. Local groups of experts creates the partial corpuses we already have, but they are few and have little decision power. As magistra said: ‘No-one cares about History’, I have found the same conviction among other professional historians.

The answer, I believe, has two parts. First, the proposed Corpus doesn’t eliminate other existing corpuses. On the contrary, it complements them by acting practically as a global index, a common access . Each TID could provide links to digital corpuses; what’s more, inverse facilities can be build, that is: given a classical documentary reference, be able to locate the matching TID.

And second, the benefits of a unitary computerized corpus and the synergies generated by opening ancient texts to everyone would certainly be far reaching imo. I can only imagine some simple possibilities, as systematic computer based  studies targeting all the ancient literary production, but people more learned than me will surely have better ideas.

So, no, the fourth difficulty hasn’t an easy answer neither, but if we could convince experts, institutions and public that every edition of an ancient text is a valuable contribution to human culture, its low cost would be more easily accepted when compared to the benefits. A worth trying move in my opinion.

Aquesta entrada s'ha publicat en Fons Documentals, Història i etiquetada amb , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s