2013-octubre a cathalaunia.org

Octubre ha estat un mes llibresc, en tots els sentits. Molta lletra, molta lletra…

Per el que fa a aquest bloc, el mes passat ja va començar a apuntar maneres quan comentàvem l’aparició d’un volum cabdal per el tema dels Palaus,  i aquest, ha continuat per la presentació i lectura del darrer volum d’en Josep Maria Salrach i també en altres obres que encara no podem comentar a l’espera que en Gutenberg les ajusti a caixa. Enmig, però, s’ha comentat un judici a la Bàscara de l’any 892, no en va  és l’any que s’està incorporant actualment en el Fons Cathalaunia, que aquest mes ha arribat als 743 documents.

Per el que fa al web cathalaunia.org, es continua perfilant el sistema de cerca en els continguts de la bibliografia, però aquí, he de fer un incís de programador.

La qualitat dels programes OCR de codi lliure és nul·la. Google i companyia, estan provocant – ja fa un a pila d’anys – que una funcionalitat tan estratègica com és la capacitat d’extreure el text d’una imatge (detectar-ne les lletres) estigui orfe d’opcions de qualitat en l’àmbit de la programació de codi lliure, mentre que les opcions comercials fa anys que tenen uns rendiments sinó perfectes, si més no, acceptables. El cas és especialment sagnant atès que l’imperi comercial de Google – com el d’altres, per exemple, Apple – , s’ha construït a partir del codi lliure, sense que en les àrees sensibles (sistema, cerca, ocr, vídeo, llenguatge natural, etc) s’hagi donat ni tan sols un mínim retorn. El que passa per ser el millor programari d’OCR de codi obert, tesseract, certament promogut per Google, és una mala broma. La situació és esperpèntica, mentre la companyia disposa de les millors eines de processament textual, promou uns sub-productes de qualitat ínfima per tal de no tenir competència – com si això fos possible -. Fins i tot programes que desgraciadament han estat abandonats i estan orfes de suport, com cuneiform, són clarament millors (lleugerament millor transcripció, si bé encara de pírrica qualitat, però molt més ràpid).

Això ve a rel que entre els continguts, hi ha un bon grapat d’obres que han estat digitalitzades com imatges – per exemple, la majoria de llibres antics a Internet Archive[1] – fet que obliga a mirar d’extreure’n el text per poder fer cerques en els seus continguts, i la pèssima qualitat de les eines ho fa innecessàriament complicat (en el web tan sols s’utilitzen eines de codi lliure o obert, i semblantment, no s’incorporen enllaços a continguts que no siguin d’accés lliure).

La Bibliografia, coherentment amb la tònica del mes, també ha vist una millora sistèmica. A partir d’ara, les entrades corresponents a revistes, o volums de recull, mostren en la part inferior la llista d’entrades bibliogràfiques dels seus articles donats d’alta en el web, ordenades alfabèticament per títol. De manera que ara es pot saber, per exemple, quins articles dels Annales du Midi estan declarats en el web cathalaunia.org mirant la pròpia fitxa de la revista.

Llistem com sempre les novetats bibliogràfiques del mes per seccions[2]:

Secció Bibliografia de l’Êpoca Ibèrica i Romana:

Secció Bibliografia de l’Època Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia Vària:

A la fi del mes, cathalaunia.org presenta 20.505 pàgines consultables.


Notes

  • [1] Sí, les transcripcions a partir d’OCR de les obres que el propi Internet Archive proporciona també fan pena de dolentes com són.
  • [2] Es marquen amb (W) les entrades que es poden trobar lliurement a Internet.
Aquesta entrada s'ha publicat en Apple, Bàscara, Bibliografia, cathalaunia.org, cuneiform, Fons Cathalaunia, Google, Internet Archive, Josep M. Salrach, OCR, palatia, Palaus, tesseract i etiquetada amb , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s