2014-agost a cathalaunia.org

Finiquitem un agost lleganyós i de canícula anèmica. També, com el mes passat, l’activitat a cathalaunia.org ha estat concentrada en l’àrea de la programació –  s’han anat acumulant projectes i calia fer-los progressar -.

Aquest bloc ha publicat dues entrades noves sobre el tema del càlcul de semblances entre texts altmedievals – i l’associat, del de la partició automatitzada dels texts -. En el primer es va descriure un mètode per detectar els fragments de texts – usualment d’unes poques paraules – que gairebé mai es troben a cavall de dues frases, i que par tant, indiquen les parts dels text on no s’ha de cercar una partició. En el segon, es mostra com el càlcul d’aquests fragments es pot refinar i ser utilitzat per generar mecànicament classificacions textuals que resultin entedores per un públic humà; és a dir, utilitzar aquest fragments de text curts com elements tipològicament idiosincràtics. A partir d’aquí, s’espera que seguint el fil d’aquestes dues aportacions, el pas següent sigui mirar de definir les seqüències d’aquests fragments pròpies de cada tipus de document per tal de poder-ne perfilar les possibles formulacions subjacents.

El segon tema relacionat amb la programació que s’ha estat treballant, ha estat el de la cerca en PDFs – poder cercar un conjunt de PDFs locals com es cerca en la web -, utilitat creada internament a cathalaunia.org i que crec que pot ser d’utilitat a altre gent. En aquest sentit, s’ha fet una micro-enquesta – completament informal – entre uns pocs historiadors i s’ha comprovat, que tal i com ja es suposava, tal funcionalitat, actualment no es realitza. El ventall és ben variat, des de qui no utilitza PDFs, a qui té les eines per fer aquesta mena de cerques – els productes de pagament d’Adobe – però no ho fa servir gairebé mai (massa lent).

Sincerament crec que uns dels propers passos de la informàtica personal ha de passar per un accés més directe – via cerques textuals – a la informació local. Trobo grotesc que podem cercar en milions de webs però no trobem inacceptable el no poder localitzar en quin document dels nostres ordenadors hi tenim una certa paraula.

star-trek-scotty-mac

Hello computer!

minority-report

Un fosc futur.

La ciència ficció[1] ens ha regalat uns quants exemples de com imaginar la interacció amb els ordenadors; des de l’Scotty de l’Entreprise que creia que el ratolí d’un Mac era un micròfon per dirigir l’ordenador, als panells hologràfics de manipulació gestual de Minority Report en l’adaptació de l’obra del sempre genial Philip K. Dick. Crec que la resposta en certa manera és més propera, trivial, però potser no menys potent: la cerca per paraules.

En tenim uns primers exemples en els cercadors web actuals. Sols cal dur la mateixa metàfora a la informació personal. No és un concepte nou, en absolut, però fins ara usualment s’ha malinterpretat, creient que calia que les màquines entenguessin les paraules, el llenguatge i/o les conceptualitzacions humanes, d’aquí,  per exemple, tota la fantasmada del Semantic Web[2]. Un error de principiant en la IA, per els que tenim prou experiència, que ha ignorat quelcom ben sabut com és que les ontologies, les taxonomies, no són preceptives, sinó en el millor del casos, accessòries. Des dels temps del boom dels sistemes experts que es coneix el sostre de tals plantejaments: la complexitat creixent de l’estructuració del coneixement no implica una millor resposta, al contrari, a partir d’un cert nivell de particularitat el sistema esdevé creixentment contradictori.

Hom podria pensar que una cerca per paraules és quelcom molt simple, molt limitat, però el cert, és que la capacitat expressiva ja només sigui d’uns pocs signes és molt superior a qualsevol mena de gestualitat[3] – i molt més econòmica -, de manera que per els humans, les paraules són el mitjà organitzatiu per excel·lència. Personalment, el fet que no es sigui conscient de la capacitat que pot aportar fer cerques per paraules entre la nostra pròpia informació privada, em recorda una situació viscuda ja fa força anys, quan els entorns gràfics eren una rara avis a casa nostra i poca gent entenia el poder que la metàfora de copiar/enganxar – que venia de la mà d’aquests entorns – tenia, i ho tractava com una minúcia, quelcom accessori, irrellevant (és el que té de bo la ignorància, és feliç…).  Parlo des de l’experiència personal, el fet de poder cercar fàcilment entre milers d’articles i anotacions, és una ajut a la memòria que té efectes observables; per exemple, en la facilitat de citació. Altra cosa és la discussió entre els pros i les contres que l’ús de tota nova eina comporta.

La cerca per paraules en la que estic pensant, és doncs quelcom força més simple, que no requereix coneixement del llenguatge ni de les conceptualitzacions humanes, construït a partir d’una cerca basada en literalitats i en l’examen estadístic dels termes i contexts. En la seva expressió màxima, tenim un Google, que no és pas poc, però que té entre molts altres, l’inconvenient del seu gasto energètic, de computació, inacceptable a nivell personal. Afortunadament, hi ha una gradació, des de la cerca de literalitats més simple fins les funcions superiors d’agrupació de resultats per contexts, i en aquesta gradació, sí hi poden tenir cabuda consums computacionals raonables a nivell personal. Això és el que s’havia implementat internament a cathalaunia.org, un sistema de consulta per paraules sobre continguts en el format més comú de la informació textual més o menys estable, com és el PDF[4]. El que s’ha fet és habilitar programàticament espais en el web que siguin individualitzats, per usuari. De manera que un pugui pujar els PDFs que tingui, i des del mateix web, trivialment, fer-hi cerques per paraules – o fragments de paraules -; els resultats ensenyen en quines pàgines dels PDFs es troben les paraules cercades  i amb un sol clic es pot accedir a la pàgina en qüestió. El quid, la gràcia, està en fer-ho en uns pocs segons, i que del resultat, vagis a la pàgina concreta amb un sol clic; és adir: que sigui funcional. El sistema permet accedir als propis PDFs del disc de l’usuari si així ho desitja, per una màxima velocitat d’accés als documents, o bé si es vol, utilitzar la còpia del PDF emmagatzemada en el web, si s’està accedint des de un ordinador diferent; llavors el sistema pot ser més lent, ja que en clicar sobre un dels resultats cal enviar el PDF en qüestió, però amb la conveniència de permetre fer consultes des de qualsevol punt o dispositiu; com vagi millor. El que s’ha programat és una versió inicial, de test, una prova pilot, completament funcional, però sense ser encara una aplicació pública amb tots els ets i uts i la seva inherent complicació legal i comercial – com caldrà fer-ho, si realment es vol que tingui una major projecció -.

La darrera tasca de programació en la que també s’han esmerçat esforços, és en arrodonir la base programàtica per poder navegar entre les dades del Fons Cathalaunia de manera gràfica, amb grafs interactius per a les identitats personals i de llocs del Fons. Però això, encara està lluny de ser visible, i ja van un quants apunts seguits de temàtiques una mica massa allunyades de l’alta edat mitjana catalana; en els propers, es pensa tocar uns quants temes rellevants estrictament històrics clarament centrats en el nostre passat col·lectiu.

Per el que fa al Fons Cathalaunia, durant aquest mes, també s’ha continuat la introducció dels documents de l’any 891, que ja comença a estar completat.

Les incorporacions de novetats en l’apartat bibliogràfic continuen en mínims. Entre el càlcul de  semblances i l’entrada de documents s’han anat totes les hores, i a més,  la llista de títols pendents de lectura encara sobrepassa els quatre-cents vint ítems. No hi ha manera, per a cada article que es llegeix i anota, no paren d’aparèixer dos de nous i igualment interessants. Aquest mes, a més, cal dir que part d’aquesta felix culpa la tenen els magnífics blocs de n’Ainoa Castro i en Jonathan Jarrett, d’on provenen un grapat de les millors noves incorporacions.

Sí que voldria fer esment particular d’un dels nous títols: Ghosh, Shami : 2009 : “The Barbarian Past in Early Medieval Historical Narrative”. Tesi doctoral on l’autor repassa les narracions històriques dels gots, francs i longobards juntament amb els relats laics Waltharius i Beowulf. Tesi de molt bon llegir i millor pair, a la que sols li hagués afegit una mirada més en profunditat a la goticitat, tema que apareix sols de resquitlló – per exemple, en tractar dels Teoderics famosos – i que mereix una disquisició global encara pendent, en la meva opinió (l’autor constata la natura ‘ideològica’ dels relats dels diferents pobles, però no entra en el tema de la seva interrelació, de com es miraven entre ells; un dels temes que crec fonamental considerar si volem mirar d’entendre els perquès d’aquells temps… Però això ja és sols el prurit de qui això escriu). Resumint, un treball de lectura molt i molt recomanable.

Es llisten les novetats bibliogràfiques del mes, com sempre, per seccions[5]:

Secció Bibliografia de l’Êpoca Ibèrica i Romana:

Secció Bibliografia de l’Êpoca Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia Vària:

A la fi del mes, cathalaunia.org presenta 21.402 pàgines consultables.


Notes

  • [1] No recordo en quin llibre era, i no l’he sabut localitzar, però la millor definició de la SF la vaig llegir fa un munt d’anys d’un autor que no recordo (potser el propi Dick?) que deia que reunit un grup d’escriptors professionals miraven de dir què carai era el que feien, i que potser la millor manera seria dir que l’element bàsic de la SF era: “I si…?”. Quant salta un d’ells i diu: “No! La SF és: “Oh Déu meu! I si…?”.
    He de confessar que amb tants anys passats, no n’he sabut trobat cap de millor…
  • [2] El projecte KDE, l’únic entorn gràfic de codi lliure amb una mica de cara i ulls, prou que ha pagat l’error d’haver apostat per aquesta quimera fa uns anys. Afortunadament, la practicalitat s’ha acabat imposant i actualment les instal·lacions acostumen a tenir els serveis relacionats amb tal funcionalitat desactivats per defecte. Sols la tossuderia d’alguns dissenyadors pot explicar un error de plantejament tan bàsic, sobre una idea tan encertada..
  • [3] Bé, això no és del tot exacte, sí hi ha una part del cos que té una gran capacitat expressiva entre els humans: la cara, el rostre. Però la possibilitat de dirigir un ordenador a base de fer ganyotes, resulta … inquietant, per dir-ho suau.🙂
  • [4] Sovint es pensa que el format PDF – i el seu llenguatge intern Postscript – és un format de text. Res més lluny de la realitat. Postscript és un llenguatge de programació Turing complet, i per tant, es capaç de realitzar qualsevol càlcul matemàtic imaginable – donat prou temps i memòria – que s’utilitza però per dibuixar pàgines. Ni està basat en la noció de text, ni el necessita per res, i així, pots tenir per exemple PDFs que en lloc de mostrar text, dibuixen fractals. De fet, el suport explícit per text, coses com poder fer cerques, va ser afegit posteriorment en les parts de suplement de l’especificació inicial atesa la seva demanda; tota una metàfora de com funcionen les coses. Ja ho deia Qohelet: “No és dels lleugers la carrera.” (Ecl.9:11).
    L’èxit del format cal atribuir-lo a una sèrie de factors encadenats. En primer lloc que Adobe va tenir la suficient intel·ligència com per fer pública l’especificació del format (tot i que els hi va costar Déu i ajuda), en segon, que és portable i funciona de manera similar en diferents sistemes, i el tercer, i que pot semblar contra-intuïtiu és que és d’edició difícil, i que la majoria de PDFs es creen des d’altres eines/programes; però és que és el cas que ja va bé que molta de la informació que utilitzem sigui estable (pensem en els llibres o articles), de manera que un format que no resulti fàcil d’editar, ha acabat sent més pràctic per reflectir aquesta mena d’informació que molts altres formats textuals pensats per ser editats.
  • [5] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Aquesta entrada s'ha publicat en Bibliografia, cathalaunia.org, cerca en pdfs, estadística, Fons Cathalaunia, grafs, programació, recerca, Semblances interdocumentals i etiquetada amb , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s