De la Tortosa del segle X a la Intel·ligència Artificial (IA).

A diferència de la majoria dels altres apunts d’aquest bloc, aquest, vol comentar unes incorporacions recents en la Bibliografia de cathalaunia.org, un parell de lectures de la setmana passada que he trobat d’allò més interessant. De fet, tant, que no he volgut que quedessin sense ressò. Es tracta de :

  1. Negre Pérez, Joan i Martí Castelló, Ramon : 2015 : “Urbanismo en la Marca Oriental de al-Andalus durante el Califato (940-974). El ejemplo de Madina Turtusa a través de las fuentes arqueológicas y escritas” : Saguntum : 47 p.187-201 i de,
  2. Negre, Joan : 2014 : “Implementació de Redes Neuronales Artificiales en el diseño de modelos predictivos de expectativa arqueològica” : Mapping. Revista de cartografía sistemas de información geográfica, teledetección y medio ambiente : 23.165 p.4-16.

No és cap novetat que un dels trets característics de cathalaunia.org és la conjugació de la disciplina històrica amb el món de la computació; queda doncs clar veien els títols, que aquests dos articles responen perfectament a aquesta doble fàcies. En les entrades bibliogràfiques corresponents, no trobareu però cap enllaç als pdfs dels articles, no per falta de ganes sinó per imposició sistèmica – cathalaunia.org sols presenta enllaços a continguts d’accés públic – però una consulta als cercadors us donarà les referències on els podeu trobar fàcilment. El que segueix és un comentari informal d’aquests dos magnífics treballs.

Tortosa s.X

Tot començà quan em feren arribar l’article d’en Ramon Martí i en Joan Negre sobre els canvis urbanístics de la Tortosa del segle X, especialment entre les dècades dels 940 i 970. Un treball que arribava poc dies després que en Jonathan Jarrett fes públic que està començant un llibre sobre el comte Borrell II, una iniciativa que no podia sinó encoratjar, atès el fort contrast entre la molta documentació contemporània existent i la minsa producció literària sobre la seva figura. No que acostumi a estar en especial sintonia amb els punts de vista d’en Jarrett – què faríem sense la discrepància?!🙂 -, però no tinc cap dubte que serà un treball seriós i rigorós, que és el què realment convé. El treball d’en Martí i en Negre, venia a ser doncs,  una doble notícia sobre producció historiogràfica referida al nostre segle X en una mateixa setmana; fantàstic. De fet, estic segur que el futur llibre d’en Jarrett l’haurà d’incorporar entre les seves referències.

L’article documenta els canvis que l’arqueologia i les fonts documentals detecten en la ciutat de Tortosa i el seu entorn entre els anys 940-972. Un període de relativa estabilitat que mostra un increment clar en les estructures urbanes i periurbanes. L’article comenta els canvis tant en les defenses, ja siguin d’àmbit local com les muralles o l’arsenal, o bé externes, com el castell d’Amposta – cas interessantíssim – , com en els edificis públics, concretament, en la mesquita i els banys. Un article escrit molt en l’estil característic d’en Martí: concís i rigorós, sense palla. I que ve a fonamentar, tant documental com arqueològicament la noció que en la part central del segle X, la frontera entre al-Andalus i la Gòtia, tingué un període de pau relativa que permeté i afavorí l’expansió i millora de l’urbanisme, i en general, de les condicions de tota l’àrea.

Un període de bonança – i insereixo aquí un comentari personal – propiciat per el que a mi m’agrada denominar com ‘l’acord dels jueus’, que no és altre que el pacte entre Còrdova i la Gòtia/Provença del 940. Un acord signat en primer terme a Barcelona, entre el jueu Hasdai ibn Shabrut , representant de Còrdova (que es feu acompanyar amb un estol de naus per si les ‘negociacions’ es volguessin ‘encallar’…[1]), i el bisbe Gotmar per la part del comte Sunyer, el jueu Bernat, representant de Riquilda, la filla de Guifré-Borrell, senyora de Narbona i els de Hug de Provença[2]. Els testimonis musulmans acostumen a anomenar als seus pactes, acords de submissió, – no en va ‘Islam‘ vol dir ‘submissió’, una noció clarament de matriu imperialista -, però de fet, estem davant d’un acord polític i econòmic (Abd-ar-Rahman III està mirant d’establir ponts amb els otonians, i l’acord de Còrdova amb tot l’arc del mediterrani nord-occidental no té un sentit pròpiament militar, en tot cas, el podria tenir pel tràfic marítim).

I diem un període de pau ‘relativa’ ja que entre la zona musulmana, amb Tortosa com a plaça forta, i la cristiana, amb el centre a Barcelona, tenim el tarragonès i Tarragona, i en aquest mateix període tenim indicis documentals que la ciutat hagués pogut canviar de mans més d’una vegada. No entrarem ara en aquest tema, em consta que l’equip d’en Martí està en vies de poder defensar una nova tesi doctoral que cobrirà aquest tòpic, entre molts altres, o sigui, que ja mirarem de donar-hi notícia així que es produeixi.

I parlant de tesis doctorals, no podia obviar el fet que de l’altre autor de l’article, el doctor Joan Negre, havia tingut la oportunitat de llegir la seva tesi doctoral: “De Dertosa a Turtusa. L’extrem oriental d’Al-Tagr Al-A’là en el context del procés d’islamització d’Al-Andalus” i presenciar-ne la seva defensa farà un parell d’anys, quelcom que ja es va comentar en aquest bloc en el seu moment. De manera que no havent llegit més articles seus entre la tesi i el treball aquest amb en Martí, la curiositat em va moure a buscar quina traça trobava de la seva producció durant aquest parell d’anys, i és aquí, que a part de comprovar que com ja feia preveure la seva tesi doctoral, va en camí de fer-se l’expert altmedieval de referència en el món tortosí , – si més no així el tinc jo mentalment catalogat -, vaig trobar, entre altres , l’altre article que vull comentar aquí i que per l’ús de tècniques d’intel·ligència artificial ressonava fortament amb cathalaunia.org i amb l’experiència personal de qui això escriu. Tampoc era un novetat, ja en la tesi doctoral d’en Negre s’havia defensat activament les bondats de la utilització de les ciències positives en l’estudi de la Historia – una noció que no puc sinó aplaudir -.

El que m’ha sorprès més del treball és que presenta un exemple de magnitud notable d’una utilització reeixida d’aquesta mena de tècniques; si més no, així qualifico jo al fet que partint del processament de la informació relacionada amb 30 jaciments prèviament coneguts,  es propicii la trobada de fins a 11 jaciments nous, tots ells en l’àrea del Ebre aigües avall de Tortosa i entorns, un context no precisament oncògnit. Ho trobo més que notable. L’article detalla els procediments i les eines concretes i està per tant molt encarat a la descripció pràctica del mètode emprat, de manera, que no serà d’això del que parlarem aquí – tampoc podria, no estic familiaritzat amb les eines específiques que en Joan utilitzà – sinó que parlarem dels principis emprats, mirant de donar una descripció que sigui entenedora per als no habituats a aquesta mena de problemàtiques. I és que he de confessar que l’article m’ha resultat especialment pròxim atès que ja fa més dècades de les que voldria que qui això escriu programa i dissenya eines del que usualment coneixem com Intel·ligència Artificial (IA)[3]. Comencem per descriure el mètode emprat per en Negre.

En primer lloc, es fixa l’àrea geogràfica a estudiar, i amb programari de gestió d’informació geològica (GIS) es van definint les diverses ‘capes’ de la informació que es disposi sobre aquesta àrea. Usualment, tots tenim al cap els típics mapes topogràfics, de corbes de nivell, on per cada coordenada, tenim la seva elevació sobre el nivell del mar; informació, que per exemple, podem emprar per generar models tridimensionals. És doncs fàcil entendre que el mateix podem fer per a moltes altres menes de dades; podem construir mapes segons la geologia, o de pendents, o de massa forestal, o de distàncies a certes menes de recursos (aigua, fusta, etc), o del que vulguem. El que cal retenir, és que es parteix d’una col·lecció de ‘mapes’, cada un d’ells d’una mena de dada i tots ells d’una mateixa zona, de forma que podem, per a cada coordenada dins aquesta àrea, saber el valor que té en cada mena de dada. Així, d’un punt podem saber la seva elevació, el tipus de terreny, el seu pendent, etc, etc. Ara ve lo bo. Ajuntem a aquest corpus el fet que sabem que en certs indrets d’aquesta àrea, existeixen uns jaciments arqueològics, és a dir, que per cada un d’ells també podem saber la seva elevació, terreny, pendent, etc,etc. La pregunta és: existeix un patró – o més d’un – en les característiques dels enclavaments coneguts que puguem extrapolar per ajudar-nos a detectar-ne de nous? El treball d’en Joan – i altres – demostra, pràcticament, que efectivament, així és.

Com ho faríem a ma? Doncs pel compte de la vella. Per exemple, disposant les dades en una matriu. Imaginem una columna per a cada mena de mapa disponible (elevació, terreny,etc), i una fila per a cada assentament, apuntem en cada casella el valor corresponent i un cop acabats, podem mirar si veiem repeticions o semblances de grups de valors entre les files i si aquestes combinacions es donen en altres zones de l’àrea estudiada. El que s’ha fet tota la vida. És aquí que entra la computació, ja que encara que res com la ment humana per detectar patrons, també és cert que les capacitats biològiques són limitades en quant a la quantitat d’informació que poden processar, és en això que les màquines són d’utilitat. Pots fer un forat amb les mans, cert, però si fas servir un pal aniràs millor, i si no tens una excavadora hi hauran forats que simplement no els podràs fer – encara que no ens enganyem, el preu energètic hi serà en qualsevol cas, com no pot ser d’altra manera -. És aquí que entren les màquines, la IA i les xarxes neuronals. Deixeu-me fer un petit viatge per l’evolució de la IA… Que consti que serà fet a partir del record, i sense cap pretensió historiogràfica, d’acord?

IA

La IA té ja un llarg recorregut pràctic, però encara un molt curt desenvolupament teòric – de fet, els treballs d’Alan Turing en la part central del segle XX encara no han estat superats -. Davant la impossibilitat de respondre la pregunta: què és la intel·ligència? – una pregunta d’aquelles que canvien a qui se la planteja -, la ciència computacional preferí dedicar-se inicialment a tasques menys ‘profundes’, com per exemple: el llenguatge natural. Si fem memòria, no fa tans anys que un Japó esplendorós anunciava els ordenadors de la quinta generació, i es feien plans per incorporar sistemes automatitzats de traducció a temps real a la xarxa telefònica pública. Plans que avui en dia encara estan en el regne de la ciència-ficció. Què va passar? Doncs una cosa molt poc explicada, i que per copsar-la cal entendre ni que sigui superficialment què és un programa informàtic.

Una de les definicions de programari es l’equació: programa=algoritmes + estructures de dades[4]. Sent, els algoritmes, una sèrie de càlculs prefixats que s’apliquen a les dades. Un ordenador no és altra cosa que una calculadora universal, una, que amb prou temps i espai per variables, pot realitzar qualsevol càlcul imaginable[5]. En altres termes, un programa no és mes que una fórmula que s’aplica a unes dades. Doncs bé, en els inicis de la ciència computacional es creia que si érem prou intel·ligents trobaríem les ‘fórmules’, les ‘receptes’ necessàries per fer el que volguéssim. Un primer avis que hi havien límits teòrics en la computació ja ho havia anunciat el propi Turing, qui en paral·lel amb l’altra gran ment matemàtica del segle XX, Kurt Gödel demostrà els límits inherents  de la formalitat matemàtica i de retruc de la computació – en termes computacionals: hi han programes dels quals no podem saber si un cop iniciats, acabaran o no, si no és executant-los; en termes matemàtics: en tot sistema formal es poden construir expressions que no poden ser ni demostrades ni refutades -.

Però hi havia un altra límit molt més simple, proper i ocult, un límit pràctic: el mur de la complexitat, derivat directament del límit natural de la capacitat de la ment dels programadors en particular i de l’home en general. De manera que anaven passant els anys i les solucions algorítmiques als problemes que en un principi es creia que serien resolubles, no arribaven. Els ordenadors no sabien discernir veus humanes, menys encara parlants, de fet, ni tant sols sabien – ni saben encara – jugar a escacs[6]. De manera, que la noció de la importància de la biologia en la comprensió de moltes problemàtiques computacionals s’anà fent forta. Col·loquialment: no sabíem què carai era la intel·ligència però si replicàvem les estructures biològiques que utilitzen el éssers vius – ni que sigui la seva esquematització – , potser podríem aconseguir el què en una aproximació purament matemàtica, algorítmica,  s’havia demostrat inatacable. Aquesta aproximació sí donà, dóna i continuarà previsiblement donant resultats objectivament satisfactoris.

Una altra via que s’encetà, paral·lela i en part complementària als diem-li, ‘biologismes’, fou la via estadística, basada sobre una premissa encara més simple: si col·lecciono moltes dades de com funciona un sistema tancat (un que vist des de fora sols tingui entrades i sortides) i per a cada situació d’entrada coneguda, recullo la resposta adient corresponent, encara que no sàpiga com funciona internament, en puc simular el funcionament a  base de reproduir les respostes prèviament emmagatzemades si davant de cada nova situació que em trobi puc cercar la que més se li assembli entre les prèviament conegudes. La estadística entra en joc a l’hora de definir de forma flexible què entenem concretament per: ‘semblar-se a’. Google, o els aparells d’intel·ligència dels grans estats són potser la demostració fefaent de la capacitat real de tal enfoc.

També he de mencionar una altra via de desenvolupament de la IA, que encara que té poc a veure amb aquest apunt, si cal esmentar ni que sigui en un únic paràgraf. No sabíem que era la intel·ligència, un terme massa ampli i difús, però sí es podia detectar una de les seves qualitats: l’aprenentatge, el guany i la gestió dels coneixements, de les ontologies. De manera que una altra idea que sorgí fou: i si enlloc de mirar que les màquines ‘aprenguin’ les utilitzem per gestionar el coneixement que els humans ja tenim? És a dir, traspassem els coneixements dels experts d’un domini en particular a la màquina – típicament en forma d’ontologia, o coneixement estructurat -, i que els usuaris puguin accedir als coneixements emmagatzemats, i d’aquesta manera, fem accessible a tothom que vulgui els coneixements dels experts. Havien nascut els ‘sistemes experts‘. En principi tot anà bé. Els experts codificaven els seus coneixements en grans arbres de tòpics, i fins i tot s’albirava – i alguns encara es deixen enganyar per aquesta mena de miratges[7] – una gran ontologia del coneixement humà, una mena d’enciclopèdia organitzada de tot el saber sabut; com es pot comprovar, molta tècnica i molt poca filosofia. De manera que el què passà, fou que de nou entrà en joc el silenciós límit de la complexitat. En gaire bé tots els camps de coneixement, en tots els dominis, arribats a un cert grau de detall – o d’apertura -, les premisses esdevenen dubtoses, relatives, sovint, obertament contradictòries. El llenguatge humà i la pròpia natura del coneixement tampoc eren neutres a la manera de codificar-lo, les tècniques que anaven bé en certs àmbits no servien per altres. El resultat final, fou que després d’uns inicis estel·lars i unes promeses grandiloqüents, resultà que en la pràctica, sí eren útils, però en àmbits molt i molt acotats del coneixement humà. Els ‘sistemes d’ajuda automatitzada’ telefònica, que tots hem patit en un o altre moment, en són potser el seu pitjor exponent.

Xarxes neuronals

A mig camí entre els ‘biologismes’ i l’estadística – ja que no sols no són pas incompatibles, sinó fins tot a voltes equivalents – aparegueren ja ben d’hora les xarxes neuronals, nascudes del ‘biologisme’ de voler mimetitzar el funcionament del sistema nerviós, tot partint de considerar que donat que una neurona recull un conjunt de senyals en les seves sinapsis, les integra i genera una única sortida en el seu axó, aquest funcionament es podia modelar matemàticament com una funció que suma/integra un conjunt de valors d’entrada i li aplica una funció determinada; completa la descripció, si assignem un factor multiplicador/atenuador a cada connexió sinàptica. En notació matemàtica, si li diem o a la sortida, i a la entrada, i w a les connexions, tenim o=f(i*w), on f és una funció no lineal – tradicionalment sigmoïdal -. La xarxa neuronal més simple, la de la fórmula prèvia, seria doncs la formada per una única ‘neurona’, amb un únic valor de sortida i un únic valor d’entrada. Poca cosa farem amb això, de manera que a semblança de les estructures nervioses biològiques, el que es feu, fou connectar entre l’entrada i la sortida, tota una sèrie de neurones intermèdies similars a la ja descrita; ja tenim la xarxa. Davant de la infinitud de maneres possibles de disposar i connectar aquestes neurones ‘amagades’ o ‘intermèdies’, es començà per disposar-les per ‘capes’ – també a semblança d’alguns models biològics -, de manera que l’entrada es transmetia a través de connexions a tota una primera capa de neurones, la sortida de les quals, es transmetia per un altre joc de connexions fins la segona capa, i així anar fent fins arribar a la sortida. Un model rígid en el qual cada neurona de cada capa rep com entrada totes les sortides de la capa anterior i a l’hora propaga el seu valor de sortida a totes les neurones de la capa següent.  Un model on l’estructura de la xarxa defineix perfectament la fórmula a aplicar a l’entrada per calcular-ne la sortida.

La idea és molt simple i no deixa de ser una variant dels sistemes estadístics: si volem simular un sistema que no sabem com funciona internament, és a dir, que respon a una funció desconeguda, però sí tenim un conjunt prou gran d’exemples de com funciona, entenent que cada exemple està plenament definit per els valors de les condicions d’entrada i la seva resposta associada per els valors de les sortides desitjades, podem pensar que si calculem una funció que donades les entrades dels exemples ens doni les respostes associades dels mateixos exemples, encara que no sigui potser la mateixa funció ‘desconeguda’, igual ja ens val. Col·loquialment:  si camina com un ànec, té plomes i fa cuac, cuac…

Hom pot pensar que amb un esquema tan rígid, com el que hem descrit abans, poca cosa podrem fer, però és un impressió falsa. Les xarxes neuronals són bons aproximadors de funcions, i de fet, gràcies a la seva estructura simple, rígida, s’ha pogut demostrar formalment, que amb sols dues capes de neurones entre l’entrada i la sortida, i permetent, això sí,  un nombre de neurones adequadament alt en cada una d’elles, es pot aproximar indefinidament qualsevol funció – el que es fa es variar els coeficients w, usualment des d’un estat inicial aleatori -. Cosa que sona millor del que realment és, ja que a efectes pràctics, hi han gran quantitat de problemes per el quals el cost d’una xarxa d’aquesta tipologia no és ni de bon tros l’òptim, i on es pot demostrar que altres topologies són molt més eficients, que és  el què trobem també a la natura. El problema és que per topologies diferents, no s’ha sabut formalitzar el seu comportament – i tampoc sembla que es pugui fer properament -, de manera que no es pot garantir a priori el seu funcionament, i per tant condemna el seu ús, usualment, al mètode de prova i error.

Fem un petit joc mental per captar com funciona una xarxa neuronal imaginària. Per fer-ho senzill, el nostre exemple tindrà un sol valor d’entrada, i un de sortida. Bé, imaginem una caixa negra – la xarxa neuronal – , en la què en el seu frontal hi ha un dial entre 0 i 1 que podem moure lliurement; això és l’entrada, i en la part del darrera, hi ha un altra dial que tan es pot moure exteriorment com des de dins de la caixa; aquesta és la sortida. A sobre tenim un interruptor de dues posicions: ‘aprendre’/’producció’ i un polsador que posa ‘memoritzar’. Quan l’interruptor està en ‘producció’, cada vegada que movem el dial de l’entrada, la caixa aplica la fórmula que té a dintre i mou el dial de sortida, mentre que quan està en posició ‘aprendre’ hem de moure manualment els dos dials. En començar, i si l’interruptor està en ‘producció’, com que encara no li hem ensenyat res, si movem l’entrada, la resposta és erràtica, aleatòria. Bé, ara posem l’interruptor en posició ‘aprendre’ i manualment fixem el dial d’entrada i el de sortida en els valors que vulguem i premem el botó ‘memoritzar’. Fem el mateix per a cada exemple que tinguem, i un cop acabats, posem l’interruptor a posició ‘producció’. Si ara movem el dial d’entrada i el posem en alguna de les posicions que li hem ensenyat, la sortida serà també la que li havien fixat llavors; però, i si no el posem en cap posició ‘ensenyada’? Doncs la resposta és: depèn. Parlant rigorosament, sense obrir la caixa i mirar la fórmula que està emprant, no podem saber-ho, és un fet, però a efectes pràctics podem suposar que s’assemblarà als valors de sortida associats als valors d’entrada que li hem ensenyat que més s’assemblin a la nova posició, és a dir, una interpolació entre els valors coneguts més propers que li haguem ensenyat. Això és tot. Poseu centenars de dials de entrada, milers de neurones amagades dins la caixa i desenes de sortides i tindreu un esquema força habitual en el món real.

Queda clar que és una simplificació, oi? En la realitat, el tema es complica, per exemple, perquè encara que en teoria amb dues capes intermèdies es pot aproximar indefinidament qualsevol funció, és a dir, aconseguir un marge d’error tan proper a 0 com vulguem (el marge d’error és la diferència en la sortida entre el que s’ha ensenyat en modo ‘aprendre’ i el que s’obté en modo ‘producció’), en la pràctica, un problema concret, aplicat sobre una tipologia de xarxa concreta i amb unes eines de càlcul determinades, fa que l’ensenyança d’una xarxa neuronal sigui un exercici de minimització de l’error. Quelcom molt allunyat de la simplicitat de la descripció prèvia, on hem polsat un botó que deia ‘memoritzar’ i màgicament la caixa negra ho sa sabut fer, però explicar això ens portaria a parlar de tècniques de gradient, trampes de mínims locals i altres coses que personalment trobo molt i molt interessants, però que entenc massa allunyades de la historiografia com per parlar-ne aquí i ara.

Arqueologia

Vist com funciona una xarxa neuronal, deixem tota aquesta xerrameca i tornem a l’article d’en Negre. Dèiem que teníem un grapat de mapes, cada un amb una mena de dada, i un conjunt d”assentaments coneguts, de manera que com que estan en unes coordenades concretes, poden associar cada un d’ells amb un valor específic de cada mena de mapa. Semblaria que podríem construir una xarxa neuronal, oi? Fem tantes entrades com menes de dades o mapes tinguem, i la sortida, que sigui un únic valor, indicador de si és o no un jaciment, per exemple, 1=jaciment 0=no jaciment. Presentem els exemples de jaciments a la nostra xarxa i ja ho tindrem, oi? Doncs no, no ben bé. Fixem-nos que si a una tal xarxa només li ensenyem jaciments, és a dir, positius (en tots els exemples, haurem posat l’indicador de sortida a 1) el més probable és que la xarxa sempre ens doni ‘positiu’. I no és ben bé el que volíem, oi? El sentit comú ja fa pensar que en una disposició com la que hem comentat – x entrades i una sola sortida – que és la que utilitza l’article, cal ensenyar-li també els ‘negatius’, condicions d’entrada dels punts on no hi han jaciments. La solució emprada en l’article és calcular un conjunt de punts aleatori, força més nombrós que el dels jaciments, i tenint en compte que sobre el mapa l’àrea ocupada per cada jaciment és relativament petita, esperar que no hi ha entre ells cap assentament actualment desconegut i emprar les dades de cada punt aleatori com exemple de ‘no jaciment’, es a dir, que volem que en les dades d’aquests punts, la xarxa ens doni un 0.

És evident que el mètode aleatori és problemàtic, ja que no és impossible que un punt a l’atzar correspongui en la realitat amb un jaciment – fins no anar-hi, inspeccionar la zona i comprovar-ho no ho podem saber -, però com dèiem, la probabilitat de superposició és baixa, i a més, hi han maneres quantitatives de minimitzar aquestes possibles interferències – per exemple, calculant diversos conjunts aleatoris i mitjanant els resultats -, encara que ignoro si ha fet falta emprar tals mètodes en el cas de la investigació d’en Negre. Crec que no, ja que l’article no ho esmenta.

Ja sols falta precisar que cada ‘coordenada’ en realitat, no és estrictament puntual, sinó que correspon a un àrea geogràfica determinada per la resolució espacial de les dades que tinguem entre els diversos mapes o menes de dada (penseu per exemple en l’àrea corresponent a un píxel en una imatge d’un mapa). De manera que posem la nostra xarxa en modo ‘aprendre’ i presentem tots els exemples de ‘jaciments’ i de ‘no jaciments’. Un cop apresos, passem a modo ‘producció’ i anem presentant una a una les característiques de cada un dels ‘píxels’ o unitats geogràfiques del mapa i anem anotant els resultats, el grau de ‘ser jaciment’ que la xarxa calcula. El resultat és un mapa de probabilitat de ‘ser jaciment’, on els jaciments reals que li hem ensenyat estaran a 1, els punts aleatoris a 0, i la resta entre aquests dos valors. Les zones properes a 1 que no siguin les dels jaciments coneguts, són les que més prometen, i on caldria prioritzar la inspecció sobre el terreny, que serà la que realment ens digui si la predicció del model de la xarxa era encertat o no.

No ens enganyem, la xarxa neuronal és l’eina, n’haguéssim pogut emprar moltes altres – una xarxa neuronal, funcionalment, no és sinó un classificador estadístic i n’existeixen un munt de diferents, i ara no ens estendrem  sobre això -. El que fa funcionar el sistema és que la informació d’entrada sí és rellevant per definir la localització d’un jaciment. Fixem-nos que hem dit que una xarxa neuronal pot aprendre qualsevol relació entre les entrades i les sortides – en l’argot tècnic, és una classificador lliure de domini -, però sols si la informació emprada en la simulació, respon a una funció ‘real’ els resultats seran objectivables en la realitat. Dit altrament, si entrem soroll,  traurem soroll, o en sentit contrari, és l’expertesa en l’elecció de la mena de dades, el coneixement del domini en el què estem treballant, en aquest cas, l’arqueologia, el que fa que el sistema pugui funcionar. I no és per treure pas mèrit, tot al contrari, ja que trobo molt notable que a partir de l’exemple de 30 jaciments hagin estat capaços de trobar-ne 11 més!

A partir d’aquí venen uns quants comentaris com ignorant del món de l’arqueologia però usuari expert en aquesta mena de sistemes computacionals.

Trobo significatiu que el model emprat, amb una única capa ‘amagada’ de neurones hagi donat un resultat tan encertat. Entenc doncs que les informacions entrades, les menes de dades emprades, havien de ser altament correlacionables amb les característiques tipològiques dels assentaments que han servit d’exemple – si la relació entre les entrades i les sortides no és topològicament simple, cal quasi bé sempre una segona capa de neurones ‘amagades’.  Van unes poques idees a raig.

  • Crear diferents xarxes per diferents tipus d’assentament, o una xarxa amb tantes sortides com tipologies d’assentament hi hagi.
  • Re-alimentar els sistema amb els nous assentaments detectats i especialment amb les dades dels ‘no assentaments’, és a dir, les previsions fallides.
  • Provar amb topologies neurals diferents.

Com s’ha pogut veure, les xarxes neuronals són objectes de manipulació relativament simple, un dels seus inconvenients estructurals però, està en què sovint és gaire bé impossible saber perquè donen un cert resultat. Entenguis com cal aquesta afirmació. En l’aprenentatge, la xarxa ha variat els coeficients entre les neurones (els w), i un cop acabat, els sabem sense cap incertesa, però atès que el model funciona per l’acció conjunta de totes les neurones, resulta molt difícil discernir, examinant aquests coeficients quins són realment rellevants, o no, en cada cas[8]. Dit d’altra manera, en el cas que ens ocupa: sabem d’entrada si el model ha detectat més d’una tipologia d’assentaments? La resposta, d’entrada és; no. Sabem quines correlacions de valors són les significatives per detectar jaciments? La resposta és: tampoc. Fixis que parlem de valors, no de mena de dades, ja hem deixat clar abans que aquest coneixement l’ha aportat ‘expertesa en el domini – en aquest cas, en l’arqueologia -.

Amb tot, sí hi han maneres indirectes de veure com es comporta la relació entre les dades i la tipologia de la xarxa; per exemple, variant les dades que es presenten.  Podem provar què passa si – per exemple – deixo d’ensenyar-li un cert nombre de jaciments? Així podríem valorar el pes de cada jaciment en el comportament del model. O alterant fins i tot la mena de dades,  (si trec l’elevació el sistema continua funcionant?), etc, etc. Altres sistemes classificadors – els que es basen en jocs d’entrades + sortides es coneixen com d’aprenentatge supervisat – són més adients per fer-se aquesta mena de meta-preguntes, fet que en cap cas s’ha d’entendre en el sentit que siguin millors.

Cada eina té les seves peculiaritats, i per a cada problema hi ha la seva eina òptima. I a jutjar per els resultats, no tinc cap dubte que els xarxes neuronals ho han estat per a en Joan Negre i Pérez per a detectar nous jaciments arqueològics en el curs baix de l’Ebre. No puc sinó felicitar a l’autor, per la simplicitat i elegància del plantejament científic emprat i per la brillantor dels resultats obtinguts. Un treball magnífic!

Coda

En resum, una setmana marcada per la lectura d’un parell de treballs, que a parer meu mostren el nivell de qualitat dels investigadors formats al voltant de la UAB i el grup d’en Ramon Martí i Castelló; una gent i una institució de la qual a nivell personal, sempre aprenc coses. I al mateix temps, no puc sinó pensar en la pluralitat d’equips semblants que estan investigant el nostre passat en el nostre País, i en la poca visibilitat que té la producció historiogràfica local. Visibilitat que a voltes sembla fins i tot inversament proporcional a la seva qualitat. Una situació que trobo especialment dolorosa, i que en la mesura que es pot, també es mira de combatre en aquest bloc.

 


Notes

  • [1] Tampoc res d’especial, els conceptes de guerra i comerç no estaven tan separats llavors. Per exemple, en la Borgonya i -menys- en l’Alvèrnia altmedievals es pot comprovar com a moltes compres se’ls anomena conquistum. De manera que aquesta superposició de ‘maneres d’aconseguir propietat’ que diríem avui en dia era compartida per cultures tan diverses com la germànica i la musulmana (i no put deixar de recomanar la lectura de les obres d’en Wiener, qui va dur aquesta comparació molt més lluny en el camp filològic, o per exemple: Ross, Denman Waldo : 1883 : “The early history of land-holding among the Germans” sobre l’evolució del concepte de tinença de terres germànic.).
  • [2] L’explicació de l’episodi segons Ibn Hayyan, es pot trobar , per exemple a: Bramon i Planes, Dolors : 2000 : “De quan érem o no musulmans. Textos del 713 al 1010” p.291-297
  • [3] Per exemple, en temes de xarxes neuronals, si cerqueu “NN.VBX” encara trobareu per la xarxa eines de programació meves dels anys 90 – però no me’n faig responsable, ja que no sé per quines mans poden haver passat -.
  • [4] Aquí, la referència obligada és Donald Knuth i la seva obra The Art of Computer Programming..
  • [5] No us penseu pas que el concepte de computabilitat o de calculadora universal són exclusius del món de les màquines o la matemàtica, veieu per exemple els treballs d’en Stephen Wolfram. La natura és la gran mestre.
  • [6] Aplicar la força bruta i computar centenars de milions de jugades a cada moviment no és jugar a escacs, i els minsos resultats dels pocs esforços fets per programar màquines que aprenguin l’estratègia del joc són encara terriblement decebedors. Els altres dos reptes enumerats: discernir veus humanes i fins i tot parlants, sí han estat solucionats, especialment a partir de xarxes neuronals, però d’una tipologia diferent a les emprades en el article d’en Negre.
  • [7] La darrera enganyifa a gran escala dels que no volen entendre que el coneixement humà no és, ni té per què ser coherent – la trava bàsica de tot sistema ontològic – ha estat el Web Semàntic. On de nou s’han tornat a perdre quantitats ingents d’esforços en un projecte d’antuvi sabudament inútil.
  • [8] S’han provat sistemes per extreure aquesta mena d’informació de les xarxes, per exemple, a base d’eliminar selectivament connexions que no afectin gaire el comportament de la xarxa fins obtenir una fórmula més simple, però els resultats no són generalitzables, depenen de cada cas i són intensius des del punt de vista computacional.
Aquesta entrada s'ha publicat en Abd-ar-Rahman III, Al-Andalus, Alan Turing, algoritme, aprenentatge supervisat, arquelogia, Barcelona, Bernat, Bibliografia, biologisme, Borrell II, castell d'Amposta, cathalaunia.org, Còrdova, classificadors estadístics, computació, Ebre, estadística, Gòtia, GIS, Gotmar, Guifré-Borrell, Hasdai ibn Shabrut, Hug de Provença, IA, Intel·ligència Artificial, Islam, Joan Negre Pérez, Jonathan Jarrett, Kurt Gödel, otonians, perceptró, programació, Ramon Martí, Riquilda, S. X, semantic web, sistemes experts, Sunyer, Tarragona, Tortosa, UAB, xarxes neuronals i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s