A martellades.

Des de fa uns dies cathalaunia.org està sent atacat informàticament amb una certa virulència, de manera que hem acabat fent servir el martell.

Esperem no haver enganxat els dits a ningú, però si algú es troba que no té accés (i no estava fent res dolent….)  pot posar-se en contacte, ja sia fent un comentari  en aquest apunt, o en el email de la pàgina inicial de cathalaunia.org  i podem mirar de solucionar-ho.

cathalaunia.org Pàgina inicial.

Més enllà d’això, lo propi d’aquests casos: molesteu les disculpes!

 

Publicat dins de cathalaunia.org | Etiquetat com a | Deixa un comentari

2017-abril a cathalaunia.org

S’acaba un abril de nou ibèric a cathalaunia.org. A voltes, quan més ganes tens de tancar un tema, més interessant i fructívol es torna i t’acabes trobant sense previ avís sota la síndrome del: ‘això no ho puc deixar així…’. Tal ha estat cas del mes.

Aquest bloc ha rebut una rebut una entrada nova per consignar la presentació inicial d’unes inesperades noves capacitats de la secció Ibèrica i Romana del web: epigràfiques! El que allà es presentà, aquí ho completarem.

La Secció Ibèrica i Romana, és la que ha acaparat la feina i l’atenció del mes. En primer lloc, s’han corregit un parell d’errades subtils en el mecanisme de cerca del corpus introduïts en els darrers canvis que s’hi van efectuar no fa gaire (un parell de signes mal col·locats en llocs difícilment detectables). Afectaven a casos molt particulars i per això han tardat un temps abans de fer-se evidents.

Ara, el gruix de l’atenció s’ha dividit en dues àrees ben diferenciades. Per una banda, i tal i com es va comentar en l’apunt anterior a aquest, s’han afegit capacitats paleogràfiques als continguts del corpus Iberika. La idea s’havia albirat feia temps, però a primers de mes es va fer real. És ben simple, es tracta que de crear un mitjà que permeti col·locar sobre les imatges de les epigrafies ibèriques, els glifs del signari (deformant-los o girant-los si cal) per tal de poder seleccionar les parts de la imatges que corresponen a cada una de les lletres de la inscripció. Tan simple com això. El resultat és que per cada glif o signe no sols tenim en quines epigrafies apareix, és que també tindrem la seva imatge (cal anar processant les entrades, però el sistema és força hàbil i efectiu). El que en l’apunt previ no es comentà perquè no existia, era una nova facilitat associada.

Els epigrafistes, acostumen a fer llistes amb les imatges que els glifs prenen en un testimoni epigràfic concret agrupades per caràcter, per evidenciar les semblances o dissimilaritas. No sent epigrafista, no comprenia gaire bé la seva utilitat real; ha estat ara, definint la imatge de cada lletra en els originals que n’he pogut començar a captar la utilitat. Tenint les imatges de cada glif era relativament senzill implementar aquestes llistes de signes en cada una de les epigrafies ja processades, i això és el que s’ha fet, i en fer-ho s’ha fet evident la seva utilitat. En imatges ho farem més ràpid.

A partir d’ara, si una epigrafia del corpus ha estat processada epigràficament, sota la seva imatge apareix un apartat Gilfs : +, mirem per exemple la I01189.

En vermell, marcada la situació del nou apartat epigrafista de les entrades del corpus Iberika.

Com en la resta del web, els signes +/ en blau indiquen seccions que es poden expandir o col·lapsar, de manera que si fem un clic, ens mostrarà la versió electrònica de les llistes de signes dels epigrafistes per aquesta entrada.

El signes de l’entrada I’01189 amb les seves formes.

I és llavors que te’n adones de lo pràctiques que són. I és que mentre vas situant els glifs a lloc, sovint no captes la cohesió en l’estil de cada signe, de manera que et pots trobar que l’assignació de glif inicial, prèvia, feta per inspecció ocular, un cop presentada així, amb tots el signes ‘iguals’ un al costat de l’altre, es demostri no encertada. Estem parlant de casos entre variants molt properes, lògicament, però no deixa de ser notable. Un exemple potser extrem (i encara no processat) poden ser els Tes de la I01129.

3 Te’s iguals?

La imatge mostra un fragment de l’esquema del plom, on figuren tres signes Te, cada un amb un cercle de color diferent, a sota en vermell, tenim els glifs més propers, el 107 (el rombe) i el 110 (el cercle). En una transcripció fonètica els tres serien casos idèntics i com a molt, la distinció entre si emprar el 107 o el 110 seria una qüestió estilística de si és millor emprar formes angulars o rodones. Però la imatge és més punyetera. El Te verd (no la beguda) és clarament un 110, fet amb un traç rodó i un separador vertical que no arriba al fons, i el Te blau (ara ja queda clar que no és beguda,  o no?) sembla un 107, fet amb un traç amb forma de D triangular i complementat amb un traç a la banda esquerra un xic més petit. Ara, el Te taronja (i va i em diu Susanna que ja no sé si és de terres estrangeres) ens confirma per una banda la factura partida del blau, però amb una D més arrodonida i un traç a l’esquerra clarament més petit. I ara la pregunta del milió és: són tots el mateix codi? dit altrament: l’escrivà volia diferenciar entre el primer Te, el rodó, i els altres? O pitjor encara: podem fer aquestes distincions a partir d’un calc? S’accepten suggeriments.

Però més enllà de la epigrafia ibèrica digital, el mes ha estat dedicat especialment a la computació, a com dissenyar un sistema que ens permeti avaluar objectivament les agrupacions de glifs que es fan usualment des de criteris filològics (i de les qual el signari simplificat de cathalaunia.org no n’és sinó una reducció). Una part ja s’ha anat comentant aquest any en aquest bloc en una inesperada minisèrie d’apunts sobre la variabilitat sígnica de l’ibèric nord-oriental, però el cas és que aquest mes sí s’ha pogut fer algun modest avenç i s’està en el procés de donar-li forma. En parlarem un cop tancat el text (hi ha molta cosa a presentar, resumir i comentar).

La resta de seccions del web han patit desafortunadament la desconsideració proporcional a la fixació amb la temàtica de l’escriptura ibèrica que ha engolit el mes.

La Bibliografia, també ha estat menystinguda. Per una banda perquè hi ha una negativa volguda a incorporar nou material mentre la cua de lectures pendents sigui tan llarga (està encara en els 340 títols) i per l’altra, per una manca de flexibilitat mental. És curiós com cada àmbit del coneixement té els seus requeriments. En el cas de la computació i crec que en general en el raonament matemàtic, el tipus d’esforç de comprensió que es fa, és completament diferent del que es fa per exemple en l’estudi de la Història. Segons com, en vigília, m’agrada sintetitzar-ho en termes de: Comprensió vs. Discurs. El primer és una esforç apol·lini, estrictament mental, de comprensió abstracta, sovint absent de llenguatge, mentre que el segon té més a veure amb la capacitat d’organitzar una pluralitat de comprensions interconnectades i interdependents i de saber-t’ho explicar mínimament. Total, per no entrar ara en disquisicions més subtils, que la dedicació a rumiar com distingir uns signes d’altres ha resultat antitètica amb el desig de lectura. No que no n’hi hagin hagut, però les novetats són pràcticament testimonials (i això amb un Sant Jordi al mes…).

Com és habitual, llistem les – minses, però totes profitoses- incorporacions del mes, per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.921 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de agrupacions de glifs, Bibliografia, cathlaunia.org, corpus Iberika, esquemes, estadística, Iberika, Signari ibèric | Etiquetat com a , , , , , , , | Deixa un comentari

Paleografia Ibèrica Digital.

Aquest apunt és per comentar una novetat en el corpus Iberika de cathalaunia.org estretament relacionada amb el seu Signari. El tema venia de lluny però ha cristal·litzat aquesta setmana.

Ja des dels seus inics a l’any 2013, el corpus ha presentat una pàgina Signari on mostrar la pluralitat de glifs que defineixen la seva escriptura (amb la seva codificació numèrica) seguida de l’especificació d”una agrupació d’aquests mateixos glifs en ‘caràcters’ (parlant impròpiament) per facilitar fer cerques i altres manipulacions.

Signari de 207 glifs.

El contingut ha anat variant al llarg del temps seguint l’evolució de la definició del signari; dels 136 signes originals del seu corpus mare, el de na Carme J. Huertas, als 207 de l’actualitat; i fins aquesta setmana, això era tot el que es podia trobar: una llista de signes i codis. A partir d’ara però, cada un dels glifs es pot clicar per obrir una pàgina on recollir la informació que es disposa d’ell en el corpus, que no és pas poca. Mostrem per exemple, el glif 116, suposadament una variant de Ke, lo prou poc documentada com per poder capturar-ho tot en una sola imatge però amb tots els elements que volem comentar:

Informació disponible del glif 116.

En la part alta, les dades bàsiques: el seu aspecte, el seu codi numèric, el seu valor fonètic suposat, i el nombre d’entrades epigràfiques en els que figura. I a sota, una taula amb el desglòs de cada una de les epigrafies. Cada una amb el codi Iberika corresponent (enllaçat lògicament a l’entrada en qüestió), l’identificatiu, el suport, la data, la localització i les formes originals en les que apareix el glif. Tenir un corpus informatitzat permet això, poder dir en quines epigrafies apareix cada un dels seus signes.

No fa gaire es comentava, parlant de la variabilitat sígnica de l’ibèric nord-oriental, de la possibilitat de reconstruir quins signaris s’empraren en cada moment i context de la història de la Ibèria. La idea rera aquestes pàgines de glifs és proporcionar el lloc on presentar les dades necessàries per a tal tasca. No per què sigui un objectiu amb el que hi hagi una afinitat especial, més aviat el contrari, però sembla  indefugible[1] tot i les seves limitacions naturals. Mirem d’explicar-ho.

Certament, qui hagi revisat un nombre lo prou gran d’epigrafies ibèriques pot percebre modalitats i costums diferents, i si tenim el lloc i el moment en el qual es documenten cada un dels signes, hauria de ser  relativament fàcil descriure la modalitat (o modalitats) que s’empraren en cada context. La idea, en abstracte, no pot ser més encertada, però el problema és la seva definició formal, que estarà malauradament farcida d’ambigüitats. Per començar, molts objectes estan descontextualitzats, i per tant, no permeten ni una localització ni una datació que no sigui d’allò més genèrica. Tampoc del fet de trobar un objecte en un cert lloc en podem sovint derivar, ni la seva factura local (no deixen de ser bens mobles), ni menys que ho fos la seva escriptura si són marques fetes amb posterioritat a la seva fabricació. Tampoc l’eix temporal permet gaires alegries, les datacions amb uns mínims de garanties són malauradament minoria (les tècniques de datació han millorat molt, però el gruix de l’evidència, en ser anterior, no n’ha pogut fruir). El perill, és que davant la poca evidència disponible, es caigui en la temptació d’oblidar que ‘absència d’evidència no és evidència d’absència’, i per voler definir un context, es menystingui l’ambigüitat intrínseca de les dades. Si per exemple, tenim un glif documentat en 30 epigrafies, 20 d’elles del segle IIac i d’un context local relativament reduït i la resta sense data, podem estar temptats de creure que efectivament, va ser creat i emprat en aquell context del s.IIac, quan de fet, amb només que una de les altres 10 epigrafies resultés ser del segle IIIac desfaria la hipòtesi. El perill està en què en no saber-ho, ens fixem només en el que sí sabem, que no deixa de ser una inclinació natural de la ment. I com que, agradi o no, cal fer hipòtesis, i en aquesta mena de casos no acostuma a haver-hi gaires novetats que obliguin a replantejar-les sovint, la inèrcia porta a substituir el que originalment era una suposició en una ‘opinió de consens’ al cap d’un temps i d’un cert nombre de repeticions acrítiques en la literatura especialitzada. La pràctica historiogràfica està farcida d’exemples, i tot historiador sap que ha de desconfiar-ne sistemàticament, però això no és tan així en altres disciplines (en el que fa a l’avaluació geotemporal de les dades disponibles, s’entén). D’aquí les recances amb la idea de mirar de delimitar uns suposats modismes locals en una temàtica amb tantes ambigüitats estructurals: el perill d’autoreferenciar-se és molt gran.

Però tornant a lo concret, cal fer una observació d’estat actual. Aquestes pàgines de glifs mostren clarament la gran quantitat de dades que encara falten incorporar en el corpus. La majoria d’epigrafies no tenen ni localització geogràfica ni datació. El motiu està en què en origen, la missió principal del corpus era presentar una codificació el més semblant possible als originals (i aquesta era la informació que les dades d’ibers.cat proporcionava) , però un cop aquesta tasca ha estat raonablement encarrilada, es va fent patent la necessitat d’afegir la resta d’informacions bàsiques, especialment com diem: lloc i data. Per això, de moment, les columnes de Data i Lloc en la pàgines dels glifs, apareixen majoritàriament buides, cal encara una tasca sistemàtica d’anotació, ja que en origen no es disposava d’aquesta informació. És l’objectiu i la metodologia emprada a cathalaunia.org: presentar només dades bàsiques amb referències a fonts d’autoritat externes per si es vol anar més enllà[2]. En el cas de les epigrafies ibèriques, per a cada una es disposa d’una secció de Bibliografia (i en això, la tasca d’afegir les evidències gràfiques feta aquests darrers mesos n’ha permès incorporar-ne un mínim a una majoria d’entrades), una de Web, majoritàriament amb referències a la base de dades Hesperia (tot i que encara publica molt poques dades). I ara cal convertir les dades de Lloc a ser possible en enllaços a descripcions del context geogràfic o jaciment arqueològic (preferencialment de Wikipedia) que continguin les coordenades de la seva geolocalització[3]. Tot plegat es diu ràpid: només cal afegir lloc i data a més de 3.000 epigrafies…

Però més enllà d’aquestes mancances, les pàgines dels glifs, presenten una columna Formes, on s’aniran mostrant les formes que pren el glif en cada epigrafia, i aquí arribem, per fi, a la Paleografia Ibèrica Digital del títol.

Paleografia Digital

Dèiem que la cosa venia de fa un temps (i aquí tenim que passar a la primera persona). L’any 2015, en el magnífic bloc de n’Ainoa Castro, Littera Visigothica, dedicat a la paleografia visigòtica, l’autora comentava la seva disposició a aplicar la informàtica a la tasca paleogràfica d’identificar les diferents mans que confeccionaren un manuscrit determinat. Sent cathalaunia.org  el fruit de creuar Història i Computació, em va causar sorpresa el fet de no haver-hi pensat abans en una tal aplicació de la tecnologia. Certament sabia de webs especialitzats en manuscrits originals i altres aspectes relacionats amb la diplomàtica (sols cal mirar en la llista de ‘Adreces d’interès‘ de cathalaunia per trobar-ne uns quants), però per a la tasca concreta d’individualitzar els caràcters de cada escrivà, no. De manera que vaig mirar de seguir d’aprop el tema per mirar d’estar al dia i per si es podia ajudar d’alguna manera.

Els detalls, arribaren poc després en els següents apunts del bloc, i eren que certament ja existia una aplicació de paleografia digital anomenada DigiPal i que la tasca de l’autora en els propers temps seria adequar l’aplicació al context de la paleografia visigòtica[4]. El programa proporciona una sèrie de facilitats genèriques d’anotació d’escriptures manuals en entorns web, però està pensat per ser modificable per a cada context (les necessitats varien lògicament segons l’àmbit a estudiar, no és el mateix si estem parlant d’epigrafia carolina, o de miniatures, de llibres, o de pergamins, etc, etc).

Un comentari de professional del món de la computació. Sovint, els programes informàtics neixen d’una idea simple, a voltes mínima o fins i tot insubstancial, l’expressió de la qual ocupa una part petita quan no ínfima de tot el programa; la resta, el gruix de la feina (i dels problemes) és com arribar a poder fer funcionar aquest pinyol, aquest germen inicial. En el cas de la paleografia medieval, aquest ‘pinyol’ sembla estar en poder marcar de forma fàcil cada una de les lletres sobre les imatges dels manuscrits a estudiar. Els paleògrafs construeixen (fins ara manualment) llistes de com es dibuixaven cada una de les lletres o signes en cada original i per comparació caligràfica, les agrupen en sengles ‘mans’. El programa DigiPal facilita això: presentar una imatge d’un manuscrit per tal de poder marcar-ne una part, un rectangle, i dir: ‘això és una A‘, ‘això una g‘, ‘aquí hi ha una altra A‘, etc. I a partir d’aquesta informació base, anotar-la, categoritzar-la i agrupar-la i presentar-la segons les necessitats específiques del camp d’estudi. El projecte DigiPal està doncs pensat per crear derivats seus, per exemple, en el cas de n’Ainoa Castro, està construint (i ho comenta més que bé en el seu bloc) un ‘VisigothicPal‘.

De manera que la reacció fou pensar immediatament en un possible ‘IbèricPal‘.

La problemàtica de les escriptures ibèriques preromanes és molt diferent al de les l’escriptures medievals, però possiblement el program seria lo prou adaptable com per poder-ne fer una eina eficaç en aquest domini (potser a efectes pràctics, la dificultat a primera vista mes evident era la necessitat de poder indicar lletres ‘torçades’, és a dir, de marcar rectangles ‘girats’, una facilitat que la darrera vegada que ho vaig mirar, DigiPal encara no incorporava, però que estic segur que incorporarà ben aviat -és una facilitat massa convenient i genèrica com per ignorar-la-). Però tot i així, era evident que resultava una tasca excessiva per mirar d’afrontar-la des de cathalaunia.org, de manera que el tema s’arxivà en l’apartat dels: ‘Estaria bé‘.

Paral·lelament, el corpus i el signari de cathalaunia van evolucionar per fer-lo encara més semblant a les epigrafies originals, i quan el nombre de signes arribà als 188 (l’octubre del mes passat) es feu un recompte de covariacions (variacions d’un mateix signe en una mateixa epigrafia) on els resultats mostraven que la variabilitat de l’escriptura ultrapassava la proposta de dos signes per ‘caràcter’ que es fa modernament, i que en comptes d’uns cinquanta signes, calia contemplar-ne una forquilla entre 85 i 96. Resultats que sorprengueren a uns quants experts[5], reacció que de retruc, propicià la incorporació dels esquemes o calcs, de les epigrafies originals fetes per els estudiosos per poder verificar públicament la correcció de la transcripció presentada en el corpus Iberika i el seu grau de semblança. En fer això, indirectament, ja s’estava complint el primer requisit per poder diferenciar els glifs originals un a un: tenir una imatge de l’original per a cada entrada epigràfica.

Aquesta tasca de verificació ha fet augmentar fins a 207 el nombre de glifs necessaris (i hi han en cartera encara més incorporacions, tot i que ja d’abast quantitatiu molt limitat) quan farà unes poques setmanes, es plantejà la conveniència de rescatar aquella idea de la paleografia ibèrica digital de la carpeta dels ‘Estaria bé‘ per si seria convenient fer-la realitat. No, potser, per fer-ho amb les mateixes eines de DigiPal, que generarien un projecte diferenciat del de cathalaunia.org i de difícil integració (tan tècnica com estructural), sinó amb eines pròpies, ja nativament adaptades al context ibèric. En els projectes Pal, cal anar marcant a mà la posició de cada un dels caràcters, però en el cas del corpus Iberika tenim ja la transcripció feta… En imatges ho explicarem més ràpid.

Agafem una epigrafia, per exemple, la I00836, el seu esquema original dels Monumenta Linguarum Hispanicarum és:

I00836, esquema en els MLH.

I la transcripció del corpus Iberika és:

I00386 transcripció.

Només falta convertir-la a:

I00836 transcripció adaptada a l’original.

I tindrem les posicions de cada glif original (inclosa la seva rotació, inversió i/o redimensionament[6]). És a partir d’aquesta informació que en la pàgina de cada un dels glifs, podem anar mostrant l’aspecte original (en els esquemes) que tenen  en cada una de les epigrafies del corpus. Només cal dedicació, les eines ja estan plenament operatives. Això és el que ha cristal·litzat aquesta setmana, una idea que venia de feia un any i mig i que gairebé inesperadament ha trobat la seva expressió programàtica adient[7] per mirar de millorar encara més els continguts del corpus Iberika. A partir d’ara, i a mida que es vagin incorporant les dades que falten, es podrà avaluar fàcilment l’ús de cada un dels signes de l’ibèric nord-oriental (bé, millor dir: cum grano salis per lo comentat abans sobre la fiabilitat de les dades). És només un començament certament, no s’ha processat ni un 1% de les dades, però ves per on, ara el corpus també incorpora informació paleogràfica, i això, sí que no estava previst…!

Encara més feina a fer…

– Actualització 2017-V-9 –

El mètode d’anotació descrit en aquest apunt ha acabat prenent forma d’article: Vilaseca i Corbera, Joan : 2017 : “Epigrafia ibèrica digital” , qui vulgui la formalitat, allà ho trobarà.

 


Notes

  • [1] Preval el criteri de: sempre que es pugui s’ha de presentar la informació disponible.
  • [2] L’exemple més clar potser sigui el dels documents altmedivals del Fons Cathalaunia. On es presenta una versió del text lo prou fidel als originals com per permetre una avaluació eficaç, però sense pretendre en cap cas substituir les edicions crítiques dels texts, imprescindibles si es vol anar més al detall, i per les quals es procura aportar com a mínim un enllaç a una edició en línia si es coneix i en tot cas, una o més referències a les seves entrades bibliogràfiques corresponents.
  • [3] Observis que s’evita incorporar explícitament les coordenades en el web cathalaunia.org. El motiu és metodològic: sempre que sigui possible es mira d’evitar duplicar dades i es prefereix cercar referències en fonts d’autoritat externes per minimitzar la possibilitat de presentar dades errònies.
  • [4] És una rara satisfacció poder constatar que hi han investigadors en Humanitats que cobren per fer el que els hi agrada, tal i com hauria de ser (el retorn de la despesa en investigació cultural esta mes que ben estudiada). Per quan veurem això per els que investiguen la Cultura Catalana? Una Catalunya independent té objectivament el potencial de ser un referent en aquests àmbits, i el contrast amb la indigència induïda actual, és sagnant…
  • [5] I es poden continuar estranyant, ja que un nou recompte fet amb el signari de 207 glifs, ha confirmat que la variabilitat es manté, amb exemples documentats de tres i quatre variants d’un mateix ‘caràcter’ en una mateixa epigrafia.
  • [6] El terme matemàtic és transformacions afins, Tema que per experiència personal no puc dissociar del de la compressió fractal. Una de les fites de la computació de  finals del segle XX  que encara no ha tingut l’impacte esperable en la societat (es va demostrar que la descripció d’una imatge a partir de transformacions d’ella mateixa equivalia a la pròpia imatge, dir altrament, per enviar una imatge només cal enviar les seves transformacions, la seva ‘fórmula fractal’, i per tant, l’estalvi s’ample de banda resulta brutal (no però el cost computacional, especialment en la descompressió, la termodinàmica és la que és). No és un cas únic, hi han un grapat de tècniques de processament ‘revolucionàries’ que per un motiu o un altre encara no han tingut el ressò que era d’esperar.
  • [7] Evitem deliberadament entrar en el detall de la seva realització, que certament és molt més complex i punyetero del que sembla, aquest bloc tampoc és un lloc adient on parlar a fons de temes estrictament programàtics.
Publicat dins de Ainoa Castro, Bibliografia, caligrafia, Carme J Huertas, cathlaunia.org, compressió fractal, corpus Iberika, covariacions, covariants, DigiPal, esquemes, Fons Cathalaunia, glifs, Iberika, ibers.cat, Littera Visigothica, Paleografia, Paleografia Digital, Paleografia Digital Ibèrica, Signari ibèric, transformaciós afins, VisigothicPal | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2017-març a cathalaunia.org

Març ha estat un mes ibèricament pràctic, vull dir, pràcticament ibèric: vaja, pràctic i ibèric. En teoria, la idea era dedicar la primera meitat del mes a tancar el treball en el corpus Iberika i poder tornar a la tasca del Fons Cathalaunia ; en la pràctica, s’ha cruspit tot el mes i més que en vol.  Tampoc es tractava de tancar-ho del tot, només deixar les millores del corpus en un estat lo prou correcte com per no sentir el rossec de la feina pendent; doncs ni això. En teoria no s’havia de teoritzar sobre cap més aspecte de l’escriptura ibèrica, en la pràctica s’ha estat bona part del mes rumiant heurismes i procediments pràctics per definir el mapa de caràcters de l’ibèric nord-oriental algorítmicament. Anem al desglòs.

La secció Ibèrica i Romana ha vist elevar el percentatge d’entrades amb dibuix o esquema de la inscripció original fins el 85%. Com ja es va comentar, la idea és incorporar l’aspecte del text original per poder verificar la correcció (o si es vol , el grau de semblança) de la transcripció informatitzada que es presenta. És com una ‘cita’ però en gràfic: en comptes de dir que ‘tal diu tal a tal lloc’, aquí es mostra que ‘qual ha dibuixat això a tal lloc’ i/o que ‘tal qual ho ha fet altrament a tal altre’, tota vegada que cada imatge va enllaçada a l’entrada bibliogràfica corresponent a l’obra o article d’on prové. No deixa de ser el mateix que es fa en tot el web, donar dades, amb enllaços a fonts d’autoritat externes (bibliografies, enciclopèdies, museus, etc).

Aquesta tasca de verificació ha propiciat l’expansió del signari per tal de fer-lo encara més proper als originals del que ja era, i actualment presenta fins a 207 glifs diferents. Tampoc és l’estadi final, ja que hi han millores encara en cartera, però cada cop són de menor envergadura; per exemple: hi han més de seixanta glifs candidats a entrar, (la majoria detectats només en una o dues entrades), també n’hi han 3 dels 207 que finalment no s’han emprat, a més, hi ha encara un 15% del corpus per verificar i potser aparegui algun glif nou més, etc, etc. A la espera de definir quina serà la nova versió del signari, el que sí es fa en tot cas, és proporcionar la font iber.ttf amb l’estadi actual. A la que l’acumulació de canvis aconselli fer una nova revisió del signari també es proporcionarà una nova font (les versions són compatibles entre elles, ja que els canvis bàsicament, o afegeixen codis nous o en redefineixen de no emprats i per tant, són compatibles entre sí.

I per acabar-ho de rematar (o més ben dit, d’iberitzar) els amics de l’Institut d’Estudis Ibers de Terrassa van tenir l’amabilitat de programar aquest mes una xerrada en el seu curset anual sobre iberisme on es va poder comentar el funcionament de les eines de cerca del corpus ibèric de cathalaunia. Tenint en compte que la idea de fer el corpus nasqué precisament allí, fa anys, assistint a una xerrada de na Carme J. Huertas sobre codificació del signari ibèric, era una cita inevitable. A més, és un rar plaer, avui en dia poder gaudir d’un ambient de gent curiosa, participativa, amant de la temàtica i de ment oberta. Havent-hi anat unes quantes vegades (la gran majoria d’oient), no sabria dir si xalen més el ponents o els oients…

Aquest bloc, ha estat on s’ha visualitzat bona part de la tasca teorico-pràctica feta aquest mes.

  1. El fet d’haver ampliat el signari ha propiciat repetir el recompte de co-variants en una mateixa epigrafia que s’havia fet fa uns mesos (i que de fet, fou el detonant dels canvis haguts des de llavors). En el seu moment, es va constatar que la quantitat de variants d’un mateix caràcter era molt superior al que el desxiframent actual proposa (amb un màxim de dues variants) i es recomptaven casos de tres i fins quatre variants d’un mateix caràcter en una mateixa epigrafia. La reacció dels experts consultats fou de sorpresa, fins el punt de considerar-ho impossible i arribar a dir que havien de ser errors del corpus…! Com a resposta i per tallar d’arrel tota controvèrsia, s’incorporaren els esquemes de cada epigrafia i així tothom podrà verificar el grau de proximitat amb l’original. Doncs bé, un cop aproximat encara més a l’original i verificat un 85% del corpus, s’ha tornat a programar un recompte de covariants, i la magnitud de la variabilitat es manté. Els resultats del recompte s’han incorporat en una actualització al fons de l’apunt original, amb un pdf on poder consultar en línia cada un dels 397 casos d’entrades epigràfiques amb més d’una variant d’un mateix caràcter (286, si eliminem covariàncies ‘estétiques’), i s’ha fet notar que per el que fa a la manera de diferenciar gràficament les variants, l’allargament o adició d’un traç vertical inferior és quantitativament força més rellevant fins i tot que la marca dels signes del signari dual (l’adició d’un traç vertical central).
  2. El mes passat, en aquest bloc s’havia comentat un primer intent de classificació automàtica dels glifs ibèrics, però amb resultats poc satisfactoris, de manera que el que havia de servir per detectar les agrupacions de glifs, es reduí a un mètode per mesurar quantitativament l’abast de l’evidència de les agrupacions de glifs que proposen els filòlegs (un suport francament baix, tot sigui dit).
    En teoria, l’experiment havia fallat, en la pràctica, això esperonà més la curiositat per entendre els motius de tal fallada, i això ha propiciat una sèrie d’experiments per mirar d’entendre millor el problema i afinar les eines de mesura, de manera que els resultats han acabat convertint l’apunt del mes passat en el primer d’una mini-sèrie de tres.
    En el segon s’han comentat les proves que s’anaven fent per millorar el tractament del problema de la dispersió de les dades (el corpus ibèric és petit però amb molts signes diferents i una casuística molt sorollosa) a partir d’emprar el català (una escriptura ben coneguda) com a camp de proves, i posteriorment es desenvolupà una simplificació de les mesures de segmentació (modularitat) per tal de fer-les de més fàcil lectura.
    En el tercer i final, els mètodes aquests s’han aplicat a l’ibèric, i s’ha pogut contrastar les bondats del sistema (a grosso modo les vocals i consonants es detecten raonablement bé), i les seves limitacions (els sil·làbics no tant). Però més enllà de ser una via d’anàlisi interessant, el fet, és que fins i tot una mesura no del tot reeixida permet plantejar algunes interpretacions alternatives a uns quants glifs. Recordem-ho, fet a partir de mesures estrictament quantitatives, amb una informació del domini mínima (bàsicament només saber quin signes són separadors o metrològics).

La Bibliografia, amb tanta pràctica teòrica i tanta teoria practificada tampoc ha sortit ben parada. La lectura ha estat poca, pràcticament testimonial, (encara que en teoria, molt interessant, ja en parlarem en el seu moment, si Déu vol). La cua de ‘per llegir’ encara està en els 342 títols en escriure això. Terrible…

Com és habitual, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

A fi de mes, cathalaunia.org presenta 26.704 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de agrupacions de glifs, Bibliografia, Carme J Huertas, cathlaunia.org, corpus Iberika, covariants, esquemes, estadística, Fons Cathalaunia, iber.ttf, Iberika, IEI, Signari ibèric, Xarxes | Etiquetat com a , , , , , , , , , , , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental (3).

En l’apunt anterior ens havíem quedat  a les portes de crear un graf a partir del corpus en ibèric nord-oriental amb un node per cada un dels seus glifs i connectats segons el grau positiu de correlació de Pearson de la seva distribució, modulat per el factor de confiança F allí descrit[1]. El signari ibèric emprat defineix 207 signes però 6 són considerats separadors (línies verticals de punts), 4 són marques metrològiques i 3 no figuren el corpus, aixo deixa un signari hàbil de 194 glifs, xifra que es veurà encara més reduïda per els cassos sense connexions/correlacions superiors a 0.001[2]. El graf resultant (disposat amb l’algoritme ForceAtlas) presenta 155 nodes amb 1603 connexions.

El corpus ibèric 155 glifs, 1603 connexions.
Cliqueu per imatge a mida gran o en format svg.

Un graf que il·lustra molt bé la complexitat del problema. Per una banda, en una mirada superficial i segons el desxiframent actual, es poden percebre tres grups: a l’esquerra tenim les vocals, en la part més alta, un de consonants no oclusives i en la part dreta i poc dibuixat, n’hi ha un que és un autèntic tuttifrutti (potser nascut del pes de les evidències marginals?). Però més enllà d’aquestes agrupacions el graf presenta un alt nombre de nodes dispersos, tot i que la seva distribució està lluny de semblar aleatòria i de fet, planteja algunes possibilitats interessants. Fem un breu repàs.

Entre les vocals i les consonants contínues tenim agrupats tres variants amb forma de V i Y (codis 62,63 i 65 en el signari de cathalaunia) que per posició suggereix que podem estar davant d’un cas de doble sonoritat i que caldria desdoblar-les en una m? i una vocal (o/u?), o potser un sil·làbic?. També resulta estrany que si bé en general les vocals presenten una localització força clara, les is, tenen també variants en la dispersió del quadrant inferior/dreta. En la part central i aïllada dels tres grups més clars, figura el signe Ba (el més freqüent), amb dos Tis aprop, probablement aquesta disposició sigui provocada per el pes dels numerals en el corpus. En la línia de les 7h (com si el graf fos un rellotge) tenim un grup de tres signes Bo/Ta. En la de les 6h, trobem tres Pis. Entre les 4 i les 5h tenim fins a nou signes Ke, i ben curiosament, al seu costat el signe Ba corbat, que ens faria pensar si no hi han casos en que caldria llegir-lo com un Ke. Al costat dels Kes i fins les 3h trobem fins a 6 signes Be. Entre les 12 i les 3h tenim l’amàs dispers que dèiem, però en la part exterior de les 3h tenim tres variants de Ka, i en la de les 2h quatre Tes junts.

En conjunt, queda clar que tot i que a semblança del corpus en català els grups de consonants contínues i de vocals fan de fàcil delimitar, el problema està en la resta de signes que es comporten de manera ben diferent i que fa pensar efectivament en una natura dual, sil·làbica, funcionant com a consonant a una banda i com a vocal en l’altra. Sent la idea base comparar entre quins signes apareixen els glifs, queda clar que una escriptura alfabètica amb només dues menes de signes, serà més fàcil de detectar tota vegada que l’alternança és la pauta a esperar, mentre que la presència de signes compostos, multiplica les possibilitats, que sembla que és el que reflecteix el graf. Amb tot, la complexitat del graf fa pensar en alguna raó afegida, ja que no sembla evident que la presència de signes sil·làbics per se hagi de produir un graf més dispers…

Això per el que fa a la distribució espacial, provem ara amb l’altra eina, la modularitat, però en comptes d’intercalar les onze particions/mesures com hem fet en l’apunt anterior, el que farem serà deixar-les en nota[3] i fer servir el seu mapa resum (tècnica que s’ha descrit en una actualització del l’apunt anterior).

El resultat és força variat i el que farem serà marcar amb verd els glifs per els quals entre els glifs més propers – segons modularitat acumulada – es detecti una majoria de glifs equivalents segons el desxiframent actual, i amb vermell els que no sigui així, és a dir, els que resulten més interessants…!

Mapa de glifs propers per modularitat acumulada
(els nombres indiquen la quantitat d’agrupacions compartides).

En verd els que presenten majoria de glifs acords amb el desxiframent actual..
En vermell els que no.

Els comentem per ordre:

  1. En primer lloc el glif que sembla una E inclinada a l’esquerra (codi 41, 6 entrades) sembla ser una I.
  2. El signe espiga de 2 branques (codi 43, 17 entrades) segons això seria una O.
  3. Curiosament una de les Os de 2 travessers (codi 51, 5 entrades) sembla confondre’s amb una E, tot i que figura com a companya dels altres signes O…
  4. En els dos signes de L (codis 56 i 57, 374+537 entrades) apareixen com properes i formant un grup coherent entre ells amb un signe M (codi 60, 99 entrades) i un glif com una L especular (codi 59, 8 entrades).
  5. El signe de forma de F (codi58, 29 entrades), apareix com una E.
  6. La A amb forma de R oberta  (codi 61, 85 entrades) sembla funcionar com una O.
  7. El signe Ba (codi 83, 717entrades) situat al centre del graf no presenta cap glif proper amb sentit evident tot i que forma un grup coherent amb quatre glifs més: un Te (codi 103, 34 entrades), un Ki (codi 193, 18 entrades), una nasal (codi 239, 14 entrades) i un de desclassificat (codi 213 , 2 entrades).
  8. El Ba corbat (codi 84, 26 entrades) que per posició està proper a signes Ke, per modularitat ho esta de signes Ka, un altre exemple de classificació contradictòria.
  9. El Ta amb forma de creu de Sant Andreu (codi 87, 480 entrades), també en posició central en el graf, s’associa majoritàriament amb signes Ka,
  10. Tot i que els signes Ka més habituals semblen agrupar-se de manera correcta, la variant amb el traç afegir a l’esquerra (codi 91, 77 entrades) forma un grup coherent amb dos Tes (codis 101 i 102, 32+45 entrades) i un signe Be (codi 183, 1 entrada).
  11. Un altre grup estrany però coherent el formen dos signes Be (codis 95 i 186, 13+43 entrades), dues Is (codis 145 i 197, 12+22 entrades) i un signe Bo (codi 212, 4 entrades).
  12. El signe Te amb forma de rombe partit per una línia vertical (codi 107, 20 entrades) s’agrupa amb glifs de sibilants.
  13. Un dels grups coherents però sense sentit evident més grans està format per 8 signes (codis 127,219,206,203,195,189,161 i 128, 1+8+20+24+62+3+10+1 entrades).
  14. Un de més petit ajunta un signe Pi (codi 141, 4 entrades), una Be (codi 174, 3 entrades) i una O de quatre travessers (codi 185, 3 entrades).
  15. Les sibilants s’ajunten de manera quasi perfecte tret de d’una variant de la de forma de M (codi 142, 91 entrades) que ho fa amb les sibilants simples.
  16. Una hàpax de Te (codi 143, 1 entrada) s’ajunta amb signes Ti, en un grup que comentarem un xic més avall).
  17. Una variant de S poc habitual (codi 144, 19 entrades) amb tres signes Ka ben documentats (codis 88,89 i 90, 140+23+227 entrades).
  18. Un grups curiós està format per dos Kes poc freqüents (codis 169 i 204, 3+4 entrades) i dos Kis (codis 194 i 196, 8+23 entrades).
  19. Una tripleta també aparentment espúria esta formada per una I ben documentada (codi 180, 23 entrades) , un hàpax de Ke (codi 129, 1 entrada)  i un Tu poc freqüent (codi 233, 22 entrades) .
  20. El grup esmentat en el punt 11, apareix però en comptes d’un signe Bo, presenta una tercera I al grup (codi 182, 18 entrades).
  21. El signe Bo de sis puntes (codi 205, 58 entrades) apareix amb dos signes To (codis 207 i 209, 38+86 entrades).
  22. Un dels signes To (codi 210, 25 entrades) de branques inclinades s’agrupa amb un signe Ku (codi 236, 111 entrades).
  23. Peró el més curiós és que l’altre To que té una base puntual (codi 211, 25 entrades) s’ajunta amb un grups de signes Ti, amb els quals comparteix figura (de fet hi han variants de Ti – no registrades en el signari – que dibuixen l’asta no per baix sinó en la part alta del traç medial). De manera que potser sí calgui considerar-lo una forma de Ti i no de To.
  24. Un altre binomi inesperat és el format per un signe Ko (codi 217, 39 entrades) i un signe rar, una espiga de tres ramificacions (codi 240, 8 entrades).
  25. I el signe Ko semblant a l’anterior però sense traç medial, i encara més ben documentat (codi 220,366 entrades), es veu inclòs en un grups de tres signes Ku, (codis 236, 237 i 238, 111+101+80 entrades) més el signe To del punt 22.
  26. Hi ha un grup coherent de fins a 5 signes Tu que incorporen però dues excepcions, un signe Te(codi 222, 2 entrades) i un signe M? (codi 243, 5 entrades).
  27. El signe To en forma de V invertida (codi 235, 19 entrades) es veu ajuntat amb dos signes Bu (codis 224 i 225, 13+9 entrades). En la situació espacial es veia situat a prop del seu homòglif de valor Ka (codi 92, 8 entrades) i per tant, potser es tracta d’una lectura incorrecta.
  28. Un signe inusual i interpretat com una nasal (codi 241, 3 entrades) es veu però consistentment agrupat amb sibilants. Potser una altra assignació a contemplar?
  29. I finalment, un encert inesperat. Un signe com una R especular (codi 248, 10 entrades) usualment interpretada com una R es veu efectivament agrupat a altres glifs de R.

En les agrupacions per modularitat, tenim doncs fins a 103 glifs de 155 correctament agrupats, és a dir, un 66% d’encert. I el terç restant aporta algunes possibilitats de relectura que caldria verificar, en concret, els punts 1, 2, 3, 5, 6, 8, 12, 17, 23, 27, 28  de la llista anterior. Cal entendre que en ser una anàlisi estrictament quantitativa, ha de ser en tot cas la Filologia la que dictamini l’encert o l’error de tals possibilitats.

En conjunt, doncs tenim una barreja d’encerts i d’errades en la mesura de les distribucions dels diferents glifs del corpus ibèric segons la correlació de Pearson modulada per el factor de confiança F, si l’expressem com una xarxa formada per els seus signes connectats segon les correlacions entre les seves distribucions, i n’analitzem la seva disposició espacial i l’estructuració de les agrupacions per grau de modularitat.

Coda

On ens deixa aquest experiment? Doncs amb una certa ambivalència. El mètode descrit funciona perfectament en un corpus alfabètic com és el del català, i per tant, buida de contingut la primera objecció sistèmica que ens fèiem al començar (la derivada del fet que lletres diferents poden tenir distribucions semblants), no per què sigui falsa (les agrupacions espacials de vocals i consonants ho testimonia clarament) sinó per què amb una anàlisi quantitativa els detalls entre les diferents distribucions tenen un pes suficient com per discriminar entre signes propers. Queden però les altres dues.

I el fet és que la mateixa mesura aplicada al corpus ibèric es mostra d’entrada, limitada. La dispersió de les dades segurament està introduint un nivell de soroll que supera el del ordenament natural de l’escriptura, i no es pot descartar que no hagin més glifs de sonoritat múltiple per detectar i desdoblar (la segona objecció). Però segurament el factor principal sigui la dispersió deguda a la manca d’evidència (la tercera objecció) , tota vegada que es pot observar com la majoria de grups espuris i glifs mal situats per la modularitat estan formats per signes molt poc evidenciats. Una altra consideració genèrica a fer és que probablement sigui apropiat canviar la idea inicial de considerar només els glifs immediatament al costat d’un signe determinat. En signaris alfabètics, l’alternança vocal/consonant hauria de ser la norma, de manera que si el signe és vocàlic, cal esperar que la majoria de parelles que l’envolten siguin consonants i viceversa si el signe és una consonant. Aquest esquema tant regular – i que tan bé funciona en aquesta metodologia d’anàlisi – desapareix si tenim signes sil·làbics, ja que aquests podran aparèixer també tant abans com desprès i per tant això fa que les distribucions de les parelles que envolten a un signe determinat seran més complicades. Queda clar que cal seguir pensant, la bona nova és que certament, de vies a explorar no en falten…

En resum, i per tancar ni que sigui provisionalment aquesta inesperada minisèrie d’apunts, diríem que l’anàlisi quantitatiu del corpus (i en concret de les correlacions entre les distribucions dels glifs) es revela com una eina molt efectiva i amb un alt potencial d’ajut en l’estudi de l’escriptura ibèrica, amb la virtut estructural de ser completament objectiva.

 


Notes

  • [1] Per distribució entenem el recompte de entre quines parelles de signes es documenta cada un dels glifs del corpus. F és una F-mesura feta a partir del percentatge i la quantitat normalitzada de factors comuns entre dos distribucions.
  • [2] Els codis no presents en el graf son: 55, 64, 99, 100, 106, 117, 127, 128, 129, 130, 132, 133, 134, 135, 136, 137, 139, 162, 163, 164, 165, 168, 170, 171, 172, 175, 176, 177, 178, 179, 181, 188, 199, 202, 214, 215, 216, 218, 223, 229, 230.
  • [3] Els grafs de les particions per Modularitat del mapa-resum són:

    P=2. 3 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=1. 4 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.9. 7 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.8 8 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.7. 8 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.6. 10 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.5. 12 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.4. 14 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.3. 17 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.2. 25 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.1. 34 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Publicat dins de cathalaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric | Etiquetat com a , , , , , , , , , , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental (2).

El mes passat fèiem un apunt per comentar uns experiments per mirar de detectar les agrupacions sígniques en l’ibèric nord-oriental. És el cas ara de tornar-hi per exposar una sèrie de conceptes que es van ometre allí i que en una revisió més treballada creiem que poden ser d’interès.

No es cap secret que cathalaunia.org neix del creuament de dues disciplines aparentment diverses: Història i Computació. La primera aporta els continguts i la segona els mètodes, i sent un web dedicat exclusivament a la presentació de dades, omet volguda i sistemàticament publicar qualsevol mena d’opinió i/o comentari (quan resulta inevitable s’etiqueta específica i explícitament com a tal), per complementar-ho, existeix però aquest bloc, per poder donar expressió als molts aspectes relacionats amb el web i la seva confecció que no tenen lloc en ell. Un d’aquests usos, és de fer de bloc de notes públic d’algunes de les recerques que es duen a terme, aquest és l’aspecte que farem servir aquí. En concret, no tant per comentar alguns dels experiments fets, com fèiem en el post anterior, sinó per anar un pas més enllà i reflectir la recerca a mida que es va fent. Dit altrament, tenim una idea general a seguir, però no sabem en començar a escriure això quin serà el contingut final d’aquest apunt. Creuem els dits…

Parlàvem de la Computació com quelcom substancial en la confecció de cathalaunia.org[1], perquè així com la Història i en general les Humanitats són ben conegudes del públic i tothom te una imatge més o menys aproximada dels seus professionals i del què comporta la seva dedicació, això no és tan així per el que fa als professionals del món de la Computació. Una de les característiques habituals de la gent que es dedica a la programació, és una mirada naturalment analítica que cerca de forma inconscient els patrons en la realitat percebuda i que usualment mira de comprendre la realitat de lo general a lo particular. Noció, que evidentment, ni és ni nova ni exclusiva de la Computació (en el fons, estem parlant de Plató) però sí és d’efectes ben reals i quotidians, encara que usualment passin desapercebuts.

En el cas que ens ocupa, aquesta mirada analítica subjacent, es furtà en l’apunt anterior perquè no arribà a cap resultat significatiu però en canvi serà la idea directriu d’aquest exercici. La idea germinal era posar a prova un possible mètode quantitatiu de detecció de les ‘variants’ de l’ibèric nord-oriental. Dèiem llavors:

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

El que es callà és que prèvia i subjacent a aquesta formulació  hi havia una concepció analítica, matemàtica. Específicament:

En la mesura en què la noció que la semblança de les distribucions dels glifs indica pertinença a un mateix caràcter sigui certa, es podria disposar una xarxa, un graf, amb un node per a cada glif i connectar-los per els factors de ‘proximitat de distribució’, i a partir d’aquí, emprar les tècniques d’anàlisi per detectar-ne les agrupacions.

La idea resulta especialment atractiva a una ment analítica perquè cerca una solució general o ‘lliure de domini’ a un problema específic d’un camp del coneixement allunyat del de la computació[2]. Ara bé, hi han un mínim de tres consideracions ‘del domini’ que treballen en contra d’aquesta ideació:

  1. Una primera i estructural, és que certament diferents lletres poden aparèixer entre els mateixos caràcters. En la mesura en què això sigui cert, el graf agrupara no lletres iguals sinó dispars, i per tant, els resultats seran inconclusius.
  2. La segona, també estructural, però en aquest cas, específica de l’ibèric nord-oriental, és l’evidència que existeixen  glifs aparentment idèntics però que representen sons variats, per exemple: els que tenen forma de V invertida, que tan poden ser L, Ka o Tu. En la mesura que el mateix passi en altres glifs i encara no s’hagi detectat, tindrem que aquest glifs actuaran com la suma dels seus sons, i per tant, també difuminaran l’estructuració interna del graf.
  3. El darrer element que juga en contra de la idea original és la migror de les dades. Tenim un signari amb 200 glifs i un corpus d’uns 25.000, això faria un mitjana d’un centenar de casos de cada glif, però a més, la distribució és força irregular, de manera que per unes desenes de glifs tenim centenars i fins i tot algun miler d’exemples d’utilització, però per a la majoria, en tenim encara no unes poques desenes. Això implica que per a la majoria de nodes del graf, els factors de connexió amb la resta es basen en una evidència gaire bé marginal, i per tant, poden introduir un nivell significatiu de soroll en l’esquema general.

En l’apunt anterior, la idea de modelar el problema a partir d’un graf, es va obviar perquè les resultats van ser poc clars, i perquè la dispersió de les dades, derivada de la curta mida del corpus,  es revelà com el primer factor distorsionant. De manera, que el nasqué com un mètode per detectar quantitativament variants, es reduí a una manera de mesurar objectivament l’evidència de les agrupacions que els filòlegs han definit fins el moment. En la part final, es declarà que s’havien fet algunes proves per alleujar el problema de la dispersió però sense cap resultat significatiu. És el cas de tornar-hi aquí, per dos motius afegits: una millora interessant en aquest aspecte, i per què tal i com s’anunciava allí, el signari ha estat ampliat (dels 188 signes s’ha crescut fins els 207) i el corpus ja en reflecteix els canvis[3].

En un post normal, presentaríem els resultats de les proves i mesures fetes amb el nou corpus i les metodologies millorades, en aquest però, començarem per dir que fetes unes primeres mesures, s’ha pensat que seria millor provar les idees no sols sobre el cas problemàtic de l’ibèric, sinó sobre un corpus alternatiu i més ben conegut, per tal de mesurar la bondat dels nous procediments i intentar separar l’evaluació dels mètodes del de les dades. Dit altrament, miren primer un exemple conegut, per mirar de calibrar l’eina i les seves capacitats, i després ja veurem que ens apareix en l’objectiu real.

Per fer la prova tenim els corpus alternatius que es van emprar fa uns mesos en comparar la distribució de sons del desxiframent actual de l’ibèric nord-oriental amb altres llengües, i per comoditat, empraren el corpus català, que recordem, no és altra cosa que un fragment del Gènesi de mida similar al volum del corpus ibèric. De manera que agafarem els primers 15 capítols del Gènesi, posarem un verset per línia, convertirem cada lletra a un número i analitzarem quins números apareixen al costat de quins altres. L’únic coneixement del domini que emprarem serà reduir tots el signes no sonors a un  únic valor, diguem-ne ‘puntuació’, que és una simplificació que podem fer amb certes garanties també en el corpus ibèric. Tenim molta cosa a comentar…

L’exemple del català

En el corpus català tenim un total de 31.624 lletres, amb 58 signes diferents entre majúscules, minúscules i accentuades, registrem entre quines lletres es troben cada un d’ells, comparem les distribucions resultants amb el coeficient de correlació de Pearson, i creem el graf resultant. En lo que segueix, i a semblança del que ja s’ha emprat en altres apunts d’aquest bloc, farem servir per manipular els nostres grafs el programari gephi.

El primer que cal fer és presentar breument les eines d’anàlisi de xarxes que farem servir que són bàsicament dues: la seva disposició espacial i la seva modularitat. El primer considera les connexions entre els nodes com forces atractives/repulsives, i el que fa és: a partir generalment d’una disposició del nodes inicialment aleatòria, cercar una distribució que minimitzi les disparitats entre els factors de connexió i la separació entre els nodes[4]. El segon, és de natura purament topològica i cerca definir els grups de nodes que presenten una taxa d’interconnexió superior a la resta del graf. No entrarem a parlar en profunditat sobre la natura i l funcionament d’aquests mètodes (tot i que és un tema apassionant), per dos motius, ni és el lloc, ni les eines disponibles permeten gaires opcions. Anant a lo concret, per el que fa a la disposició espacial (en 2 dimensions, per poder-ho representar gràficament de forma fàcil), s’empraran els algoritmes ForceAtlas o ForceAtlas2, i per el que fa a la Modularitat, gephi aporta un únic algoritme, ben conegut, i atès que és una mesura relativa i que permet diferents graus d’agrupació el que farem és realitzar tot una sèrie de mesures en aquesta gradació natural (pensem que en un extrem, tots el nodes connectats d’un graf es poden considerar un únic grup, i en l’altre, cada node pot formar un grup propi). La mida dels nodes representarà la suma de les correlacions vers les altres lletres, i cada graf es presentarà en format gràfic (jpg) i en versió svg, que permet un zoom discrecional a gust de  l’usuari.

De manera que en el corpus català, en una primera disposició tenim 58 lletres/nodes connectats cada un d’ells amb tota la resta, és a dir, un graf amb 58 nodes i 1.652 connexions. Si mirem els factors de correlació (les connexions) veurem que segueixen d’aprop els resultats que es detectaven el cas del corpus ibèric: un factor màxim de 0.76, un mínim de -0.06 i amb poc més de 400 valors superiors a 0.1, és a dir, amb una majoria de valors al voltant del 0 (recordem que el factor de correlació de Pearson es mou entre 1 i -1). El fet que cada node es connecti a tots els altres fa que topològicament sigui una xarxa molt regular, sols els diferents valors de les connexions aporten factors de diferenciació. I en aquest sentit, el fet de tenir factors negatius, fa que la seva representació gràfica amb els algoritmes ‘de força’ sigui complicada, ja que tenen tendència a donar disposicions molt disperses. Finalment, amb l’algoritme ForceAtlas i ajustant els seus paràmetres s’ha pogut generat una disposició mínimament aprofitable.

58 lletres, 1.653 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

On podem veure clarament un grup en la part superior format per les consonants, amb les majúscules en la part superior i les minúscules en la part inferior (recordem que en el text del corpus les majúscules segueixen l’ús habitual, en inici de frase o de nom propi).  Més enllà d’aquest grup, podem observar a l’esquerra un grup dispers format bàsicament per les vocals en majúscules i en la part inferior esquerra un d’encara més dispers amb les vocals en minúscules. S’aparten d’aquesta descripció bàsica en la part superior la Q i la q, que apareixen en la part superior, i les u, ü i ú, que s’apropen més al grup de les vocals majúscules que no pas a les de les minúscules. Sembla lògic pensar que tal disposició és deguda a que les velars acostumen a anar seguides de u, i en la lluita per situar-se, les primeres han hagut d’anar a la perifèria mentre que les segones han hagut de cercar un equilibri entre acostar-s’hi i no separar-se de la resta de vocals. Ara, també sembla ben evident que les agrupacions per distribució de forces no van gaire més enllà d’evidenciar la diferenciació entre majúscules/minúscules i vocals/consonants, cosa que pot semblar poc important, però si pensem que el resultats no depenen d’informació filològica, sinó estrictament numèrica, distribucional, tampoc està tant malament.

Mirem ara l’altra estimador, la Modularitat. En la implementació de gephi, l’algoritme disposa d’un paràmetre per graduar al grau de granularitat que es desitja, diguem-li P (1, per defecte, major per tenir menys grups, menor per detectar-ne més). No tenint a priori cap pauta específica per fixar el seu valor, el que farem serà aplicar-lo de forma sistemàtica: amb dècimes entre 0.1 i 1 i un cas de valor 2 afegit. Per tal de visualitzar els resultats, sobre la mateixa disposició espacial, cada grup detectat tindrà un color propi (el programa els assigna aleatòriament). Anant de menys grups a més:

P=2. 2 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un valor P de 2, tenim que es detecta un grup (en vermell) format sols per vocals i un altre (en blau) per a la resta de lletres, que inclou les consonants més les vocals i, ï í, u, ü i ú més la à i la ó, situades a mig camí del grup consonàntic.

P=1. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el nivell de partició per defecte (P=1), tenim un grup blau format per les consonants en majúscules (exclosa les B i X i inclosa la q), un grup verd format per vocals (tret de la ü, u, ï i ó) i un grup vermell amb les consonants en minúscules (més les sis excepcions ja descrites).

P=0.9. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.9 els grups ja són quatre i corresponen a grosso modo amb l’encreuament de vocals/consonants i majúscules/minúscules, però amb excepcions interessants. Els grups de consonants del graf anterior (blau i vermell) bàsicament es mantenen, però el de les minúscules perd les us que passen al grups de les vocals en majúscula (en lila) i la i, í, à, ç, i la j, (aquesta especialment curiosa per la seva posició central en el grup de les consonants) que val al grup de vocals en minúscula (en verd).

P=0.8. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixar el factor a 0.8 no incrementa el número de grups però si n’altera significativament la seva disposició, cosa que fa pensar que l’estructuració interna de les dades no és simple. De fet, hem tornat a la partició en tres grups del P=1, però amb un grup nou format per: u, ü i s, i amb una ó que ha passat, ara sí, al grup vocàlic.

P=0-7. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.7 el nombre de grups creix a 5, però més que res, a base de subdividir les consonants en minúscules, mentre que les vocal encara conserven un gran grup.

P=0.6. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Per sota de 0.6, la fragmentació de les consonants i de les vocals ‘a mig camí’ anirà en augment fins arribar als 23 grups amb un factor de 0.1, sense que sigui evident cap raó extracomputacional que justifiqui la separació en tals grups (potser un filòleg hi pugui veure més…).

P=0.5. 14 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg..

El que sí és manifest que es manté en tota aquesta gradació és la presència de dos grups vocàlics, un especialment ben definit per a les majúscules i un de més variable per el que fa a les vocals en minúscula.

De moment, veiem que en el cas del català, una mesura segons el coeficient de Pearson tradicional ens detecta la separació entre vocals i consonants i entre majúscules i minúscules i poca cosa més. De moment, la cosa no pinta gaire bé per el que fa a separar variants segons la seva distribució…

Però també és evident que el corpus català és força diferent de l’ibèric; minúscules i majúscules tenen rols ben diferenciats i els signes són unívocs (no hi ha -gaire- superposició de rols entre les lletres). L’ibèric sembla molt diferent, ja que en teoria presenta més d’una i més de dues maneres d’escriure una mateixa lletra i a penes fa servir la separació per espais (si però la de puntuació). El que farem serà ‘iberitzar’ el corpus català. Ho passarem tot a minúscules, eliminarem els espais, i de forma aleatòria, introduirem fins un màxim de tres variants de cada lletra, és a dir, tindrem fins tres  as (etiquetades com: a, a+, a-), tres bs, etc.

El resultat és un graf plenament connectat amb 102 lletres/nodes i per tant, amb 5.152 connexions (correlacions entre signes), un valor màxim de connexió de 0.7, un mínim de -0.11 i amb un miler de connexions per sobre d’un 0.1 i gaire bé la meitat amb valor negatiu.

102 glifs, 5.152 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

La disposició espacial del graf és francament pobre. En el cas anterior, jugant amb els paràmetres encara s’havia pogut trobar una configuració raonable, en aquest, i probablement degut a la influència dels valors negatius, els algoritmes oscil·len salvatgement entre unes disposicions estiradíssimes, que fan de molt mal llegir o únic amàs molt regular; finalment, ha semblat millor capturar un dels moments intermedis.

A l’extrem dret tenim majoritàriament les vocals sense accent, i en el grup principal es poden discernir sense massa esforç a la banda esquerra les consonants continues, a la dreta les vocals accentuades i en mig les oclusives. De fet, no és pas gaire difícil veure que les ternes de variants introduïdes artificialment en el corpus sí s’ajunten entre sí en el graf. En l’extrem dret, tenim les variants de a, e i o. En la part dreta de l’amàs gran, troben les is i en la d’abaix, les us. En l’extrem esquerra del graf, les ms, ns, ss, ls, rs, en la part dreta les és, òs, ós. Mentre que en la part central les oclusives són les que mostren una agrupació més laxa. El que no fa el graf és individualitzar els triplets de cada lletra. En conjunt, doncs diríem que encara que en la disposició espacial el dibuix és força desagraït, sí sembla evident que la organització quantitativa mesurada per la correlació de Pearson sí és capaç de reflectir realitats de caire filològic. Mirem a veure que tal respon amb les mesures de modularitat.

P=2. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el coeficient més elevat, es detecten tres grups que corresponen a les us, excepte les d’accent tancat (en vermell), a la resta de vocals més les ys i les qs però sense les ós i les ïs (en verd) i en blau la resta, tot consonants tret de les excepcions enumerades.

P=1. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el valor per defecte de 1. l’algoritme detecta 5 grups. En vermell els triplets de n,l,s,u,ü,ï i ú. En rosa, els de m,d,b,r,t,x,q,g,ó,f i dues de les z. En verd, els de p,v,c,h,ç,i,j i una ú. En groc un grup dedicat a les ys. I en blau els triplets de les altres vocals. És de remarcar que en les agrupacions de detectades es mantenen junts els triplets de les variants, tret d’unes poques excepcions.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A 0.9, es detecten 7 grups. En blau clar els triplets de n,r,l,s,u,ü,ï, dues de les ús. En rosa, les d,m,p,t,f,b i dues de les zs. En blau fosc, les v,c,h,j,ç,à, una de les z i una de les ú. En verd fosc, els triplets de g i q. En groc els de y i é. I en verd clar els de les vocals a,e,o a l’extrem, i i,è,ò,í a tocar de l’amàs gran. Els triplets es continuen mantenint agrupats, tret dels cas de les zs i ús, que són lletres certament poc freqüents.

Si mirem de resumir la seqüencia que continua, direm que les tripletes es mantenen unides fins el factor de 0.4.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Aquí tenim 17 grups on 10 d’ells corresponen als triplets aïllats de: l,r,m,v,c,t,f,b,p, i y, més un grup per les ss i una de les ús. Un gran grup per les a,à,ç,e,é,è,i,í,o,ò i una de les js.  Un per les d i zs. Un per les ï,n i una de les ús. Un per les ó i x. Un per les g,q i un per les l,u i ü. I finalment, un per les h, més un parell de js i una ú.

Per sota de 0.4, continuen creixen el nombre de grups però a costa ja de partir els triplets de variants.

P=0.3. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Resumint i simplificant: mesurant per el grau de correlació de Pearson, en el cas el català ‘iberitzat’ es poden arribar a detectar aïlladament les variants de les consonants continues i de les labials, les vocals es detecten com a grup, no individualment i les velars es detecten però no es distingeixen entre elles. No està gens malament, però cal recordar que això passa en un corpus amb un grau de dispersió menor que el que es vol estudiar, i per tant, potser menys afectat per el soroll d’una pluralitat d’evidències disperses. Mirem d’anar més enllà.

Dispersions i confiances

Fins aquí, hem estat fent proves amb un corpus, el català, de poc més de 30.000 lletres, que en les seves dues caracteritzacions estudiades (l’original, amb majúscules i minúscules i 58 glifs, i l’iberitzat, sense caixa diferenciada, sense espais i amb fins a tres variants de cada lletra, amb un total de 102 glifs) té un grau de dispersió menor que l’ibèric que per un signari de 200 glifs només disposa d’un corpus de 25.000 lletres. Un dels efectes de la dispersió, si estem utilitzant la correlació de Pearson és que molts valors esdevenen correlacions negatives i a més fets a partir de molts pocs valors. En la part final de l’apunt anterior es va comentar que s’havia intentat un heurisme conegut per tal de mitigar aquest casos però que el seu efecte no havia estat satisfactori. Ara és el cas d’incorporar les millores pensades en aquest aspecte.

La idea general, de nou és força simple: valorem cada factor de correlació entre dos glifs o lletres segons el nombre de parelles comuns entre les que apareguin.

Podem visualitzar-ho com dos segments rectilinis, un per cada lletra. Suposem que el glif X, es detecta entre 20 parelles de signes i que el glif Y ho fa entre 30 i que ho fan conjuntament en 10 parelles. En aquest cas, el nombre total de parelles amb evidència serà de 40 (20+30-10), o geomètricament: els dos segments es sobreposen en 10 unitats. Imaginem ara un altra cas, on els glifs A i B es detecten cada un entre 20 parelles, però amb 18 d’elles comunes. El factor de correlació entre XY, tenia un 25% de factors en comú (10 de 40) i el de AB en tindrà un 81% (18 de 22). Sembla raonable pensar que si dos glifs apareixen entre les mateixes parelles de signes, la seva mesura sigui més ‘fiable’. Entenguis bé, la correlació pot ser alta o baixa, el que estem introduint és un factor de ‘confiança’ en la mesura. De manera que podem multiplicar la correlació de Pearson entre XY per el percentatge de parelles comunes, diguem-li E; sent un factor normalitzat a 1, el seu efecte numèric serà deprimir el valors però no en canvia ni el rang ni el signe.

Però si ho pensem una mica més, també veurem que no hauria de tenir el mateix valor o generar semblant confiança dos percentatge de parelles comunes iguals (per exemple entre CD i entre VW) si la primera es basa en tenir 2 parelles en comú i la segona en tenir-ne 30. Eś a dir, la magnitud també hauria de tenir-se en compte, i per poder-la normalitzar entre 0 i 1, podem escalar-la segons el valor màxim que es doni en el corpus, diguem-li: Q.

Així que tenim dos coeficients de ‘confiança’, el percentual E i el de quantitat Q, una manera típica de combinar dos factors normalitzats, i molt emprat en problemes classificació estadística, és la anomenada F-mesura, diguem-li, F, que les combina així: F=(2EQ)/(E+Q). Funció que dibuixa una superfície corba on només es donen valors alts si els dos factors, E i Q són alts.

La idea va ser doncs multiplicar la correlació de Pearson per aquests factors, fent una primera prova per E, i una de posterior per F. En teoria, la de F hauria de ser preferible (la de E ignora les magnituds i pot ser fruit d’una evidència marginal), però aquestes primeres temptatives sobre el corpus ibèric van revelar que E s’ajustava millor a les evidències conegudes…?! Raonant sobre aquesta aparent contradicció, l’explicació que sembla més probable és: la dispersió de les dades fa que moltes correlacions tinguin un nombre baix de parelles comunes, és a dir de factors Q baixos, de manera, que tot i haver-ho dissenyat per mitigar els efectes de la dispersió, la mesura F l’hi torna a donar un paper predominant; d’aquí probablement que l’ús de E sembli tenir millors resultats en la pràctica.

Però l’ús d’aquests factors de ‘confiança'(ja sigui E o F) té un efecte profund sobre el graf resultant, ja que si dos glifs no tenen cap parella en comú, la correlació serà de 0, i per tant no hi haurà connexió entre ells. A més els valors es veuran disminuïts per els coeficient de confiança, i per acabar-ho d’adobar, en les probes s’ha vist que el programari gephi no discerneix en les connexions més enllà de les mil·lèsimes, de manera que finalment s’ha dissenyat un sistema que permeti filtrar les connexions per sobre d’un cert valor de tall. Tot plegat, fa que ens podem trobar amb nodes sense cap connexió (pensem en els casos dels hàpax), així que a partir d’ara tindrem grafs amb connexions positives però baixes i de topologia no del tot regular (això es posa interessant…).

Començarem per comparar com es comporten E i F en el corpus català, i com que l’objectiu és aplicar-ho després al corpus ibèric, ho farem amb la seva versió ‘iberitzada’ de tres variants per lletra.

Confiança E

Provem primer amb el factor de confiança E, (i per defecte, amb el factor de tall del propi programari de gephi, 0.001). El resultat és un graf amb 99 lletres en comptes de les 102 ‘variants’ que teníem abans (s’han perdur per manca de connexions positives superiors a 0.001, dues ús i una ó) i ‘només’ 1.297 connexions en comptes de les més de 5.100 dels grafs plenament connectats que hem estat provant fins ara. Les connexions es mouen entre un màxim de 0.46 (aquí es veu l’efecte depressiu de la mesura de confiança) i el mínim prefixat de 0.001 amb poc més de 60 connexions per sobre del 0.1 i una gran majoria en valors baixos.

99 glifs, 1.297 connexions positives i superiors a 0.001 del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Com es pot observar, a diferencia del graf anterior, aquest presenta una estructuració força més clara i fins i tot es poden apreciar ternes de variants aïllades. L’agrupació de la part superior correspon a les consonants (amb n,s,m,r,t,d,v i l en la part nuclear i f,b,p,q,h i j en la corona superior, i  z,y,ç,x i ó,u,ï disposades en franja en la part central del graf), mentre que el gruix de les vocats es troben en la part inferior i no agrupades en un únic amàs, tot i que sí es distingeix clarament l’agrupació de les variants de a,e, i o, i aïlladament, les i , les ü i finalment un grup dispers formats per les variants de è,é,à,ò i í. Sembla innegable que l’estructura espacial del graf reflecteix informació de natura alfabètica Passem a la Modularitat.

P=2. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

En el nivell d’agrupació més alt (P=2) tenim un grup amb les ternes de u i ü (en groc), un per les de la q (en lila), un ‘estrany’ només amb una variant de ï i una de ú (en vermell), i dos grups grans: un de consonants (en verd) que les conté totes, tret del grup de les q i una variant de ç però que també abraça les dues ós. una variant de ï i les ys. I finalment un grup de vocals (en blau) que també les conté totes tret de les ja esmentades en els altres grups però també incorpora una variant de ç.

P=1. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el factor P a 1. l’estructuració anterior es manté idèntica però apareix un grup partint les consonants (en vermell) que diferencia les ternes de m,r,s,l,n amb una variant de z i una de ï; de nou, categories d’àmbit fonètic detectades numèricament gaire bé de manera exacta.

P=0.9. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixant P a 0.9, apareixen nous grups de ternes. Es mantenen els grups de les us, el dels qs i l’estrany d’abans (en morat, blau clar i verd-groc) , però els altres grups es veuen alterats. En les vocals apareix un grup per a les ternes de a, e, i, o i è (en vermell) i la resta del grup vocàlic d’abans (ara en verd) s’expandeix per incorporar la terna de les y i dues de les ç. I en la part de les consonants, si abans s’havia partit en dos, ara ho ha fet en tres. El gros, (abans en verd ara en ocre), un (en rosa) per les ternes de ts i ss més una variant de f,z, i g, i un tercer grup consonàntic amb les ternes de l,m,n,r i una variant de j i una de ï.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P a 0.8 es manté la divisió en 8 grups. El canvi principal és que el grup que abans tenia les as,es,etc (en lila) ara incorpora també la terna de les és i dues de les às. I en la part consonàntica el grup de ts i ss (en blau fosc) es perfila millor reduint-se a les seves ternes i una variant aïllada de z.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7 eleva en nombre de grups fins a 10. En les vocals, el grup (en rosa), de les as i es, torna a perdre les és i às que havia guanyat en el nivell anterior, i l’altre grup de vocals (en vermell clar) torna a perdre les ys i una variant de ç. Es mantenen els grups de les us, les qs i l’estrany, mentre que els nous grups apareixen en les consonants. Ara tenim un grup (en vermell) per la terna de les ss mes una de les zs, un per les rs (en groc), un per les ternes de m,n i l (en blau clar) i dos grups grans més dispersos: un en blau focs amb les ternes de d,c,p,b,j i dues de les variants de f i de g. i l’altre (en ocre) amb les ternes de t,v,x,y, parelles de çs, ós i zs i una variant aïllada de f i de g.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P=0.6 el nombre de grups creix fins el 15, però comencen a aparèixer agrupacions inesperades. Els grups petits i els de les vocals es mantenen (tret del de les accentuades que perd una variant de à), però entre les consonants, si bé es continuen detectant grups basats en ternes, apareixen un parell de grups no menors que agrupen ‘menes’ de variants: en taronja tenim un grup amb la variant sense marca de b,c,d,f,g,h i j, i en verd clar un amb les variants del signe + de b,c,d,f,g,h més una variant de ç. Amb tot, la resta de consonants sí presenten agrupacions més a o menys clares. Un grup (en rosa) amb les ternes de l i m. El grup de les ss i una de les zs. Un per les qs, un per les ps, un per les ns, i un grup amb les  ys, ts més una variant de c,f,i g. Ara, que la modularitat detecti agrupacions per menes de variants és extraordinàriament significatiu, tota vegada que és una regularitat introduïda artificialment en el procés de creació de tals variants, ja que s’ha mirat de tenir quantitats similars de cada mena (en el moment de convertir de lletres a codis, per a cada lletra s’ha llençat – metafòricament parlant – un dau de tres cares i s’ha assignat la variant d’aquella lletra en particular al seu resultat). En altres termes, que la modularitat detecti aquesta regularitat induïda, vol dir que ha de ser superior a la pròpia de les distribucions, i si tenim en compte que aquesta regularitat no afecta a la aleatorietat de la seva distribució, això vol dir que estem mesurant soroll, caçant mosques – metafòricament parlant – i que incrementar la sensibilitat de la modularitat aportarà més grups però no més informació, i efectivament això és que el tenim per sota de P=0.6.

P=0.5. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 18 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 21 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 24 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Podríem pensar que és una limitació pròpia del mètode, però vèiem que en la mesura per correlació de Pearson ‘pelada’, si es podien arribar a detectar un nombre no pas petit de tripletes sense que la regularitat de tenir parts iguales de cada mena de variant semblés afectar. És llavors que revisant aquest darrer pas, que s’ha considerat que de fet, hem aplicat un canvi doble: emprar el factor de confiança E, que certament disminueix els coeficients, però també l’eliminació de coeficients inferiors a 0.001 per la limitació de l’eina de grafs que estem fent servir, però potser hem anat massa lluny, i la informació de les correlacions negatives sí siguin necessàries per la detecció per la modularitat. De manera que cal provar que passa si només evitem les connexions entre +0.001 i -0.001. Si feta la prova, la modularitat presenta la mateixa limitació, indicarà en principi que hem topat amb un límit del mètode d’aplicar el factor E (a menys que sigui l’atenuació del coeficients la responsable, però costa creure que sigui un problema d’escalabilitat).

El resultat és un graf amb els mateixos 99 nodes/variants però amb 1.628 connexions. El fet de tornar a incorporar connexions negatives aporta el problema de l’estabilitat de les disposicions per ‘distribució de forces’, per això, aquest cop ens hem decantat per la variant ‘regular’ de l’algoritme.

99 glifs, 1628 connexions del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Un simple cop d’ull permet veure que la majoria de ternes es disposen certament properes entre elles, encara que no individualitzades (com ja vèiem en la mesura per Pearson pur). Per no repetir la descripció detallada de l’evolució dels resultats de la partició per modularitat, diem que tot i tenir 400 connexions negatives més que el previ, respon de forma gaire bé idèntica al anterior. Entre P=2 i P=0.5 detecta agrupacions clares de ternes de vocals i consonants.

P=2.. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1.. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9.. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8.. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7.. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6.. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

I quan arriba a 0.6 apareixen els mateixos grups no de ternes sinó de ‘menes de variants’, i així continua fins P=0.2, mantenint bé sí algunes ternes però amb presència de grups espuris, i a P=0.1 es trenquen també algunes de les ternes que s’havien mantingut estables en tota la gradació.

P=0.5.. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4.. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3.. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2.. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1.. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

O sigui, queda clar que no és el fet d’incorporar o no les connexions negatives les que produeix aquest efecte de ‘barrera’ en la modularitat si apliquem el factor de confiança E.

Confiança F

Provem ara doncs el factor F (amb connexions superiors a 0,001, ja que sembla que no afecta de forma significativa la pèrdua de connexions negatives i sí produeix unes disposicions espacials més expressives) i si ens tornem a trobar amb aquest fenomen en la modularitat, caldrà pensar que es tracta d’un efecte de la depressió en la magnitud del valor de les connexions que provoquen aquests factors de confiança. En aquest sentit, el graf redueix encara més el nombre de nodes/ lletres i el deixa a 94 ja que s’han quedat sense connexions ï-,ó-,z,z+,z-,ú,ú+,ú- (com dèiem, el factor F sols dóna valors alts si E i Q són alts, i per tant, en general te un efecte depressor més intents) i amb un total de connexions superiors a 0.001 de 1.274, i és el següent:

94 glifs, 1274 connexions superios a 0.001 del corpus català iberitzat i modulat per el factor de confiança F i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Quina diferència!!! Aquest graf d’aspecte anodí, mirat amb cura revela ser extraordinari. No sols presenta la més clara separació entre vocals i consonants (i entre menes de vocals i de consonants) calculada fins ara, és que presenta TOTES les ternes de variants correctament agrupades i properes entre elles (tret de la variant ò que està lleugerament més allunyada de les seves companyes). Quelcom més que remarcable. Aquí tenim un corpus de 30.000 lletres, amb un signari de 102 glifs però 34 caràcters, reduït a un esquema que en retrata perfectament més del 90% en la seva disposició espacial calculada exclusivament a partir de les semblances entre les seves distribucions. Només per aquest graf ja paga la pena tota la feina feta fins aquí!

Però mirem si la modularitat pateix o no d’aquell efecte barrera que es donava amb el factor E. Per tal de no repetir la descripció de cada nivell de granularitat es fixarem especialment en si les grups que marca parteixen o no ternes de variants.

P=2.0. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A P=2, tenim 5 grups, separació vocals/consonants en grups grans, grups petits coherents, 1 terna partida (la de la ò), 1 terna individualitzada.

P=1.0. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1. Igual, amb més grups coherents, 1 terna partida, 1 terna individualitzada.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9, mateix nombre de grups, partició lleugerament diferent, 1 terna partida, 1 terna individualitzada.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8, 8 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.7. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7, 12 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6, 15 grups, tots coherents, 1 terna partida, 5 ternes individualitzades.

P=0.5. 16 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5, 16 grups tots coherents, 1 terna partida, 7 ternes individualitzades.

P=0.4. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4, 19 grups tos coherents, 1 terna partida, 9 ternes individualitzades.

P=0.3. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3, 23 grups, 5 ternes partides, 11 ternes individualitzades.

P=0.2. 26 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2, 26 grups, 5 ternes partides, 14 ternes individualitzades.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1, 31 grups, 8 ternes partides, 9 ternes individualitzades.

Ni rastre de les agrupacions per menes de variants, i a més, un comportament magnífic fins els nivells de granularitat més elevats (fins 0.3 es manté una única terna mal detectada, que ho és en tots en nivells provats i que fa pensar en una situació particular com també presenta la seva disposició espacial lleugerament desviada) i tot i que les deteccions directes de ternes aïllades per modularitat són modestes, és a dir, que la majoria ajunta en un mateix grup més d’una lletra, el fet rellevant és que les particions rarament trenquin les ternes, i per tant dibuixin grups que es poden analitzar bé.

Arribats en aquest punt, queda clar que la correlació de Pearson modulada amb el factor de confiança F i eliminant les correlacions negatives dóna en aquest corpus uns resultats extraordinaris. Ara, la pregunta és: com es comportarà amb el corpus ibèric que és bastant mes dispers? Però aquest apunt ja s’ha fet massa llarg de manera que el tanquem i n’obrirem un altre per comentar-ne els resultats a mida que es vagin produint.

– Actualització 2017-III-14 –

Encara que ja s’està escrivint el tercer apunt d’aquesta inesperada sèrie, ha semblat convenient afegir el que segueix a aquest per què expandeix els seus continguts i per claredat en l’exposició.

Les divisions per modularitat que s’estan emprant en aquestes proves generen una gran quantitat d’informació, que resulta difícil de captar en conjunt. El dibuix del graf per codis de colors és molt útil per una partició en concret, però no per una mirada en conjunt. Rumiant com fer visible aquesta superposició de particions, s’ha dissenyat un mètode que pot ser d’utilitat en la problemàtica concreta que estem tractant aquí.

Per variar, la idea és simple: Si fem un conjunt concret de particions,  ens podem situar en cada un dels nodes del graf, apuntar amb quins altres nodes es veu ajuntat en cada una d’aquestes particions i així construir una llista de nodes ‘propers’, cada un amb una quantitat concreta de grups on es documenta.

En el cas que ens ocupa, hem fet fins a 11 particions, el que farem serà presentar la llista de nodes de cada graf d’aquest apunt, i per cada un, al seu costat els nodes més ‘propers’ (es a dir, de tota la llista, sols els que tenen el nombre més alt de particions en comú). En vermell, anirà el nom del node, i en negre els nodes acumulativament més propers (a més, la mida del font reflectirà també aquesta quantitat).

Per el primer graf, el del corpus en català original, el resultat és:

Mapa d’acumulació de grups per modularitat del corpus català, per coeficient de Pearson.

En aquest primer cas, en no tenir variants a detectar la utilitat del mapa és molt relativa. Sí però permet objectivar que les lletres més properes a una determinada sí tenen la mateixa caixa i que segueixen més o menys la separació vocal/consonant.

El segon, el del corpus iberitzat i connectat per la mesura de Pearson, tenim:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson.

Aquí sí que ja podem avaluar si cada variant té o no les altres en el grup de nodes més ‘proper’. En aquest cas, per exemple, es fa evident que les vocals resulten indiscernibles entre elles per aquest mètode.

La tercera prova feta ha estat el mateix corpus però amb el factor de confiança E i connexions superiors a 0.001, el seu mapa és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001.

Aquí la separació millora, (les vocals per exemple, es diferencien millor, tot i que la a i la e continuen ajuntant-se) però hi han mancances evidents en les consonants.

Afegir-hi els factors negatius ha estat la quarta prova feta, i el seu map resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001 i < -0.001.

Que presenta les mateixes mancances que la prova anterior amb només factors positius.

La darrera prova ha estat fet servir el factor F, també amb connexions > 0.001. El mapa resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson,  amb factor de confiança F i connexions > 0.001.

On podem comprovar que efectivament, gaire bé totes les variants tenen entre els nodes més propers els d’altres variants. La indefinició, (en el sentit que al costat de nodes de variants també trobem nodes aliens) es concentra en algunes de les variants de: a,c,ç,ï,j,n,ò,ó,s,t,u i x. En total, dels 94 glifs del graf, 24 presenten alguna vacil·lació, o dit altrament, un sistema de detecció automatitzada de variants, en aquest corpus, en detectaria correctament com a mínim un 75%.

 


Notes

  • [1] A nivell estructural, cathalaunia.org sembla un creuament entre un wiki i una base de dades. Una forma aproximada i incorrecta seria definir-lo com una base de dades XML amb una presentació web, una de més correcta seria dir que és un programa que pot exportar els continguts que presenta en format XML.
  • [2] Quelcom que els analistes i programadors, i en general al gent del món de la computació fa, com diem, de manera constant i natural. A les solucions genèriques se les acostuma a descriure com ‘lliures de domini’ per expressar que funcionen sense aportacions de cap domini del coneixement aliè al matemàtic. Altra cosa és que a nivell pràctic les tècniques més fructíferes usualment neixin del creuament de tècniques genèriques o ‘lliures de domini’ amb coneixements del ‘domini’ dels problema a tractar. Un exemple relativament recent: en el camp del tractament informatitzat de la veu humana, no s’ha avançat de forma significativa en la seva síntesi fins que no s’han emprat models que reprodueixen els sistemes fonadors biològics. De nou, el principi general i la seva particularització (variant els paràmetres que defineixen el model ens podem aproximar més o menys a la ‘particularitat’ de cada una de les veus existents en la natura)
  • [3] Una altra millora ha estat l’eliminació d’epigrafies duplicades. En el corpus inicial hi havia aproximadament un 1% d’entrades que eren relectures o simples duplicacions d’altres entrades. En l’actual, han estat eliminades (tot i que no es descartable que n’hagi escapat alguna).
  • [4] Com que les connexions no tenen perquè formar una mètrica, la seva disposició no té per què ajustar-se a les restriccions d’un espai euclidià (per exemple: tres punts formen sempre un triangle i en un tal espai els angles interns hauran de sumar 180º, però si en comptes de longituds estem parlant de connexions, això no s’ha de complir).
Publicat dins de català, cathlaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, ForceAtlas2, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric | Etiquetat com a , , , , , , , , , , , , , , | Deixa un comentari

2017-febrer a cathalaunia.org

De cop, final de mes. Febrer ha estat un mes ibèric a cathalaunia.org, més del que es preveia.

El web ha rebut una millora global en forma de sistema de navegació entre les dades que es presenten. Com és manifest, és l’objectiu de  cathalaunia.org publicar un seguit de dades objectives sobre la història de Catalunya anterior al segle XII. I per fer-ho defineix i agrupa una sèrie de tipologies de dades, ja siguin: documents altmedievals, epigrafies ibèriques, bibliografia sobre el període visigot, antroponímia altmedieval o el que sigui, i per cada tipus, un conjunt de pàgines numerades, una per a cada ítem rellevant en la seva classe. La millora consisteix en uns botons de navegació en forma de fletxa situats en la part superior esquerra cada ítem, que amb un sol clic, permeten anar al extrems (primer o darrer) o als ítems immediats (previ o següent) del conjunt de dades que s’estigui consultant en un moment donat. És una millora aparentment simple i que feia temps que es volia incorporar, però que no ha trobat la manera adient de fer-la realitat fins aquest mes.

Aquest bloc ha tingut una entrada dedicada a descriure un mètode quantitatiu per mesurar el grau de correlació existent entre les ‘variants’ d’un mateix ‘caràcter’ del signari de l’ibèric nord-oriental (segons les agrupacions fetes per els filòlegs) atenent entre quins glifs es troben. No estava pas previst, però sorgí la idea i calia fer la prova. El resultat és que es poden documentar graus de correlació de Pearson positius (però baixos, la majoria per sota 0.5) per a 89 glifs del signari que s’agrupen en 24 ‘caràcters’. La dispersió de les dades (a prop de 200 glifs en un corpus de menys de 25.000 lletres) fa que – si més no de moment – no es pugui parlar d’evidències gaire clares, tret d’uns pocs glifs.

La Secció Ibèrica i Romana ha concentrat la feina. Per una banda s’ha incorporat un nou gruix d’esquemes d’inscripcions per tal de validar els continguts presentats, i ja són més de dos terços les epigrafies que disposen d’aquest mecanisme. També hi ha hagut la prova estadística comentada abans, sobre l’evidència real de les agrupacions sígniques actuals. A més ja ha aparegut el volum del 2016 de la revista Paleohispànica i cal incorporar les novetats epigràfiques registrades (tot i que en aquesta vegada, una bona part ja estaven presents en el corpus). I per si fos poc, altres obres d’aquest mateix any documenten desenes de noves inscripcions que també caldrà incorporar. De manera que semblava al començar el mes que amb quinze dies endreçàvem la carpeta ibèrica, i arribats a fi de mes encara hi ha un munt de feina per fer. Ars longa, vita brevis

A darrera hora s’ha decidit incorporat una millora programàtica en el mecanisme de cerca del corpus epigràfic i detecció de seqüències. Esperem haver-ho fet bé, però si es detecta alguna disfunció inesperada, s’agrairà que es faci saber per tal de corregir-ho el més ràpid possible (la cerca en el corpus és una de les sub-seccions més actives).

La secció de l’Alta Edat Mitjana i en especial el Fons Cathaluania són els grans absents del més. Hi han millores puntuals però s’esperava que si més no en la segona mitat del mes ja es pogués tornar a dedicar-s’hi plenament; no ha estat així. Afortunadament, el poc que hi ha hagut ha estat de qualitat, encara que no tingui per ara visualització.

La Bibliografia del mes reflecteix el predomini ibèric i les noves aportacions han compensat les lectures  fetes, de manera que la cua de ‘pendent de llegir’ continua en els 360 títols (no hi ha manera que baixi…).

Com és habitual, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.684 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathlaunia.org, Fons Cathalaunia, Iberika | Etiquetat com a , , , | Deixa un comentari