Paleografia Ibèrica Digital.

Aquest apunt és per comentar una novetat en el corpus Iberika de cathalaunia.org estretament relacionada amb el seu Signari. El tema venia de lluny però ha cristal·litzat aquesta setmana.

Ja des dels seus inics a l’any 2013, el corpus ha presentat una pàgina Signari on mostrar la pluralitat de glifs que defineixen la seva escriptura (amb la seva codificació numèrica) seguida de l’especificació d”una agrupació d’aquests mateixos glifs en ‘caràcters’ (parlant impròpiament) per facilitar fer cerques i altres manipulacions.

Signari de 207 glifs.

El contingut ha anat variant al llarg del temps seguint l’evolució de la definició del signari; dels 136 signes originals del seu corpus mare, el de na Carme J. Huertas, als 207 de l’actualitat; i fins aquesta setmana, això era tot el que es podia trobar: una llista de signes i codis. A partir d’ara però, cada un dels glifs es pot clicar per obrir una pàgina on recollir la informació que es disposa d’ell en el corpus, que no és pas poca. Mostrem per exemple, el glif 116, suposadament una variant de Ke, lo prou poc documentada com per poder capturar-ho tot en una sola imatge però amb tots els elements que volem comentar:

Informació disponible del glif 116.

En la part alta, les dades bàsiques: el seu aspecte, el seu codi numèric, el seu valor fonètic suposat, i el nombre d’entrades epigràfiques en els que figura. I a sota, una taula amb el desglòs de cada una de les epigrafies. Cada una amb el codi Iberika corresponent (enllaçat lògicament a l’entrada en qüestió), l’identificatiu, el suport, la data, la localització i les formes originals en les que apareix el glif. Tenir un corpus informatitzat permet això, poder dir en quines epigrafies apareix cada un dels seus signes.

No fa gaire es comentava, parlant de la variabilitat sígnica de l’ibèric nord-oriental, de la possibilitat de reconstruir quins signaris s’empraren en cada moment i context de la història de la Ibèria. La idea rera aquestes pàgines de glifs és proporcionar el lloc on presentar les dades necessàries per a tal tasca. No per què sigui un objectiu amb el que hi hagi una afinitat especial, més aviat el contrari, però sembla  indefugible[1] tot i les seves limitacions naturals. Mirem d’explicar-ho.

Certament, qui hagi revisat un nombre lo prou gran d’epigrafies ibèriques pot percebre modalitats i costums diferents, i si tenim el lloc i el moment en el qual es documenten cada un dels signes, hauria de ser  relativament fàcil descriure la modalitat (o modalitats) que s’empraren en cada context. La idea, en abstracte, no pot ser més encertada, però el problema és la seva definició formal, que estarà malauradament farcida d’ambigüitats. Per començar, molts objectes estan descontextualitzats, i per tant, no permeten ni una localització ni una datació que no sigui d’allò més genèrica. Tampoc del fet de trobar un objecte en un cert lloc en podem sovint derivar, ni la seva factura local (no deixen de ser bens mobles), ni menys que ho fos la seva escriptura si són marques fetes amb posterioritat a la seva fabricació. Tampoc l’eix temporal permet gaires alegries, les datacions amb uns mínims de garanties són malauradament minoria (les tècniques de datació han millorat molt, però el gruix de l’evidència, en ser anterior, no n’ha pogut fruir). El perill, és que davant la poca evidència disponible, es caigui en la temptació d’oblidar que ‘absència d’evidència no és evidència d’absència’, i per voler definir un context, es menystingui l’ambigüitat intrínseca de les dades. Si per exemple, tenim un glif documentat en 30 epigrafies, 20 d’elles del segle IIac i d’un context local relativament reduït i la resta sense data, podem estar temptats de creure que efectivament, va ser creat i emprat en aquell context del s.IIac, quan de fet, amb només que una de les altres 10 epigrafies resultés ser del segle IIIac desfaria la hipòtesi. El perill està en què en no saber-ho, ens fixem només en el que sí sabem, que no deixa de ser una inclinació natural de la ment. I com que, agradi o no, cal fer hipòtesis, i en aquesta mena de casos no acostuma a haver-hi gaires novetats que obliguin a replantejar-les sovint, la inèrcia porta a substituir el que originalment era una suposició en una ‘opinió de consens’ al cap d’un temps i d’un cert nombre de repeticions acrítiques en la literatura especialitzada. La pràctica historiogràfica està farcida d’exemples, i tot historiador sap que ha de desconfiar-ne sistemàticament, però això no és tan així en altres disciplines (en el que fa a l’avaluació geotemporal de les dades disponibles, s’entén). D’aquí les recances amb la idea de mirar de delimitar uns suposats modismes locals en una temàtica amb tantes ambigüitats estructurals: el perill d’autoreferenciar-se és molt gran.

Però tornant a lo concret, cal fer una observació d’estat actual. Aquestes pàgines de glifs mostren clarament la gran quantitat de dades que encara falten incorporar en el corpus. La majoria d’epigrafies no tenen ni localització geogràfica ni datació. El motiu està en què en origen, la missió principal del corpus era presentar una codificació el més semblant possible als originals (i aquesta era la informació que les dades d’ibers.cat proporcionava) , però un cop aquesta tasca ha estat raonablement encarrilada, es va fent patent la necessitat d’afegir la resta d’informacions bàsiques, especialment com diem: lloc i data. Per això, de moment, les columnes de Data i Lloc en la pàgines dels glifs, apareixen majoritàriament buides, cal encara una tasca sistemàtica d’anotació, ja que en origen no es disposava d’aquesta informació. És l’objectiu i la metodologia emprada a cathalaunia.org: presentar només dades bàsiques amb referències a fonts d’autoritat externes per si es vol anar més enllà[2]. En el cas de les epigrafies ibèriques, per a cada una es disposa d’una secció de Bibliografia (i en això, la tasca d’afegir les evidències gràfiques feta aquests darrers mesos n’ha permès incorporar-ne un mínim a una majoria d’entrades), una de Web, majoritàriament amb referències a la base de dades Hesperia (tot i que encara publica molt poques dades). I ara cal convertir les dades de Lloc a ser possible en enllaços a descripcions del context geogràfic o jaciment arqueològic (preferencialment de Wikipedia) que continguin les coordenades de la seva geolocalització[3]. Tot plegat es diu ràpid: només cal afegir lloc i data a més de 3.000 epigrafies…

Però més enllà d’aquestes mancances, les pàgines dels glifs, presenten una columna Formes, on s’aniran mostrant les formes que pren el glif en cada epigrafia, i aquí arribem, per fi, a la Paleografia Ibèrica Digital del títol.

Paleografia Digital

Dèiem que la cosa venia de fa un temps (i aquí tenim que passar a la primera persona). L’any 2015, en el magnífic bloc de n’Ainoa Castro, Littera Visigothica, dedicat a la paleografia visigòtica, l’autora comentava la seva disposició a aplicar la informàtica a la tasca paleogràfica d’identificar les diferents mans que confeccionaren un manuscrit determinat. Sent cathalaunia.org  el fruit de creuar Història i Computació, em va causar sorpresa el fet de no haver-hi pensat abans en una tal aplicació de la tecnologia. Certament sabia de webs especialitzats en manuscrits originals i altres aspectes relacionats amb la diplomàtica (sols cal mirar en la llista de ‘Adreces d’interès‘ de cathalaunia per trobar-ne uns quants), però per a la tasca concreta d’individualitzar els caràcters de cada escrivà, no. De manera que vaig mirar de seguir d’aprop el tema per mirar d’estar al dia i per si es podia ajudar d’alguna manera.

Els detalls, arribaren poc després en els següents apunts del bloc, i eren que certament ja existia una aplicació de paleografia digital anomenada DigiPal i que la tasca de l’autora en els propers temps seria adequar l’aplicació al context de la paleografia visigòtica[4]. El programa proporciona una sèrie de facilitats genèriques d’anotació d’escriptures manuals en entorns web, però està pensat per ser modificable per a cada context (les necessitats varien lògicament segons l’àmbit a estudiar, no és el mateix si estem parlant d’epigrafia carolina, o de miniatures, de llibres, o de pergamins, etc, etc).

Un comentari de professional del món de la computació. Sovint, els programes informàtics neixen d’una idea simple, a voltes mínima o fins i tot insubstancial, l’expressió de la qual ocupa una part petita quan no ínfima de tot el programa; la resta, el gruix de la feina (i dels problemes) és com arribar a poder fer funcionar aquest pinyol, aquest germen inicial. En el cas de la paleografia medieval, aquest ‘pinyol’ sembla estar en poder marcar de forma fàcil cada una de les lletres sobre les imatges dels manuscrits a estudiar. Els paleògrafs construeixen (fins ara manualment) llistes de com es dibuixaven cada una de les lletres o signes en cada original i per comparació caligràfica, les agrupen en sengles ‘mans’. El programa DigiPal facilita això: presentar una imatge d’un manuscrit per tal de poder marcar-ne una part, un rectangle, i dir: ‘això és una A‘, ‘això una g‘, ‘aquí hi ha una altra A‘, etc. I a partir d’aquesta informació base, anotar-la, categoritzar-la i agrupar-la i presentar-la segons les necessitats específiques del camp d’estudi. El projecte DigiPal està doncs pensat per crear derivats seus, per exemple, en el cas de n’Ainoa Castro, està construint (i ho comenta més que bé en el seu bloc) un ‘VisigothicPal‘.

De manera que la reacció fou pensar immediatament en un possible ‘IbèricPal‘.

La problemàtica de les escriptures ibèriques preromanes és molt diferent al de les l’escriptures medievals, però possiblement el program seria lo prou adaptable com per poder-ne fer una eina eficaç en aquest domini (potser a efectes pràctics, la dificultat a primera vista mes evident era la necessitat de poder indicar lletres ‘torçades’, és a dir, de marcar rectangles ‘girats’, una facilitat que la darrera vegada que ho vaig mirar, DigiPal encara no incorporava, però que estic segur que incorporarà ben aviat -és una facilitat massa convenient i genèrica com per ignorar-la-). Però tot i així, era evident que resultava una tasca excessiva per mirar d’afrontar-la des de cathalaunia.org, de manera que el tema s’arxivà en l’apartat dels: ‘Estaria bé‘.

Paral·lelament, el corpus i el signari de cathalaunia van evolucionar per fer-lo encara més semblant a les epigrafies originals, i quan el nombre de signes arribà als 188 (l’octubre del mes passat) es feu un recompte de covariacions (variacions d’un mateix signe en una mateixa epigrafia) on els resultats mostraven que la variabilitat de l’escriptura ultrapassava la proposta de dos signes per ‘caràcter’ que es fa modernament, i que en comptes d’uns cinquanta signes, calia contemplar-ne una forquilla entre 85 i 96. Resultats que sorprengueren a uns quants experts[5], reacció que de retruc, propicià la incorporació dels esquemes o calcs, de les epigrafies originals fetes per els estudiosos per poder verificar públicament la correcció de la transcripció presentada en el corpus Iberika i el seu grau de semblança. En fer això, indirectament, ja s’estava complint el primer requisit per poder diferenciar els glifs originals un a un: tenir una imatge de l’original per a cada entrada epigràfica.

Aquesta tasca de verificació ha fet augmentar fins a 207 el nombre de glifs necessaris (i hi han en cartera encara més incorporacions, tot i que ja d’abast quantitatiu molt limitat) quan farà unes poques setmanes, es plantejà la conveniència de rescatar aquella idea de la paleografia ibèrica digital de la carpeta dels ‘Estaria bé‘ per si seria convenient fer-la realitat. No, potser, per fer-ho amb les mateixes eines de DigiPal, que generarien un projecte diferenciat del de cathalaunia.org i de difícil integració (tan tècnica com estructural), sinó amb eines pròpies, ja nativament adaptades al context ibèric. En els projectes Pal, cal anar marcant a mà la posició de cada un dels caràcters, però en el cas del corpus Iberika tenim ja la transcripció feta… En imatges ho explicarem més ràpid.

Agafem una epigrafia, per exemple, la I00836, el seu esquema original dels Monumenta Linguarum Hispanicarum és:

I00836, esquema en els MLH.

I la transcripció del corpus Iberika és:

I00386 transcripció.

Només falta convertir-la a:

I00836 transcripció adaptada a l’original.

I tindrem les posicions de cada glif original (inclosa la seva rotació, inversió i/o redimensionament[6]). És a partir d’aquesta informació que en la pàgina de cada un dels glifs, podem anar mostrant l’aspecte original (en els esquemes) que tenen  en cada una de les epigrafies del corpus. Només cal dedicació, les eines ja estan plenament operatives. Això és el que ha cristal·litzat aquesta setmana, una idea que venia de feia un any i mig i que gairebé inesperadament ha trobat la seva expressió programàtica adient[7] per mirar de millorar encara més els continguts del corpus Iberika. A partir d’ara, i a mida que es vagin incorporant les dades que falten, es podrà avaluar fàcilment l’ús de cada un dels signes de l’ibèric nord-oriental (bé, millor dir: cum grano salis per lo comentat abans sobre la fiabilitat de les dades). És només un començament certament, no s’ha processat ni un 1% de les dades, però ves per on, ara el corpus també incorpora informació paleogràfica, i això, sí que no estava previst…!

Encara més feina a fer…

 

 


Notes

  • [1] Preval el criteri de: sempre que es pugui s’ha de presentar la informació disponible.
  • [2] L’exemple més clar potser sigui el dels documents altmedivals del Fons Cathalaunia. On es presenta una versió del text lo prou fidel als originals com per permetre una avaluació eficaç, però sense pretendre en cap cas substituir les edicions crítiques dels texts, imprescindibles si es vol anar més al detall, i per les quals es procura aportar com a mínim un enllaç a una edició en línia si es coneix i en tot cas, una o més referències a les seves entrades bibliogràfiques corresponents.
  • [3] Observis que s’evita incorporar explícitament les coordenades en el web cathalaunia.org. El motiu és metodològic: sempre que sigui possible es mira d’evitar duplicar dades i es prefereix cercar referències en fonts d’autoritat externes per minimitzar la possibilitat de presentar dades errònies.
  • [4] És una rara satisfacció poder constatar que hi han investigadors en Humanitats que cobren per fer el que els hi agrada, tal i com hauria de ser (el retorn de la despesa en investigació cultural esta mes que ben estudiada). Per quan veurem això per els que investiguen la Cultura Catalana? Una Catalunya independent té objectivament el potencial de ser un referent en aquests àmbits, i el contrast amb la indigència induïda actual, és sagnant…
  • [5] I es poden continuar estranyant, ja que un nou recompte fet amb el signari de 207 glifs, ha confirmat que la variabilitat es manté, amb exemples documentats de tres i quatre variants d’un mateix ‘caràcter’ en una mateixa epigrafia.
  • [6] El terme matemàtic és transformacions afins, Tema que per experiència personal no puc dissociar del de la compressió fractal. Una de les fites de la computació de  finals del segle XX  que encara no ha tingut l’impacte esperable en la societat (es va demostrar que la descripció d’una imatge a partir de transformacions d’ella mateixa equivalia a la pròpia imatge, dir altrament, per enviar una imatge només cal enviar les seves transformacions, la seva ‘fórmula fractal’, i per tant, l’estalvi s’ample de banda resulta brutal (no però el cost computacional, especialment en la descompressió, la termodinàmica és la que és). No és un cas únic, hi han un grapat de tècniques de processament ‘revolucionàries’ que per un motiu o un altre encara no han tingut el ressò que era d’esperar.
  • [7] Evitem deliberadament entrar en el detall de la seva realització, que certament és molt més complex i punyetero del que sembla, aquest bloc tampoc és un lloc adient on parlar a fons de temes estrictament programàtics.
Publicat dins de Ainoa Castro, Bibliografia, caligrafia, Carme J Huertas, cathlaunia.org, compressió fractal, corpus Iberika, covariacions, covariants, DigiPal, esquemes, Fons Cathalaunia, glifs, Iberika, ibers.cat, Littera Visigothica, Paleografia, Paleografia Digital, Paleografia Digital Ibèrica, Signari ibèric, transformaciós afins, VisigothicPal | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2017-març a cathalaunia.org

Març ha estat un mes ibèricament pràctic, vull dir, pràcticament ibèric: vaja, pràctic i ibèric. En teoria, la idea era dedicar la primera meitat del mes a tancar el treball en el corpus Iberika i poder tornar a la tasca del Fons Cathalaunia ; en la pràctica, s’ha cruspit tot el mes i més que en vol.  Tampoc es tractava de tancar-ho del tot, només deixar les millores del corpus en un estat lo prou correcte com per no sentir el rossec de la feina pendent; doncs ni això. En teoria no s’havia de teoritzar sobre cap més aspecte de l’escriptura ibèrica, en la pràctica s’ha estat bona part del mes rumiant heurismes i procediments pràctics per definir el mapa de caràcters de l’ibèric nord-oriental algorítmicament. Anem al desglòs.

La secció Ibèrica i Romana ha vist elevar el percentatge d’entrades amb dibuix o esquema de la inscripció original fins el 85%. Com ja es va comentar, la idea és incorporar l’aspecte del text original per poder verificar la correcció (o si es vol , el grau de semblança) de la transcripció informatitzada que es presenta. És com una ‘cita’ però en gràfic: en comptes de dir que ‘tal diu tal a tal lloc’, aquí es mostra que ‘qual ha dibuixat això a tal lloc’ i/o que ‘tal qual ho ha fet altrament a tal altre’, tota vegada que cada imatge va enllaçada a l’entrada bibliogràfica corresponent a l’obra o article d’on prové. No deixa de ser el mateix que es fa en tot el web, donar dades, amb enllaços a fonts d’autoritat externes (bibliografies, enciclopèdies, museus, etc).

Aquesta tasca de verificació ha propiciat l’expansió del signari per tal de fer-lo encara més proper als originals del que ja era, i actualment presenta fins a 207 glifs diferents. Tampoc és l’estadi final, ja que hi han millores encara en cartera, però cada cop són de menor envergadura; per exemple: hi han més de seixanta glifs candidats a entrar, (la majoria detectats només en una o dues entrades), també n’hi han 3 dels 207 que finalment no s’han emprat, a més, hi ha encara un 15% del corpus per verificar i potser aparegui algun glif nou més, etc, etc. A la espera de definir quina serà la nova versió del signari, el que sí es fa en tot cas, és proporcionar la font iber.ttf amb l’estadi actual. A la que l’acumulació de canvis aconselli fer una nova revisió del signari també es proporcionarà una nova font (les versions són compatibles entre elles, ja que els canvis bàsicament, o afegeixen codis nous o en redefineixen de no emprats i per tant, són compatibles entre sí.

I per acabar-ho de rematar (o més ben dit, d’iberitzar) els amics de l’Institut d’Estudis Ibers de Terrassa van tenir l’amabilitat de programar aquest mes una xerrada en el seu curset anual sobre iberisme on es va poder comentar el funcionament de les eines de cerca del corpus ibèric de cathalaunia. Tenint en compte que la idea de fer el corpus nasqué precisament allí, fa anys, assistint a una xerrada de na Carme J. Huertas sobre codificació del signari ibèric, era una cita inevitable. A més, és un rar plaer, avui en dia poder gaudir d’un ambient de gent curiosa, participativa, amant de la temàtica i de ment oberta. Havent-hi anat unes quantes vegades (la gran majoria d’oient), no sabria dir si xalen més el ponents o els oients…

Aquest bloc, ha estat on s’ha visualitzat bona part de la tasca teorico-pràctica feta aquest mes.

  1. El fet d’haver ampliat el signari ha propiciat repetir el recompte de co-variants en una mateixa epigrafia que s’havia fet fa uns mesos (i que de fet, fou el detonant dels canvis haguts des de llavors). En el seu moment, es va constatar que la quantitat de variants d’un mateix caràcter era molt superior al que el desxiframent actual proposa (amb un màxim de dues variants) i es recomptaven casos de tres i fins quatre variants d’un mateix caràcter en una mateixa epigrafia. La reacció dels experts consultats fou de sorpresa, fins el punt de considerar-ho impossible i arribar a dir que havien de ser errors del corpus…! Com a resposta i per tallar d’arrel tota controvèrsia, s’incorporaren els esquemes de cada epigrafia i així tothom podrà verificar el grau de proximitat amb l’original. Doncs bé, un cop aproximat encara més a l’original i verificat un 85% del corpus, s’ha tornat a programar un recompte de covariants, i la magnitud de la variabilitat es manté. Els resultats del recompte s’han incorporat en una actualització al fons de l’apunt original, amb un pdf on poder consultar en línia cada un dels 397 casos d’entrades epigràfiques amb més d’una variant d’un mateix caràcter (286, si eliminem covariàncies ‘estétiques’), i s’ha fet notar que per el que fa a la manera de diferenciar gràficament les variants, l’allargament o adició d’un traç vertical inferior és quantitativament força més rellevant fins i tot que la marca dels signes del signari dual (l’adició d’un traç vertical central).
  2. El mes passat, en aquest bloc s’havia comentat un primer intent de classificació automàtica dels glifs ibèrics, però amb resultats poc satisfactoris, de manera que el que havia de servir per detectar les agrupacions de glifs, es reduí a un mètode per mesurar quantitativament l’abast de l’evidència de les agrupacions de glifs que proposen els filòlegs (un suport francament baix, tot sigui dit).
    En teoria, l’experiment havia fallat, en la pràctica, això esperonà més la curiositat per entendre els motius de tal fallada, i això ha propiciat una sèrie d’experiments per mirar d’entendre millor el problema i afinar les eines de mesura, de manera que els resultats han acabat convertint l’apunt del mes passat en el primer d’una mini-sèrie de tres.
    En el segon s’han comentat les proves que s’anaven fent per millorar el tractament del problema de la dispersió de les dades (el corpus ibèric és petit però amb molts signes diferents i una casuística molt sorollosa) a partir d’emprar el català (una escriptura ben coneguda) com a camp de proves, i posteriorment es desenvolupà una simplificació de les mesures de segmentació (modularitat) per tal de fer-les de més fàcil lectura.
    En el tercer i final, els mètodes aquests s’han aplicat a l’ibèric, i s’ha pogut contrastar les bondats del sistema (a grosso modo les vocals i consonants es detecten raonablement bé), i les seves limitacions (els sil·làbics no tant). Però més enllà de ser una via d’anàlisi interessant, el fet, és que fins i tot una mesura no del tot reeixida permet plantejar algunes interpretacions alternatives a uns quants glifs. Recordem-ho, fet a partir de mesures estrictament quantitatives, amb una informació del domini mínima (bàsicament només saber quin signes són separadors o metrològics).

La Bibliografia, amb tanta pràctica teòrica i tanta teoria practificada tampoc ha sortit ben parada. La lectura ha estat poca, pràcticament testimonial, (encara que en teoria, molt interessant, ja en parlarem en el seu moment, si Déu vol). La cua de ‘per llegir’ encara està en els 342 títols en escriure això. Terrible…

Com és habitual, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

A fi de mes, cathalaunia.org presenta 26.704 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de agrupacions de glifs, Bibliografia, Carme J Huertas, cathlaunia.org, corpus Iberika, covariants, esquemes, estadística, Fons Cathalaunia, iber.ttf, Iberika, IEI, Signari ibèric, Xarxes | Etiquetat com a , , , , , , , , , , , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental (3).

En l’apunt anterior ens havíem quedat  a les portes de crear un graf a partir del corpus en ibèric nord-oriental amb un node per cada un dels seus glifs i connectats segons el grau positiu de correlació de Pearson de la seva distribució, modulat per el factor de confiança F allí descrit[1]. El signari ibèric emprat defineix 207 signes però 6 són considerats separadors (línies verticals de punts), 4 són marques metrològiques i 3 no figuren el corpus, aixo deixa un signari hàbil de 194 glifs, xifra que es veurà encara més reduïda per els cassos sense connexions/correlacions superiors a 0.001[2]. El graf resultant (disposat amb l’algoritme ForceAtlas) presenta 155 nodes amb 1603 connexions.

El corpus ibèric 155 glifs, 1603 connexions.
Cliqueu per imatge a mida gran o en format svg.

Un graf que il·lustra molt bé la complexitat del problema. Per una banda, en una mirada superficial i segons el desxiframent actual, es poden percebre tres grups: a l’esquerra tenim les vocals, en la part més alta, un de consonants no oclusives i en la part dreta i poc dibuixat, n’hi ha un que és un autèntic tuttifrutti (potser nascut del pes de les evidències marginals?). Però més enllà d’aquestes agrupacions el graf presenta un alt nombre de nodes dispersos, tot i que la seva distribució està lluny de semblar aleatòria i de fet, planteja algunes possibilitats interessants. Fem un breu repàs.

Entre les vocals i les consonants contínues tenim agrupats tres variants amb forma de V i Y (codis 62,63 i 65 en el signari de cathalaunia) que per posició suggereix que podem estar davant d’un cas de doble sonoritat i que caldria desdoblar-les en una m? i una vocal (o/u?), o potser un sil·làbic?. També resulta estrany que si bé en general les vocals presenten una localització força clara, les is, tenen també variants en la dispersió del quadrant inferior/dreta. En la part central i aïllada dels tres grups més clars, figura el signe Ba (el més freqüent), amb dos Tis aprop, probablement aquesta disposició sigui provocada per el pes dels numerals en el corpus. En la línia de les 7h (com si el graf fos un rellotge) tenim un grup de tres signes Bo/Ta. En la de les 6h, trobem tres Pis. Entre les 4 i les 5h tenim fins a nou signes Ke, i ben curiosament, al seu costat el signe Ba corbat, que ens faria pensar si no hi han casos en que caldria llegir-lo com un Ke. Al costat dels Kes i fins les 3h trobem fins a 6 signes Be. Entre les 12 i les 3h tenim l’amàs dispers que dèiem, però en la part exterior de les 3h tenim tres variants de Ka, i en la de les 2h quatre Tes junts.

En conjunt, queda clar que tot i que a semblança del corpus en català els grups de consonants contínues i de vocals fan de fàcil delimitar, el problema està en la resta de signes que es comporten de manera ben diferent i que fa pensar efectivament en una natura dual, sil·làbica, funcionant com a consonant a una banda i com a vocal en l’altra. Sent la idea base comparar entre quins signes apareixen els glifs, queda clar que una escriptura alfabètica amb només dues menes de signes, serà més fàcil de detectar tota vegada que l’alternança és la pauta a esperar, mentre que la presència de signes compostos, multiplica les possibilitats, que sembla que és el que reflecteix el graf. Amb tot, la complexitat del graf fa pensar en alguna raó afegida, ja que no sembla evident que la presència de signes sil·làbics per se hagi de produir un graf més dispers…

Això per el que fa a la distribució espacial, provem ara amb l’altra eina, la modularitat, però en comptes d’intercalar les onze particions/mesures com hem fet en l’apunt anterior, el que farem serà deixar-les en nota[3] i fer servir el seu mapa resum (tècnica que s’ha descrit en una actualització del l’apunt anterior).

El resultat és força variat i el que farem serà marcar amb verd els glifs per els quals entre els glifs més propers – segons modularitat acumulada – es detecti una majoria de glifs equivalents segons el desxiframent actual, i amb vermell els que no sigui així, és a dir, els que resulten més interessants…!

Mapa de glifs propers per modularitat acumulada
(els nombres indiquen la quantitat d’agrupacions compartides).

En verd els que presenten majoria de glifs acords amb el desxiframent actual..
En vermell els que no.

Els comentem per ordre:

  1. En primer lloc el glif que sembla una E inclinada a l’esquerra (codi 41, 6 entrades) sembla ser una I.
  2. El signe espiga de 2 branques (codi 43, 17 entrades) segons això seria una O.
  3. Curiosament una de les Os de 2 travessers (codi 51, 5 entrades) sembla confondre’s amb una E, tot i que figura com a companya dels altres signes O…
  4. En els dos signes de L (codis 56 i 57, 374+537 entrades) apareixen com properes i formant un grup coherent entre ells amb un signe M (codi 60, 99 entrades) i un glif com una L especular (codi 59, 8 entrades).
  5. El signe de forma de F (codi58, 29 entrades), apareix com una E.
  6. La A amb forma de R oberta  (codi 61, 85 entrades) sembla funcionar com una O.
  7. El signe Ba (codi 83, 717entrades) situat al centre del graf no presenta cap glif proper amb sentit evident tot i que forma un grup coherent amb quatre glifs més: un Te (codi 103, 34 entrades), un Ki (codi 193, 18 entrades), una nasal (codi 239, 14 entrades) i un de desclassificat (codi 213 , 2 entrades).
  8. El Ba corbat (codi 84, 26 entrades) que per posició està proper a signes Ke, per modularitat ho esta de signes Ka, un altre exemple de classificació contradictòria.
  9. El Ta amb forma de creu de Sant Andreu (codi 87, 480 entrades), també en posició central en el graf, s’associa majoritàriament amb signes Ka,
  10. Tot i que els signes Ka més habituals semblen agrupar-se de manera correcta, la variant amb el traç afegir a l’esquerra (codi 91, 77 entrades) forma un grup coherent amb dos Tes (codis 101 i 102, 32+45 entrades) i un signe Be (codi 183, 1 entrada).
  11. Un altre grup estrany però coherent el formen dos signes Be (codis 95 i 186, 13+43 entrades), dues Is (codis 145 i 197, 12+22 entrades) i un signe Bo (codi 212, 4 entrades).
  12. El signe Te amb forma de rombe partit per una línia vertical (codi 107, 20 entrades) s’agrupa amb glifs de sibilants.
  13. Un dels grups coherents però sense sentit evident més grans està format per 8 signes (codis 127,219,206,203,195,189,161 i 128, 1+8+20+24+62+3+10+1 entrades).
  14. Un de més petit ajunta un signe Pi (codi 141, 4 entrades), una Be (codi 174, 3 entrades) i una O de quatre travessers (codi 185, 3 entrades).
  15. Les sibilants s’ajunten de manera quasi perfecte tret de d’una variant de la de forma de M (codi 142, 91 entrades) que ho fa amb les sibilants simples.
  16. Una hàpax de Te (codi 143, 1 entrada) s’ajunta amb signes Ti, en un grup que comentarem un xic més avall).
  17. Una variant de S poc habitual (codi 144, 19 entrades) amb tres signes Ka ben documentats (codis 88,89 i 90, 140+23+227 entrades).
  18. Un grups curiós està format per dos Kes poc freqüents (codis 169 i 204, 3+4 entrades) i dos Kis (codis 194 i 196, 8+23 entrades).
  19. Una tripleta també aparentment espúria esta formada per una I ben documentada (codi 180, 23 entrades) , un hàpax de Ke (codi 129, 1 entrada)  i un Tu poc freqüent (codi 233, 22 entrades) .
  20. El grup esmentat en el punt 11, apareix però en comptes d’un signe Bo, presenta una tercera I al grup (codi 182, 18 entrades).
  21. El signe Bo de sis puntes (codi 205, 58 entrades) apareix amb dos signes To (codis 207 i 209, 38+86 entrades).
  22. Un dels signes To (codi 210, 25 entrades) de branques inclinades s’agrupa amb un signe Ku (codi 236, 111 entrades).
  23. Peró el més curiós és que l’altre To que té una base puntual (codi 211, 25 entrades) s’ajunta amb un grups de signes Ti, amb els quals comparteix figura (de fet hi han variants de Ti – no registrades en el signari – que dibuixen l’asta no per baix sinó en la part alta del traç medial). De manera que potser sí calgui considerar-lo una forma de Ti i no de To.
  24. Un altre binomi inesperat és el format per un signe Ko (codi 217, 39 entrades) i un signe rar, una espiga de tres ramificacions (codi 240, 8 entrades).
  25. I el signe Ko semblant a l’anterior però sense traç medial, i encara més ben documentat (codi 220,366 entrades), es veu inclòs en un grups de tres signes Ku, (codis 236, 237 i 238, 111+101+80 entrades) més el signe To del punt 22.
  26. Hi ha un grup coherent de fins a 5 signes Tu que incorporen però dues excepcions, un signe Te(codi 222, 2 entrades) i un signe M? (codi 243, 5 entrades).
  27. El signe To en forma de V invertida (codi 235, 19 entrades) es veu ajuntat amb dos signes Bu (codis 224 i 225, 13+9 entrades). En la situació espacial es veia situat a prop del seu homòglif de valor Ka (codi 92, 8 entrades) i per tant, potser es tracta d’una lectura incorrecta.
  28. Un signe inusual i interpretat com una nasal (codi 241, 3 entrades) es veu però consistentment agrupat amb sibilants. Potser una altra assignació a contemplar?
  29. I finalment, un encert inesperat. Un signe com una R especular (codi 248, 10 entrades) usualment interpretada com una R es veu efectivament agrupat a altres glifs de R.

En les agrupacions per modularitat, tenim doncs fins a 103 glifs de 155 correctament agrupats, és a dir, un 66% d’encert. I el terç restant aporta algunes possibilitats de relectura que caldria verificar, en concret, els punts 1, 2, 3, 5, 6, 8, 12, 17, 23, 27, 28  de la llista anterior. Cal entendre que en ser una anàlisi estrictament quantitativa, ha de ser en tot cas la Filologia la que dictamini l’encert o l’error de tals possibilitats.

En conjunt, doncs tenim una barreja d’encerts i d’errades en la mesura de les distribucions dels diferents glifs del corpus ibèric segons la correlació de Pearson modulada per el factor de confiança F, si l’expressem com una xarxa formada per els seus signes connectats segon les correlacions entre les seves distribucions, i n’analitzem la seva disposició espacial i l’estructuració de les agrupacions per grau de modularitat.

Coda

On ens deixa aquest experiment? Doncs amb una certa ambivalència. El mètode descrit funciona perfectament en un corpus alfabètic com és el del català, i per tant, buida de contingut la primera objecció sistèmica que ens fèiem al començar (la derivada del fet que lletres diferents poden tenir distribucions semblants), no per què sigui falsa (les agrupacions espacials de vocals i consonants ho testimonia clarament) sinó per què amb una anàlisi quantitativa els detalls entre les diferents distribucions tenen un pes suficient com per discriminar entre signes propers. Queden però les altres dues.

I el fet és que la mateixa mesura aplicada al corpus ibèric es mostra d’entrada, limitada. La dispersió de les dades segurament està introduint un nivell de soroll que supera el del ordenament natural de l’escriptura, i no es pot descartar que no hagin més glifs de sonoritat múltiple per detectar i desdoblar (la segona objecció). Però segurament el factor principal sigui la dispersió deguda a la manca d’evidència (la tercera objecció) , tota vegada que es pot observar com la majoria de grups espuris i glifs mal situats per la modularitat estan formats per signes molt poc evidenciats. Una altra consideració genèrica a fer és que probablement sigui apropiat canviar la idea inicial de considerar només els glifs immediatament al costat d’un signe determinat. En signaris alfabètics, l’alternança vocal/consonant hauria de ser la norma, de manera que si el signe és vocàlic, cal esperar que la majoria de parelles que l’envolten siguin consonants i viceversa si el signe és una consonant. Aquest esquema tant regular – i que tan bé funciona en aquesta metodologia d’anàlisi – desapareix si tenim signes sil·làbics, ja que aquests podran aparèixer també tant abans com desprès i per tant això fa que les distribucions de les parelles que envolten a un signe determinat seran més complicades. Queda clar que cal seguir pensant, la bona nova és que certament, de vies a explorar no en falten…

En resum, i per tancar ni que sigui provisionalment aquesta inesperada minisèrie d’apunts, diríem que l’anàlisi quantitatiu del corpus (i en concret de les correlacions entre les distribucions dels glifs) es revela com una eina molt efectiva i amb un alt potencial d’ajut en l’estudi de l’escriptura ibèrica, amb la virtut estructural de ser completament objectiva.

 


Notes

  • [1] Per distribució entenem el recompte de entre quines parelles de signes es documenta cada un dels glifs del corpus. F és una F-mesura feta a partir del percentatge i la quantitat normalitzada de factors comuns entre dos distribucions.
  • [2] Els codis no presents en el graf son: 55, 64, 99, 100, 106, 117, 127, 128, 129, 130, 132, 133, 134, 135, 136, 137, 139, 162, 163, 164, 165, 168, 170, 171, 172, 175, 176, 177, 178, 179, 181, 188, 199, 202, 214, 215, 216, 218, 223, 229, 230.
  • [3] Els grafs de les particions per Modularitat del mapa-resum són:

    P=2. 3 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=1. 4 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.9. 7 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.8 8 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.7. 8 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.6. 10 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.5. 12 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.4. 14 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.3. 17 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.2. 25 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

    P=0.1. 34 grups.
    Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Publicat dins de cathalaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric | Etiquetat com a , , , , , , , , , , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental (2).

El mes passat fèiem un apunt per comentar uns experiments per mirar de detectar les agrupacions sígniques en l’ibèric nord-oriental. És el cas ara de tornar-hi per exposar una sèrie de conceptes que es van ometre allí i que en una revisió més treballada creiem que poden ser d’interès.

No es cap secret que cathalaunia.org neix del creuament de dues disciplines aparentment diverses: Història i Computació. La primera aporta els continguts i la segona els mètodes, i sent un web dedicat exclusivament a la presentació de dades, omet volguda i sistemàticament publicar qualsevol mena d’opinió i/o comentari (quan resulta inevitable s’etiqueta específica i explícitament com a tal), per complementar-ho, existeix però aquest bloc, per poder donar expressió als molts aspectes relacionats amb el web i la seva confecció que no tenen lloc en ell. Un d’aquests usos, és de fer de bloc de notes públic d’algunes de les recerques que es duen a terme, aquest és l’aspecte que farem servir aquí. En concret, no tant per comentar alguns dels experiments fets, com fèiem en el post anterior, sinó per anar un pas més enllà i reflectir la recerca a mida que es va fent. Dit altrament, tenim una idea general a seguir, però no sabem en començar a escriure això quin serà el contingut final d’aquest apunt. Creuem els dits…

Parlàvem de la Computació com quelcom substancial en la confecció de cathalaunia.org[1], perquè així com la Història i en general les Humanitats són ben conegudes del públic i tothom te una imatge més o menys aproximada dels seus professionals i del què comporta la seva dedicació, això no és tan així per el que fa als professionals del món de la Computació. Una de les característiques habituals de la gent que es dedica a la programació, és una mirada naturalment analítica que cerca de forma inconscient els patrons en la realitat percebuda i que usualment mira de comprendre la realitat de lo general a lo particular. Noció, que evidentment, ni és ni nova ni exclusiva de la Computació (en el fons, estem parlant de Plató) però sí és d’efectes ben reals i quotidians, encara que usualment passin desapercebuts.

En el cas que ens ocupa, aquesta mirada analítica subjacent, es furtà en l’apunt anterior perquè no arribà a cap resultat significatiu però en canvi serà la idea directriu d’aquest exercici. La idea germinal era posar a prova un possible mètode quantitatiu de detecció de les ‘variants’ de l’ibèric nord-oriental. Dèiem llavors:

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

El que es callà és que prèvia i subjacent a aquesta formulació  hi havia una concepció analítica, matemàtica. Específicament:

En la mesura en què la noció que la semblança de les distribucions dels glifs indica pertinença a un mateix caràcter sigui certa, es podria disposar una xarxa, un graf, amb un node per a cada glif i connectar-los per els factors de ‘proximitat de distribució’, i a partir d’aquí, emprar les tècniques d’anàlisi per detectar-ne les agrupacions.

La idea resulta especialment atractiva a una ment analítica perquè cerca una solució general o ‘lliure de domini’ a un problema específic d’un camp del coneixement allunyat del de la computació[2]. Ara bé, hi han un mínim de tres consideracions ‘del domini’ que treballen en contra d’aquesta ideació:

  1. Una primera i estructural, és que certament diferents lletres poden aparèixer entre els mateixos caràcters. En la mesura en què això sigui cert, el graf agrupara no lletres iguals sinó dispars, i per tant, els resultats seran inconclusius.
  2. La segona, també estructural, però en aquest cas, específica de l’ibèric nord-oriental, és l’evidència que existeixen  glifs aparentment idèntics però que representen sons variats, per exemple: els que tenen forma de V invertida, que tan poden ser L, Ka o Tu. En la mesura que el mateix passi en altres glifs i encara no s’hagi detectat, tindrem que aquest glifs actuaran com la suma dels seus sons, i per tant, també difuminaran l’estructuració interna del graf.
  3. El darrer element que juga en contra de la idea original és la migror de les dades. Tenim un signari amb 200 glifs i un corpus d’uns 25.000, això faria un mitjana d’un centenar de casos de cada glif, però a més, la distribució és força irregular, de manera que per unes desenes de glifs tenim centenars i fins i tot algun miler d’exemples d’utilització, però per a la majoria, en tenim encara no unes poques desenes. Això implica que per a la majoria de nodes del graf, els factors de connexió amb la resta es basen en una evidència gaire bé marginal, i per tant, poden introduir un nivell significatiu de soroll en l’esquema general.

En l’apunt anterior, la idea de modelar el problema a partir d’un graf, es va obviar perquè les resultats van ser poc clars, i perquè la dispersió de les dades, derivada de la curta mida del corpus,  es revelà com el primer factor distorsionant. De manera, que el nasqué com un mètode per detectar quantitativament variants, es reduí a una manera de mesurar objectivament l’evidència de les agrupacions que els filòlegs han definit fins el moment. En la part final, es declarà que s’havien fet algunes proves per alleujar el problema de la dispersió però sense cap resultat significatiu. És el cas de tornar-hi aquí, per dos motius afegits: una millora interessant en aquest aspecte, i per què tal i com s’anunciava allí, el signari ha estat ampliat (dels 188 signes s’ha crescut fins els 207) i el corpus ja en reflecteix els canvis[3].

En un post normal, presentaríem els resultats de les proves i mesures fetes amb el nou corpus i les metodologies millorades, en aquest però, començarem per dir que fetes unes primeres mesures, s’ha pensat que seria millor provar les idees no sols sobre el cas problemàtic de l’ibèric, sinó sobre un corpus alternatiu i més ben conegut, per tal de mesurar la bondat dels nous procediments i intentar separar l’evaluació dels mètodes del de les dades. Dit altrament, miren primer un exemple conegut, per mirar de calibrar l’eina i les seves capacitats, i després ja veurem que ens apareix en l’objectiu real.

Per fer la prova tenim els corpus alternatius que es van emprar fa uns mesos en comparar la distribució de sons del desxiframent actual de l’ibèric nord-oriental amb altres llengües, i per comoditat, empraren el corpus català, que recordem, no és altra cosa que un fragment del Gènesi de mida similar al volum del corpus ibèric. De manera que agafarem els primers 15 capítols del Gènesi, posarem un verset per línia, convertirem cada lletra a un número i analitzarem quins números apareixen al costat de quins altres. L’únic coneixement del domini que emprarem serà reduir tots el signes no sonors a un  únic valor, diguem-ne ‘puntuació’, que és una simplificació que podem fer amb certes garanties també en el corpus ibèric. Tenim molta cosa a comentar…

L’exemple del català

En el corpus català tenim un total de 31.624 lletres, amb 58 signes diferents entre majúscules, minúscules i accentuades, registrem entre quines lletres es troben cada un d’ells, comparem les distribucions resultants amb el coeficient de correlació de Pearson, i creem el graf resultant. En lo que segueix, i a semblança del que ja s’ha emprat en altres apunts d’aquest bloc, farem servir per manipular els nostres grafs el programari gephi.

El primer que cal fer és presentar breument les eines d’anàlisi de xarxes que farem servir que són bàsicament dues: la seva disposició espacial i la seva modularitat. El primer considera les connexions entre els nodes com forces atractives/repulsives, i el que fa és: a partir generalment d’una disposició del nodes inicialment aleatòria, cercar una distribució que minimitzi les disparitats entre els factors de connexió i la separació entre els nodes[4]. El segon, és de natura purament topològica i cerca definir els grups de nodes que presenten una taxa d’interconnexió superior a la resta del graf. No entrarem a parlar en profunditat sobre la natura i l funcionament d’aquests mètodes (tot i que és un tema apassionant), per dos motius, ni és el lloc, ni les eines disponibles permeten gaires opcions. Anant a lo concret, per el que fa a la disposició espacial (en 2 dimensions, per poder-ho representar gràficament de forma fàcil), s’empraran els algoritmes ForceAtlas o ForceAtlas2, i per el que fa a la Modularitat, gephi aporta un únic algoritme, ben conegut, i atès que és una mesura relativa i que permet diferents graus d’agrupació el que farem és realitzar tot una sèrie de mesures en aquesta gradació natural (pensem que en un extrem, tots el nodes connectats d’un graf es poden considerar un únic grup, i en l’altre, cada node pot formar un grup propi). La mida dels nodes representarà la suma de les correlacions vers les altres lletres, i cada graf es presentarà en format gràfic (jpg) i en versió svg, que permet un zoom discrecional a gust de  l’usuari.

De manera que en el corpus català, en una primera disposició tenim 58 lletres/nodes connectats cada un d’ells amb tota la resta, és a dir, un graf amb 58 nodes i 1.652 connexions. Si mirem els factors de correlació (les connexions) veurem que segueixen d’aprop els resultats que es detectaven el cas del corpus ibèric: un factor màxim de 0.76, un mínim de -0.06 i amb poc més de 400 valors superiors a 0.1, és a dir, amb una majoria de valors al voltant del 0 (recordem que el factor de correlació de Pearson es mou entre 1 i -1). El fet que cada node es connecti a tots els altres fa que topològicament sigui una xarxa molt regular, sols els diferents valors de les connexions aporten factors de diferenciació. I en aquest sentit, el fet de tenir factors negatius, fa que la seva representació gràfica amb els algoritmes ‘de força’ sigui complicada, ja que tenen tendència a donar disposicions molt disperses. Finalment, amb l’algoritme ForceAtlas i ajustant els seus paràmetres s’ha pogut generat una disposició mínimament aprofitable.

58 lletres, 1.653 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

On podem veure clarament un grup en la part superior format per les consonants, amb les majúscules en la part superior i les minúscules en la part inferior (recordem que en el text del corpus les majúscules segueixen l’ús habitual, en inici de frase o de nom propi).  Més enllà d’aquest grup, podem observar a l’esquerra un grup dispers format bàsicament per les vocals en majúscules i en la part inferior esquerra un d’encara més dispers amb les vocals en minúscules. S’aparten d’aquesta descripció bàsica en la part superior la Q i la q, que apareixen en la part superior, i les u, ü i ú, que s’apropen més al grup de les vocals majúscules que no pas a les de les minúscules. Sembla lògic pensar que tal disposició és deguda a que les velars acostumen a anar seguides de u, i en la lluita per situar-se, les primeres han hagut d’anar a la perifèria mentre que les segones han hagut de cercar un equilibri entre acostar-s’hi i no separar-se de la resta de vocals. Ara, també sembla ben evident que les agrupacions per distribució de forces no van gaire més enllà d’evidenciar la diferenciació entre majúscules/minúscules i vocals/consonants, cosa que pot semblar poc important, però si pensem que el resultats no depenen d’informació filològica, sinó estrictament numèrica, distribucional, tampoc està tant malament.

Mirem ara l’altra estimador, la Modularitat. En la implementació de gephi, l’algoritme disposa d’un paràmetre per graduar al grau de granularitat que es desitja, diguem-li P (1, per defecte, major per tenir menys grups, menor per detectar-ne més). No tenint a priori cap pauta específica per fixar el seu valor, el que farem serà aplicar-lo de forma sistemàtica: amb dècimes entre 0.1 i 1 i un cas de valor 2 afegit. Per tal de visualitzar els resultats, sobre la mateixa disposició espacial, cada grup detectat tindrà un color propi (el programa els assigna aleatòriament). Anant de menys grups a més:

P=2. 2 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un valor P de 2, tenim que es detecta un grup (en vermell) format sols per vocals i un altre (en blau) per a la resta de lletres, que inclou les consonants més les vocals i, ï í, u, ü i ú més la à i la ó, situades a mig camí del grup consonàntic.

P=1. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el nivell de partició per defecte (P=1), tenim un grup blau format per les consonants en majúscules (exclosa les B i X i inclosa la q), un grup verd format per vocals (tret de la ü, u, ï i ó) i un grup vermell amb les consonants en minúscules (més les sis excepcions ja descrites).

P=0.9. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.9 els grups ja són quatre i corresponen a grosso modo amb l’encreuament de vocals/consonants i majúscules/minúscules, però amb excepcions interessants. Els grups de consonants del graf anterior (blau i vermell) bàsicament es mantenen, però el de les minúscules perd les us que passen al grups de les vocals en majúscula (en lila) i la i, í, à, ç, i la j, (aquesta especialment curiosa per la seva posició central en el grup de les consonants) que val al grup de vocals en minúscula (en verd).

P=0.8. 4 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixar el factor a 0.8 no incrementa el número de grups però si n’altera significativament la seva disposició, cosa que fa pensar que l’estructuració interna de les dades no és simple. De fet, hem tornat a la partició en tres grups del P=1, però amb un grup nou format per: u, ü i s, i amb una ó que ha passat, ara sí, al grup vocàlic.

P=0-7. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb un factor de 0.7 el nombre de grups creix a 5, però més que res, a base de subdividir les consonants en minúscules, mentre que les vocal encara conserven un gran grup.

P=0.6. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Per sota de 0.6, la fragmentació de les consonants i de les vocals ‘a mig camí’ anirà en augment fins arribar als 23 grups amb un factor de 0.1, sense que sigui evident cap raó extracomputacional que justifiqui la separació en tals grups (potser un filòleg hi pugui veure més…).

P=0.5. 14 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg..

El que sí és manifest que es manté en tota aquesta gradació és la presència de dos grups vocàlics, un especialment ben definit per a les majúscules i un de més variable per el que fa a les vocals en minúscula.

De moment, veiem que en el cas del català, una mesura segons el coeficient de Pearson tradicional ens detecta la separació entre vocals i consonants i entre majúscules i minúscules i poca cosa més. De moment, la cosa no pinta gaire bé per el que fa a separar variants segons la seva distribució…

Però també és evident que el corpus català és força diferent de l’ibèric; minúscules i majúscules tenen rols ben diferenciats i els signes són unívocs (no hi ha -gaire- superposició de rols entre les lletres). L’ibèric sembla molt diferent, ja que en teoria presenta més d’una i més de dues maneres d’escriure una mateixa lletra i a penes fa servir la separació per espais (si però la de puntuació). El que farem serà ‘iberitzar’ el corpus català. Ho passarem tot a minúscules, eliminarem els espais, i de forma aleatòria, introduirem fins un màxim de tres variants de cada lletra, és a dir, tindrem fins tres  as (etiquetades com: a, a+, a-), tres bs, etc.

El resultat és un graf plenament connectat amb 102 lletres/nodes i per tant, amb 5.152 connexions (correlacions entre signes), un valor màxim de connexió de 0.7, un mínim de -0.11 i amb un miler de connexions per sobre d’un 0.1 i gaire bé la meitat amb valor negatiu.

102 glifs, 5.152 connexions disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

La disposició espacial del graf és francament pobre. En el cas anterior, jugant amb els paràmetres encara s’havia pogut trobar una configuració raonable, en aquest, i probablement degut a la influència dels valors negatius, els algoritmes oscil·len salvatgement entre unes disposicions estiradíssimes, que fan de molt mal llegir o únic amàs molt regular; finalment, ha semblat millor capturar un dels moments intermedis.

A l’extrem dret tenim majoritàriament les vocals sense accent, i en el grup principal es poden discernir sense massa esforç a la banda esquerra les consonants continues, a la dreta les vocals accentuades i en mig les oclusives. De fet, no és pas gaire difícil veure que les ternes de variants introduïdes artificialment en el corpus sí s’ajunten entre sí en el graf. En l’extrem dret, tenim les variants de a, e i o. En la part dreta de l’amàs gran, troben les is i en la d’abaix, les us. En l’extrem esquerra del graf, les ms, ns, ss, ls, rs, en la part dreta les és, òs, ós. Mentre que en la part central les oclusives són les que mostren una agrupació més laxa. El que no fa el graf és individualitzar els triplets de cada lletra. En conjunt, doncs diríem que encara que en la disposició espacial el dibuix és força desagraït, sí sembla evident que la organització quantitativa mesurada per la correlació de Pearson sí és capaç de reflectir realitats de caire filològic. Mirem a veure que tal respon amb les mesures de modularitat.

P=2. 3 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el coeficient més elevat, es detecten tres grups que corresponen a les us, excepte les d’accent tancat (en vermell), a la resta de vocals més les ys i les qs però sense les ós i les ïs (en verd) i en blau la resta, tot consonants tret de les excepcions enumerades.

P=1. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el valor per defecte de 1. l’algoritme detecta 5 grups. En vermell els triplets de n,l,s,u,ü,ï i ú. En rosa, els de m,d,b,r,t,x,q,g,ó,f i dues de les z. En verd, els de p,v,c,h,ç,i,j i una ú. En groc un grup dedicat a les ys. I en blau els triplets de les altres vocals. És de remarcar que en les agrupacions de detectades es mantenen junts els triplets de les variants, tret d’unes poques excepcions.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A 0.9, es detecten 7 grups. En blau clar els triplets de n,r,l,s,u,ü,ï, dues de les ús. En rosa, les d,m,p,t,f,b i dues de les zs. En blau fosc, les v,c,h,j,ç,à, una de les z i una de les ú. En verd fosc, els triplets de g i q. En groc els de y i é. I en verd clar els de les vocals a,e,o a l’extrem, i i,è,ò,í a tocar de l’amàs gran. Els triplets es continuen mantenint agrupats, tret dels cas de les zs i ús, que són lletres certament poc freqüents.

Si mirem de resumir la seqüencia que continua, direm que les tripletes es mantenen unides fins el factor de 0.4.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Aquí tenim 17 grups on 10 d’ells corresponen als triplets aïllats de: l,r,m,v,c,t,f,b,p, i y, més un grup per les ss i una de les ús. Un gran grup per les a,à,ç,e,é,è,i,í,o,ò i una de les js.  Un per les d i zs. Un per les ï,n i una de les ús. Un per les ó i x. Un per les g,q i un per les l,u i ü. I finalment, un per les h, més un parell de js i una ú.

Per sota de 0.4, continuen creixen el nombre de grups però a costa ja de partir els triplets de variants.

P=0.3. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Resumint i simplificant: mesurant per el grau de correlació de Pearson, en el cas el català ‘iberitzat’ es poden arribar a detectar aïlladament les variants de les consonants continues i de les labials, les vocals es detecten com a grup, no individualment i les velars es detecten però no es distingeixen entre elles. No està gens malament, però cal recordar que això passa en un corpus amb un grau de dispersió menor que el que es vol estudiar, i per tant, potser menys afectat per el soroll d’una pluralitat d’evidències disperses. Mirem d’anar més enllà.

Dispersions i confiances

Fins aquí, hem estat fent proves amb un corpus, el català, de poc més de 30.000 lletres, que en les seves dues caracteritzacions estudiades (l’original, amb majúscules i minúscules i 58 glifs, i l’iberitzat, sense caixa diferenciada, sense espais i amb fins a tres variants de cada lletra, amb un total de 102 glifs) té un grau de dispersió menor que l’ibèric que per un signari de 200 glifs només disposa d’un corpus de 25.000 lletres. Un dels efectes de la dispersió, si estem utilitzant la correlació de Pearson és que molts valors esdevenen correlacions negatives i a més fets a partir de molts pocs valors. En la part final de l’apunt anterior es va comentar que s’havia intentat un heurisme conegut per tal de mitigar aquest casos però que el seu efecte no havia estat satisfactori. Ara és el cas d’incorporar les millores pensades en aquest aspecte.

La idea general, de nou és força simple: valorem cada factor de correlació entre dos glifs o lletres segons el nombre de parelles comuns entre les que apareguin.

Podem visualitzar-ho com dos segments rectilinis, un per cada lletra. Suposem que el glif X, es detecta entre 20 parelles de signes i que el glif Y ho fa entre 30 i que ho fan conjuntament en 10 parelles. En aquest cas, el nombre total de parelles amb evidència serà de 40 (20+30-10), o geomètricament: els dos segments es sobreposen en 10 unitats. Imaginem ara un altra cas, on els glifs A i B es detecten cada un entre 20 parelles, però amb 18 d’elles comunes. El factor de correlació entre XY, tenia un 25% de factors en comú (10 de 40) i el de AB en tindrà un 81% (18 de 22). Sembla raonable pensar que si dos glifs apareixen entre les mateixes parelles de signes, la seva mesura sigui més ‘fiable’. Entenguis bé, la correlació pot ser alta o baixa, el que estem introduint és un factor de ‘confiança’ en la mesura. De manera que podem multiplicar la correlació de Pearson entre XY per el percentatge de parelles comunes, diguem-li E; sent un factor normalitzat a 1, el seu efecte numèric serà deprimir el valors però no en canvia ni el rang ni el signe.

Però si ho pensem una mica més, també veurem que no hauria de tenir el mateix valor o generar semblant confiança dos percentatge de parelles comunes iguals (per exemple entre CD i entre VW) si la primera es basa en tenir 2 parelles en comú i la segona en tenir-ne 30. Eś a dir, la magnitud també hauria de tenir-se en compte, i per poder-la normalitzar entre 0 i 1, podem escalar-la segons el valor màxim que es doni en el corpus, diguem-li: Q.

Així que tenim dos coeficients de ‘confiança’, el percentual E i el de quantitat Q, una manera típica de combinar dos factors normalitzats, i molt emprat en problemes classificació estadística, és la anomenada F-mesura, diguem-li, F, que les combina així: F=(2EQ)/(E+Q). Funció que dibuixa una superfície corba on només es donen valors alts si els dos factors, E i Q són alts.

La idea va ser doncs multiplicar la correlació de Pearson per aquests factors, fent una primera prova per E, i una de posterior per F. En teoria, la de F hauria de ser preferible (la de E ignora les magnituds i pot ser fruit d’una evidència marginal), però aquestes primeres temptatives sobre el corpus ibèric van revelar que E s’ajustava millor a les evidències conegudes…?! Raonant sobre aquesta aparent contradicció, l’explicació que sembla més probable és: la dispersió de les dades fa que moltes correlacions tinguin un nombre baix de parelles comunes, és a dir de factors Q baixos, de manera, que tot i haver-ho dissenyat per mitigar els efectes de la dispersió, la mesura F l’hi torna a donar un paper predominant; d’aquí probablement que l’ús de E sembli tenir millors resultats en la pràctica.

Però l’ús d’aquests factors de ‘confiança'(ja sigui E o F) té un efecte profund sobre el graf resultant, ja que si dos glifs no tenen cap parella en comú, la correlació serà de 0, i per tant no hi haurà connexió entre ells. A més els valors es veuran disminuïts per els coeficient de confiança, i per acabar-ho d’adobar, en les probes s’ha vist que el programari gephi no discerneix en les connexions més enllà de les mil·lèsimes, de manera que finalment s’ha dissenyat un sistema que permeti filtrar les connexions per sobre d’un cert valor de tall. Tot plegat, fa que ens podem trobar amb nodes sense cap connexió (pensem en els casos dels hàpax), així que a partir d’ara tindrem grafs amb connexions positives però baixes i de topologia no del tot regular (això es posa interessant…).

Començarem per comparar com es comporten E i F en el corpus català, i com que l’objectiu és aplicar-ho després al corpus ibèric, ho farem amb la seva versió ‘iberitzada’ de tres variants per lletra.

Confiança E

Provem primer amb el factor de confiança E, (i per defecte, amb el factor de tall del propi programari de gephi, 0.001). El resultat és un graf amb 99 lletres en comptes de les 102 ‘variants’ que teníem abans (s’han perdur per manca de connexions positives superiors a 0.001, dues ús i una ó) i ‘només’ 1.297 connexions en comptes de les més de 5.100 dels grafs plenament connectats que hem estat provant fins ara. Les connexions es mouen entre un màxim de 0.46 (aquí es veu l’efecte depressiu de la mesura de confiança) i el mínim prefixat de 0.001 amb poc més de 60 connexions per sobre del 0.1 i una gran majoria en valors baixos.

99 glifs, 1.297 connexions positives i superiors a 0.001 del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Com es pot observar, a diferencia del graf anterior, aquest presenta una estructuració força més clara i fins i tot es poden apreciar ternes de variants aïllades. L’agrupació de la part superior correspon a les consonants (amb n,s,m,r,t,d,v i l en la part nuclear i f,b,p,q,h i j en la corona superior, i  z,y,ç,x i ó,u,ï disposades en franja en la part central del graf), mentre que el gruix de les vocats es troben en la part inferior i no agrupades en un únic amàs, tot i que sí es distingeix clarament l’agrupació de les variants de a,e, i o, i aïlladament, les i , les ü i finalment un grup dispers formats per les variants de è,é,à,ò i í. Sembla innegable que l’estructura espacial del graf reflecteix informació de natura alfabètica Passem a la Modularitat.

P=2. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

En el nivell d’agrupació més alt (P=2) tenim un grup amb les ternes de u i ü (en groc), un per les de la q (en lila), un ‘estrany’ només amb una variant de ï i una de ú (en vermell), i dos grups grans: un de consonants (en verd) que les conté totes, tret del grup de les q i una variant de ç però que també abraça les dues ós. una variant de ï i les ys. I finalment un grup de vocals (en blau) que també les conté totes tret de les ja esmentades en els altres grups però també incorpora una variant de ç.

P=1. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb el factor P a 1. l’estructuració anterior es manté idèntica però apareix un grup partint les consonants (en vermell) que diferencia les ternes de m,r,s,l,n amb una variant de z i una de ï; de nou, categories d’àmbit fonètic detectades numèricament gaire bé de manera exacta.

P=0.9. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Baixant P a 0.9, apareixen nous grups de ternes. Es mantenen els grups de les us, el dels qs i l’estrany d’abans (en morat, blau clar i verd-groc) , però els altres grups es veuen alterats. En les vocals apareix un grup per a les ternes de a, e, i, o i è (en vermell) i la resta del grup vocàlic d’abans (ara en verd) s’expandeix per incorporar la terna de les y i dues de les ç. I en la part de les consonants, si abans s’havia partit en dos, ara ho ha fet en tres. El gros, (abans en verd ara en ocre), un (en rosa) per les ternes de ts i ss més una variant de f,z, i g, i un tercer grup consonàntic amb les ternes de l,m,n,r i una variant de j i una de ï.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P a 0.8 es manté la divisió en 8 grups. El canvi principal és que el grup que abans tenia les as,es,etc (en lila) ara incorpora també la terna de les és i dues de les às. I en la part consonàntica el grup de ts i ss (en blau fosc) es perfila millor reduint-se a les seves ternes i una variant aïllada de z.

P=0.7. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7 eleva en nombre de grups fins a 10. En les vocals, el grup (en rosa), de les as i es, torna a perdre les és i às que havia guanyat en el nivell anterior, i l’altre grup de vocals (en vermell clar) torna a perdre les ys i una variant de ç. Es mantenen els grups de les us, les qs i l’estrany, mentre que els nous grups apareixen en les consonants. Ara tenim un grup (en vermell) per la terna de les ss mes una de les zs, un per les rs (en groc), un per les ternes de m,n i l (en blau clar) i dos grups grans més dispersos: un en blau focs amb les ternes de d,c,p,b,j i dues de les variants de f i de g. i l’altre (en ocre) amb les ternes de t,v,x,y, parelles de çs, ós i zs i una variant aïllada de f i de g.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Amb P=0.6 el nombre de grups creix fins el 15, però comencen a aparèixer agrupacions inesperades. Els grups petits i els de les vocals es mantenen (tret del de les accentuades que perd una variant de à), però entre les consonants, si bé es continuen detectant grups basats en ternes, apareixen un parell de grups no menors que agrupen ‘menes’ de variants: en taronja tenim un grup amb la variant sense marca de b,c,d,f,g,h i j, i en verd clar un amb les variants del signe + de b,c,d,f,g,h més una variant de ç. Amb tot, la resta de consonants sí presenten agrupacions més a o menys clares. Un grup (en rosa) amb les ternes de l i m. El grup de les ss i una de les zs. Un per les qs, un per les ps, un per les ns, i un grup amb les  ys, ts més una variant de c,f,i g. Ara, que la modularitat detecti agrupacions per menes de variants és extraordinàriament significatiu, tota vegada que és una regularitat introduïda artificialment en el procés de creació de tals variants, ja que s’ha mirat de tenir quantitats similars de cada mena (en el moment de convertir de lletres a codis, per a cada lletra s’ha llençat – metafòricament parlant – un dau de tres cares i s’ha assignat la variant d’aquella lletra en particular al seu resultat). En altres termes, que la modularitat detecti aquesta regularitat induïda, vol dir que ha de ser superior a la pròpia de les distribucions, i si tenim en compte que aquesta regularitat no afecta a la aleatorietat de la seva distribució, això vol dir que estem mesurant soroll, caçant mosques – metafòricament parlant – i que incrementar la sensibilitat de la modularitat aportarà més grups però no més informació, i efectivament això és que el tenim per sota de P=0.6.

P=0.5. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4. 18 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3. 21 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2. 24 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

Podríem pensar que és una limitació pròpia del mètode, però vèiem que en la mesura per correlació de Pearson ‘pelada’, si es podien arribar a detectar un nombre no pas petit de tripletes sense que la regularitat de tenir parts iguales de cada mena de variant semblés afectar. És llavors que revisant aquest darrer pas, que s’ha considerat que de fet, hem aplicat un canvi doble: emprar el factor de confiança E, que certament disminueix els coeficients, però també l’eliminació de coeficients inferiors a 0.001 per la limitació de l’eina de grafs que estem fent servir, però potser hem anat massa lluny, i la informació de les correlacions negatives sí siguin necessàries per la detecció per la modularitat. De manera que cal provar que passa si només evitem les connexions entre +0.001 i -0.001. Si feta la prova, la modularitat presenta la mateixa limitació, indicarà en principi que hem topat amb un límit del mètode d’aplicar el factor E (a menys que sigui l’atenuació del coeficients la responsable, però costa creure que sigui un problema d’escalabilitat).

El resultat és un graf amb els mateixos 99 nodes/variants però amb 1.628 connexions. El fet de tornar a incorporar connexions negatives aporta el problema de l’estabilitat de les disposicions per ‘distribució de forces’, per això, aquest cop ens hem decantat per la variant ‘regular’ de l’algoritme.

99 glifs, 1628 connexions del corpus català iberitzat i modulat per el factor de confiança E i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Un simple cop d’ull permet veure que la majoria de ternes es disposen certament properes entre elles, encara que no individualitzades (com ja vèiem en la mesura per Pearson pur). Per no repetir la descripció detallada de l’evolució dels resultats de la partició per modularitat, diem que tot i tenir 400 connexions negatives més que el previ, respon de forma gaire bé idèntica al anterior. Entre P=2 i P=0.5 detecta agrupacions clares de ternes de vocals i consonants.

P=2.. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1.. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9.. 6 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8.. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7.. 10 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6.. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

I quan arriba a 0.6 apareixen els mateixos grups no de ternes sinó de ‘menes de variants’, i així continua fins P=0.2, mantenint bé sí algunes ternes però amb presència de grups espuris, i a P=0.1 es trenquen també algunes de les ternes que s’havien mantingut estables en tota la gradació.

P=0.5.. 17 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4.. 20 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3.. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2.. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1.. 30 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

O sigui, queda clar que no és el fet d’incorporar o no les connexions negatives les que produeix aquest efecte de ‘barrera’ en la modularitat si apliquem el factor de confiança E.

Confiança F

Provem ara doncs el factor F (amb connexions superiors a 0,001, ja que sembla que no afecta de forma significativa la pèrdua de connexions negatives i sí produeix unes disposicions espacials més expressives) i si ens tornem a trobar amb aquest fenomen en la modularitat, caldrà pensar que es tracta d’un efecte de la depressió en la magnitud del valor de les connexions que provoquen aquests factors de confiança. En aquest sentit, el graf redueix encara més el nombre de nodes/ lletres i el deixa a 94 ja que s’han quedat sense connexions ï-,ó-,z,z+,z-,ú,ú+,ú- (com dèiem, el factor F sols dóna valors alts si E i Q són alts, i per tant, en general te un efecte depressor més intents) i amb un total de connexions superiors a 0.001 de 1.274, i és el següent:

94 glifs, 1274 connexions superios a 0.001 del corpus català iberitzat i modulat per el factor de confiança F i disposats amb el ForceAtlas.
Cliqueu per gràfic de mida real o alternativament en format svg.

Quina diferència!!! Aquest graf d’aspecte anodí, mirat amb cura revela ser extraordinari. No sols presenta la més clara separació entre vocals i consonants (i entre menes de vocals i de consonants) calculada fins ara, és que presenta TOTES les ternes de variants correctament agrupades i properes entre elles (tret de la variant ò que està lleugerament més allunyada de les seves companyes). Quelcom més que remarcable. Aquí tenim un corpus de 30.000 lletres, amb un signari de 102 glifs però 34 caràcters, reduït a un esquema que en retrata perfectament més del 90% en la seva disposició espacial calculada exclusivament a partir de les semblances entre les seves distribucions. Només per aquest graf ja paga la pena tota la feina feta fins aquí!

Però mirem si la modularitat pateix o no d’aquell efecte barrera que es donava amb el factor E. Per tal de no repetir la descripció de cada nivell de granularitat es fixarem especialment en si les grups que marca parteixen o no ternes de variants.

P=2.0. 5 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

A P=2, tenim 5 grups, separació vocals/consonants en grups grans, grups petits coherents, 1 terna partida (la de la ò), 1 terna individualitzada.

P=1.0. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=1. Igual, amb més grups coherents, 1 terna partida, 1 terna individualitzada.

P=0.9. 7 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.9, mateix nombre de grups, partició lleugerament diferent, 1 terna partida, 1 terna individualitzada.

P=0.8. 8 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.8, 8 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.7. 12 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.7, 12 grups, tots coherents, 1 terna partida, 1 terna individualitzada.

P=0.6. 15 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.6, 15 grups, tots coherents, 1 terna partida, 5 ternes individualitzades.

P=0.5. 16 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.5, 16 grups tots coherents, 1 terna partida, 7 ternes individualitzades.

P=0.4. 19 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.4, 19 grups tos coherents, 1 terna partida, 9 ternes individualitzades.

P=0.3. 23 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.3, 23 grups, 5 ternes partides, 11 ternes individualitzades.

P=0.2. 26 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.2, 26 grups, 5 ternes partides, 14 ternes individualitzades.

P=0.1. 31 grups.
Cliqueu per gràfic de mida real o seguiu l’enllaç per format svg.

P=0.1, 31 grups, 8 ternes partides, 9 ternes individualitzades.

Ni rastre de les agrupacions per menes de variants, i a més, un comportament magnífic fins els nivells de granularitat més elevats (fins 0.3 es manté una única terna mal detectada, que ho és en tots en nivells provats i que fa pensar en una situació particular com també presenta la seva disposició espacial lleugerament desviada) i tot i que les deteccions directes de ternes aïllades per modularitat són modestes, és a dir, que la majoria ajunta en un mateix grup més d’una lletra, el fet rellevant és que les particions rarament trenquin les ternes, i per tant dibuixin grups que es poden analitzar bé.

Arribats en aquest punt, queda clar que la correlació de Pearson modulada amb el factor de confiança F i eliminant les correlacions negatives dóna en aquest corpus uns resultats extraordinaris. Ara, la pregunta és: com es comportarà amb el corpus ibèric que és bastant mes dispers? Però aquest apunt ja s’ha fet massa llarg de manera que el tanquem i n’obrirem un altre per comentar-ne els resultats a mida que es vagin produint.

– Actualització 2017-III-14 –

Encara que ja s’està escrivint el tercer apunt d’aquesta inesperada sèrie, ha semblat convenient afegir el que segueix a aquest per què expandeix els seus continguts i per claredat en l’exposició.

Les divisions per modularitat que s’estan emprant en aquestes proves generen una gran quantitat d’informació, que resulta difícil de captar en conjunt. El dibuix del graf per codis de colors és molt útil per una partició en concret, però no per una mirada en conjunt. Rumiant com fer visible aquesta superposició de particions, s’ha dissenyat un mètode que pot ser d’utilitat en la problemàtica concreta que estem tractant aquí.

Per variar, la idea és simple: Si fem un conjunt concret de particions,  ens podem situar en cada un dels nodes del graf, apuntar amb quins altres nodes es veu ajuntat en cada una d’aquestes particions i així construir una llista de nodes ‘propers’, cada un amb una quantitat concreta de grups on es documenta.

En el cas que ens ocupa, hem fet fins a 11 particions, el que farem serà presentar la llista de nodes de cada graf d’aquest apunt, i per cada un, al seu costat els nodes més ‘propers’ (es a dir, de tota la llista, sols els que tenen el nombre més alt de particions en comú). En vermell, anirà el nom del node, i en negre els nodes acumulativament més propers (a més, la mida del font reflectirà també aquesta quantitat).

Per el primer graf, el del corpus en català original, el resultat és:

Mapa d’acumulació de grups per modularitat del corpus català, per coeficient de Pearson.

En aquest primer cas, en no tenir variants a detectar la utilitat del mapa és molt relativa. Sí però permet objectivar que les lletres més properes a una determinada sí tenen la mateixa caixa i que segueixen més o menys la separació vocal/consonant.

El segon, el del corpus iberitzat i connectat per la mesura de Pearson, tenim:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson.

Aquí sí que ja podem avaluar si cada variant té o no les altres en el grup de nodes més ‘proper’. En aquest cas, per exemple, es fa evident que les vocals resulten indiscernibles entre elles per aquest mètode.

La tercera prova feta ha estat el mateix corpus però amb el factor de confiança E i connexions superiors a 0.001, el seu mapa és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001.

Aquí la separació millora, (les vocals per exemple, es diferencien millor, tot i que la a i la e continuen ajuntant-se) però hi han mancances evidents en les consonants.

Afegir-hi els factors negatius ha estat la quarta prova feta, i el seu map resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson, i amb factor de confiança E i connexions > 0.001 i < -0.001.

Que presenta les mateixes mancances que la prova anterior amb només factors positius.

La darrera prova ha estat fet servir el factor F, també amb connexions > 0.001. El mapa resultant és:

Mapa d’acumulació de grups per modularitat del corpus català iberitzat, per coeficient de Pearson,  amb factor de confiança F i connexions > 0.001.

On podem comprovar que efectivament, gaire bé totes les variants tenen entre els nodes més propers els d’altres variants. La indefinició, (en el sentit que al costat de nodes de variants també trobem nodes aliens) es concentra en algunes de les variants de: a,c,ç,ï,j,n,ò,ó,s,t,u i x. En total, dels 94 glifs del graf, 24 presenten alguna vacil·lació, o dit altrament, un sistema de detecció automatitzada de variants, en aquest corpus, en detectaria correctament com a mínim un 75%.

 


Notes

  • [1] A nivell estructural, cathalaunia.org sembla un creuament entre un wiki i una base de dades. Una forma aproximada i incorrecta seria definir-lo com una base de dades XML amb una presentació web, una de més correcta seria dir que és un programa que pot exportar els continguts que presenta en format XML.
  • [2] Quelcom que els analistes i programadors, i en general al gent del món de la computació fa, com diem, de manera constant i natural. A les solucions genèriques se les acostuma a descriure com ‘lliures de domini’ per expressar que funcionen sense aportacions de cap domini del coneixement aliè al matemàtic. Altra cosa és que a nivell pràctic les tècniques més fructíferes usualment neixin del creuament de tècniques genèriques o ‘lliures de domini’ amb coneixements del ‘domini’ dels problema a tractar. Un exemple relativament recent: en el camp del tractament informatitzat de la veu humana, no s’ha avançat de forma significativa en la seva síntesi fins que no s’han emprat models que reprodueixen els sistemes fonadors biològics. De nou, el principi general i la seva particularització (variant els paràmetres que defineixen el model ens podem aproximar més o menys a la ‘particularitat’ de cada una de les veus existents en la natura)
  • [3] Una altra millora ha estat l’eliminació d’epigrafies duplicades. En el corpus inicial hi havia aproximadament un 1% d’entrades que eren relectures o simples duplicacions d’altres entrades. En l’actual, han estat eliminades (tot i que no es descartable que n’hagi escapat alguna).
  • [4] Com que les connexions no tenen perquè formar una mètrica, la seva disposició no té per què ajustar-se a les restriccions d’un espai euclidià (per exemple: tres punts formen sempre un triangle i en un tal espai els angles interns hauran de sumar 180º, però si en comptes de longituds estem parlant de connexions, això no s’ha de complir).
Publicat dins de català, cathlaunia.org, coeficient de Pearson, comparació de variants, detecció de variants, epigrafia ibèrica, estadística, F-mesura, ForceAtlas, ForceAtlas2, Gephi, ibèric nord-oriental, Iberika, modularitat, Signari ibèric | Etiquetat com a , , , , , , , , , , , , , , | Deixa un comentari

2017-febrer a cathalaunia.org

De cop, final de mes. Febrer ha estat un mes ibèric a cathalaunia.org, més del que es preveia.

El web ha rebut una millora global en forma de sistema de navegació entre les dades que es presenten. Com és manifest, és l’objectiu de  cathalaunia.org publicar un seguit de dades objectives sobre la història de Catalunya anterior al segle XII. I per fer-ho defineix i agrupa una sèrie de tipologies de dades, ja siguin: documents altmedievals, epigrafies ibèriques, bibliografia sobre el període visigot, antroponímia altmedieval o el que sigui, i per cada tipus, un conjunt de pàgines numerades, una per a cada ítem rellevant en la seva classe. La millora consisteix en uns botons de navegació en forma de fletxa situats en la part superior esquerra cada ítem, que amb un sol clic, permeten anar al extrems (primer o darrer) o als ítems immediats (previ o següent) del conjunt de dades que s’estigui consultant en un moment donat. És una millora aparentment simple i que feia temps que es volia incorporar, però que no ha trobat la manera adient de fer-la realitat fins aquest mes.

Aquest bloc ha tingut una entrada dedicada a descriure un mètode quantitatiu per mesurar el grau de correlació existent entre les ‘variants’ d’un mateix ‘caràcter’ del signari de l’ibèric nord-oriental (segons les agrupacions fetes per els filòlegs) atenent entre quins glifs es troben. No estava pas previst, però sorgí la idea i calia fer la prova. El resultat és que es poden documentar graus de correlació de Pearson positius (però baixos, la majoria per sota 0.5) per a 89 glifs del signari que s’agrupen en 24 ‘caràcters’. La dispersió de les dades (a prop de 200 glifs en un corpus de menys de 25.000 lletres) fa que – si més no de moment – no es pugui parlar d’evidències gaire clares, tret d’uns pocs glifs.

La Secció Ibèrica i Romana ha concentrat la feina. Per una banda s’ha incorporat un nou gruix d’esquemes d’inscripcions per tal de validar els continguts presentats, i ja són més de dos terços les epigrafies que disposen d’aquest mecanisme. També hi ha hagut la prova estadística comentada abans, sobre l’evidència real de les agrupacions sígniques actuals. A més ja ha aparegut el volum del 2016 de la revista Paleohispànica i cal incorporar les novetats epigràfiques registrades (tot i que en aquesta vegada, una bona part ja estaven presents en el corpus). I per si fos poc, altres obres d’aquest mateix any documenten desenes de noves inscripcions que també caldrà incorporar. De manera que semblava al començar el mes que amb quinze dies endreçàvem la carpeta ibèrica, i arribats a fi de mes encara hi ha un munt de feina per fer. Ars longa, vita brevis

A darrera hora s’ha decidit incorporat una millora programàtica en el mecanisme de cerca del corpus epigràfic i detecció de seqüències. Esperem haver-ho fet bé, però si es detecta alguna disfunció inesperada, s’agrairà que es faci saber per tal de corregir-ho el més ràpid possible (la cerca en el corpus és una de les sub-seccions més actives).

La secció de l’Alta Edat Mitjana i en especial el Fons Cathaluania són els grans absents del més. Hi han millores puntuals però s’esperava que si més no en la segona mitat del mes ja es pogués tornar a dedicar-s’hi plenament; no ha estat així. Afortunadament, el poc que hi ha hagut ha estat de qualitat, encara que no tingui per ara visualització.

La Bibliografia del mes reflecteix el predomini ibèric i les noves aportacions han compensat les lectures  fetes, de manera que la cua de ‘pendent de llegir’ continua en els 360 títols (no hi ha manera que baixi…).

Com és habitual, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.684 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathlaunia.org, Fons Cathalaunia, Iberika | Etiquetat com a , , , | Deixa un comentari

Variabilitat sígnica de l’ibèric nord-oriental.

Havent acabat -momentàniament- la incorporació d’esquemes a les epigrafies en ibèric nord-oriental del corpus de cathalaunia.org, i abans de passar a incorporar un conjunt de glifs nous als 188 actualment existents que aquesta tasca ha propiciat, un pensament s’ha colat inesperadament en els plans d’activitat prevists i ha obligat a fer-ne cas tot alterant la planificació esperada. És el que té la curiositat: quan pica t’has de rascar. D’això parlarem aquí, i com es pot veure en el títol, té a veure amb la diversitat del signari ibèric nord-oriental.

La idea directriu del corpus epigràfic ibèric de catahalaunia.org, com també ho era del seu corpus germinal, el de ibers.cat, és reflectir informàticament la varietat del signari ibèric original i evitar estudiar les dades a partir de transcripcions del seus (suposats) sons. Na Carme J. Huertas definí originalment una codificació amb poc més de 135 glifs (la idea és assignar un número únic a cada glif), i aquesta és la que s’emprà inicialment a cathalaunia (tret d’unes poques variacions en la codificació de les discontinuïtats i dels signes desconeguts). Posteriorment, es publicà la proposta de codificació Unicode de l’ibèric nord-oriental per el grup LITTERA de la UB, que definia uns quants glifs més (metrològics, i un parell de variants)[1]. Encara en un tercer moment i a partir dels comentaris fets a una anàlisi sobre las co-aparicions de variants publicat en aquest bloc, es qüestionà la fiabilitat de les dades del corpus, motiu per el qual es decidí incorporar els esquemes, les representacions gràfiques, de cada una de les epigrafies presents en el corpus com a mecanisme de verificació pública i matar d’arrel tota possible crítica en aquest sentit.

En una primera tongada, s’incorporaren gairebé el 50% de les inscripcions i es pogué comprovar que la taxa d’errors (signes mal transcrits) era baixíssima (menys de 15 signes no coincidents en més de 1.500 epigrafies). El que també es constatà, fou la conveniència d’incorporar més variants per apropar encara més la representació informàtica a l’original, que és, com dèiem, l’ànim inicial del corpus. Les novetats tenien dues tipologies ben diferenciades: o bé eren signes desconeguts (hàpax) o bé variants noves de signes ja coneguts. Els hàpax lògicament són aparicions puntuals de signes que fan de mal interpretar, mentre que les variants a afegir, tot i ser poques, sí es poden detectar en un nombre significatiu d’epigrafies, d’aquí la conveniència de la seva incorporació. En total, s’afegiren unes desenes de signes nous fins arribar als 188 actuals[1].

En la segona i darrera tongada d’incorporacions d’esquemes feta, que ha permès superar els dos terços d’epigrafies amb verificació, també s’ha plantejat la conveniència de crear uns quants glifs nous; de nou, unes poques variants i uns quants hàpax més. Però ha estat aquí, just abans de procedir a efectuar un altre canvi en profunditat en el signari (i no és sols crear el nous signes i posar-los als llocs adients de les epigrafies, cal també ajustar totes les eines de tractament informàtic i de cerca) que la idea d’un possible mètode quantitatiu per mirar detectar variants va fer aparició i ha fet aturar momentàniament el treball. Això és el que comentarem aquí, aquest mètode i els seus resultats.

Variants

La idea és simple: si un mateix caràcter, una mateixa lletra, es pot escriure de més d’una manera, cada una d’aquestes ‘variants’ es comportarà de manera semblant a les altres; és a dir, caldria esperar trobar-les en llocs similars.

Concretant-ho. Podem mesurar entre quines lletres apareix, i esperar que si, per exemple, hi han vàries ‘A’s, es trobin cada una d’elles, en general, al costat de les mateixes lletres. No es evidentment un principi d’obligat compliment, res impedeix que dues lletres diverses apareixin al costat d’unes mateixes lletres, ni tampoc és una qüestió de blanc o negre, ben al contrari, la qüestió però, és que sí pot ser un indici rellevant i té la gran virtut de ser perfectament objectivable. Mesurarem doncs per cada glif, al costat immediatament de quins glifs apareix, fent parelles amb el glif anterior i el posterior. És a dir, per a cada glif anotarem quantes vegades el trobem entre una parella de glifs determinats, cosa que ens proporcionarà un vector de nombres per cada glif que podrem comparar entre ells. És en entrar als detalls que la cosa es complica…

Per començar mostrem el signari amb les freqüències de cada glif en el moment de fer aquesta prova:

ibset-6

178 glifs suposadament fonètics.
Mides alterades per mostrar gràficament la diferència entre el més freqüent amb 1565 aparicions i d’els que en sabem només 10 o menys.
En gris els glifs definits però no existents en el corpus.

En principi, si tenim uns 170 glifs, en teoria, tindríem 28.900 possibles parelles, o sigui que per cada glif, anotem quantes vegades el trobem entre cada una d’aquestes 28.900 parelles. Ara bé, el corpus total existent no passa dels 25.000 caràcters, i de mitjana, un glif hauria de sortir només unes 140 vegades, de manera que és evident que la immensa majoria d’aquestes 28.900 parelles no es donaran mai, és dir, tindran sempre un valor 0.  Per mirar de reduir aquests milers de valors a 0, es podia d’entrada ignorar els de les parelles de signes que no es donen mai en el corpus. Això ens deixa amb menys de 5.000 parelles documentades al menys un cop, un nombre encara molt gran si pensem que la majoria de signes es documenten només algunes desenes o algun centenar d’aparicions i que encara seran menys les parelles de signes entre les que es trobin.  Amb tot, era un inici, i per mirar de comparar aquestes distribucions, es pensà en utilitzar el mateix coeficient de correlació de Pearson que s’havia emprat recentment per comparar les distribucions de sons entre el català, el castellà, l’eusquera i el llatí versus el desxiframent actual de l’ibèric nord-oriental[3]. La diferència està en que allí eren uns vectors petits (de 12 valors) i amb una distribució força simple i fàcilment classificable, aquí en canvi, tenim vectors amb milers de valors a 0 i sols uns pocs valors positius, és a dir, que ja d’entrada s’assemblen molt entre ells per tenir tots molt poca informació diferenciable.

Una primera prova va mostrar que una de les peculiaritats de la codificació de cathalaunia tenia uns efectes desproporcionats. Es tractava que en el corpus es codifica tant les discontinuïtats en els suports com els signes no identificats amb un mateix codi (256), que atesa la fragmentarietat de moltes de les inscripcions, resulta ser de llarg el codi numèric més freqüent, i les parelles (abans-després) que l’incloïen eren molt determinants, sense però que aquesta informació sigui de valor per la tasca que aquí ens interessa, que és determinar quines lletres van preferentment després de quines altres. La solució ha estat salomònica: eliminar totes les parelles que continguin aquest codi. Això ha reduït el total de parelles abans-després a 4.251 i és la base inicial sobre la que es van fer les mesures.

El procediment a seguir podria ser -inicialment-:

  1. Busquem els dos glifs (X i Y) amb la distribució de parelles entre les que es troben més semblant, i si efectivament, sabem que es suposen ser variants d’un mateix signe/so, els unifiquem (per exemple, convertint Y en X o viceversa).
  2. Fet això, tornem al pas 1, fins que no hi hagin més candidats a reunificar. A veure fins on s’arriba.

El procediment era simple però implicava la seva repetició desenes de vegades i l’anàlisi dels resultats va acabar recomanant un mètode diferent, com veurem tot seguit.

Una altra de les peculiaritats de la distribució de les dades que afecta directament als resultats era la seva dispersió. El coeficient de Pearson pot detectar factors de linealitat alts entre vectors que no tenen valors en comú i atès que la majoria de glifs apareixen en poques ocasions i de retruc entre encara menys parelles, la probabilitat de detectar aquesta mena de casos era molt alta. La solució, tot i que parcial, de nou va ser salomònica, eliminar de la comparació els 59 glifs que apareixen 10 o menys cops en tot el corpus; això reduí encara més el conjunt de dades, però no n’alterava la seva tipologia general.

ibset-9

El signari ibèric amb els glifs amb 10 o menys aparicions marcats en gris.

Per mirar de visualitzar el que s’està mesurant, imaginem una matriu de 4.251 columnes i 5.886 files, és adir, de més de 20 milions de nombres, on tot són 0s excepte 10.711 caselles, un únic valor positiu per cada 2.000 0s. El que fem és comparar les files de dues en dues (per definició X vs Y és idèntic a Y vs X) i mesurar-ne el grau de correlació lineal entre elles (recordem que el coeficient de Pearson es mou entre 1=correlació lineal perfecta, 0=no correlació, i -1=correlació lineal inversa perfecta). Col·loquialment: gairebé caçar mosques.

Resultats

Feta la primera mesura, els resultats eren clars: de les 5.886 comparacions, sols 205 tenien coeficients superiors al 0.1, mentre que el valor més baix era de -0.05, amb una gran acumulació de valors al voltant de 0, com era d’esperar si pensem que estem bàsicament comparant vectors quasi nuls. Mostrem aquests 205 resultats superiors a 0.1 (ordenats de dalt a baix i d’esquerra a dreta).

pg-0

Els resultats de la mesura sobre els 164 glifs (ignorant els que apareixen 10 o menys vegades).
En vermell els glifs que actualment es consideren ser variants.
En verd parelles properes per forma o so però no considerades variants.

Veiem que efectivament, la correlació més alta correspon a un parell de variants del signe Ke (codis 112 i 118). Si apliquéssim l’algoritme anterior els unificaríem, és a dir, en comptes de 164 glifs passaríem a tenir-ne 163 (les freqüències dels glifs 112 i 118 s’haurien sumat) i tornaríem a calcular-ho tot. Però també semblava evident que amb un conjunt de dades tan dispers, passar de 164 a 163 glifs, no alteraria de forma significativa les dades, de manera que veient que efectivament les parelles de variants detectades s’agrupen majoritàriament en la part alta dels valors, es procedí a fer una simplificació més gran acceptant totes les parelles detectades amb un coeficient més gran de 0.1 (les marcades en vermell en la taula anterior). Gràficament:

ibset-3

Una primera reducció, totes les parelles de variants amb un coeficient superior a 0.1.
En petit els glifs agrupats.

Això deixà un conjunt de 118 glifs amb 3.079 parelles abans-després detectades, i 1. 953 comparacions possibles, que de nou, filtrant els valors superiors a 0.1, dóna:

pg-1

Segona comparació entre 118 glifs (ignorant el que apareixen 10 o menys vegades) .

On ja es pot veure que les parelles de variants detectades són moltes menys i ja no s’acumulen en la part alta dels valors. Si agrupem encara aquestes parelles de variants, tindrem el següent signari:

ibset-8

Signari amb la segona reducció de variants.
En vermell les variants detectades en la segona comparació.

Feta aquesta segona agrupació ens deixa amb 99 glifs, 2.555 parelles abans-després i 946 comparacions possibles. Feta aquesta tercera mesura ja no és detecta cap parella de variants amb una correlació major a 0.1[4].

De manera que el conjunt de variants detectades en aquest procediment es concreta en: 89 glifs agrupats en 24 signes.

ibset-10

Agrupacions de variants amb coeficients de correlació de Pearson superiors a 0.1.

Comentaris

Presentades les dades, el procediment i els resultats, cal abans d’acabar, comentar els resultats ja que hi ha força a dir. Per començar i abans d’entrar en les consideracions generals, analitzar amb un xic de detall els resultats amb coeficients més elevats.

Ja hem vist que el coeficient més alt sí corresponia a una parella de variants, però el segon ja no, es tracta d’una parella ‘BaTe‘ (codis 83 i 103) . Els signe Ba, no sols és el més freqüent del corpus (1565 aparicions), es també emprat com a numeral de manera que tenim grups consecutius de signes Ba en moltes epigrafies, i per tant, resulta que la parella de signes entre els que es troba més freqüentment un signe Ba, és una parella de signes Ba. Per contra, el signe Te amb forma d’un rombe partit en quatres rombes, es documenta sols en 49 ocasiones, però si mirem entre quins signes apareix, resulta que la parella més freqüent és entre signes Ba (hi han set epigrafies amb la paraula BaTeBa). De manera que ja veiem el perquè d’aquest alt grau de correlació, aquest Ba i aquest Te tenen en comú que la seva principal component és trobar-se entre signes Ba.

El tercer i quarts coeficients (i també el setè) van interrelacionats, i gràcies a aquesta anàlisi s’ha detectat la necessitat d’incorporar una nova variant en el signari que havia escapat totes les mirades fins ara. El tercer coeficient més alt correlaciona un signe Te (codi 105, 95 aparicions) i un signe Tu (codi 235, 36 aparicions). Si mirem els valors de les seves  distribucions, veurem que sols tenen en comú dues parelles (una d’elles amb el valor mínim 1, i l’altra corresponen al valor màxim de cada un d’ells (una E i una I), d’aquí l’elevat coeficient.  Però és que la quarta correlació també és respecte aquest mateix glif Tu, ara però amb un signe Ka (codi 187, 35 aparicions) i el setè coeficient tanca el triangle correlacionant el Te inicial amb el signe Ka. En l’anàlisi es veu que l’evidència compartida és similar a la ja comentada, gairebé mínima, de manera que ens troben en aquella mena de casos extrems en què la correlació de Pearson resulta poc intuïtiva; però en la taula de resultats veiem que la correlació respecte del Tu codi 245 vers al signe Ka codi 187 sí està marcada com una parella de variants, com és això? Doncs la resposta és que gràcies a aquest anàlisi ha estat possible adonar-se que de glifs amb forma de V invertida no n’hi havien dos (el més freqüent amb més de 800 aparicions, codi 57, considerat una forma del so L, i el codi 235, transliterat com un Tu poc habitual), sinó tres, amb un tercer so correlacionable amb el so Ka. com veiem. El punt està en què resulta que era una possibilitat que ja s’havia fet notar prèviament[5], en constatar que si bé el signes Ke, Ka semblen girats 90º entre sí, els primers sí tenien una forma sense travesser que mancava en els Ka: que és just el que aquest joc de correlacions delata quantitativament. L”evidència es concentra aparentment en una sèrie de monedes amb la llegenda Sekaisa però atesa la semblança formal dels signes cal preguntar-se si no hi han també altres Ls que podrien ser Ka en el corpus.

Els dos coeficients següents, els cinquè i sisè corresponen a dues parelles de variants de Ke, el setè ja l’hem comentat i el vuitè, s’assembla molt al segon, tota vegada que correlaciona un signe Ti (codi 126) amb el mateix signe Ba d’abans, i és que de nou, el signe Ti forma part dels numerals i sovint es troba rodejat de signes Ba. Les sis següents correlacions corresponen totes a parelles de variants i tindrem que anar fins la quinzena correlació per trobar una parella E (codi 42) i un Ta (codi 85) que en l’anàlisi revelen no tenir cap coeficient en comú i ser per tant un altre cas atípic.

Ara, obrint la mirada i deixant el comentari detallat, per una banda resulta notable que amb unes dades amb un tal grau de dispersió i amb un corpus tan escàs tenint en compte la seva variabilitat sígnica, s’hagin pogut detectar desenes de variants per el mètode de comparar entre quins signes apareixen, especialment si considerem que la mesura de correlació emprada (la de Pearson) presenta en aquesta mena de distribucions resultats que poden semblar contraintuïtius. Alternativament, i com indicava ja la teoria, que dos signes apareixin més o menys al costats d’uns mateix signes no implica en cap cas la seva equivalència, i a mida que relaxem el grau de correlació és del tot esperable que apareixin signes clarament diversos que sols tenen en comú el fet de figurar més o menys al costat d’uns mateixos signes, que és just el que trobem en els resultats.

Si mirem les agrupacions de variants detectades, també resulta curiós notar que si bé es detecten algunes de les variants, no és així per totes, i en concret, resulta destacable que en els signes Be, es diferencien les agrupacions entre si el signe està cap amunt o avall. Una distinció que analitzant la forma dels signes ja semblava abans rellevant si considerem que estem davant d’un signari que, per exemple, en els signes Ka, Ke, com dèiem, diferencia entre una rotació de 90º; resulta per tant estrany pensar que contràriament s’unifiquin girs de 180º. Les agrupacions trobades les separen, i encara que cal evidentment atendre a altres consideracions per desbrinar el seu desxiframent, no deixa de ser una dada a tenir en compte.

Coda

Arribats aquí, i veient que el factor objectivable que més distorsió aporta a la interpretació dels resultats és el comportament de la correlació de Pearson en dades disperses, s’ha provat un conegut heurisme que mira d’escalar els resultats segons la quantitat de valors no nuls que es comparen. La idea és que a menys factors comuns, menys factor de correlació. No passa de ser un pedaç, ja que la correlació té una explicació geomètrica ben sòlida, mentre que voler que el seu resultats s’adaptin a un cert motllo, no passa de ser un problema d’interpretació, i per tant, una simple conveniència. Amb tot, havent fet ja aquest treball, fer la prova no era complicat, de manera que s’han fet uns quants intents en aquest sentit, i ja posats a fer, s’ha aprofitat per introduir alguna petita millora en el model[6], però tot i així, els resultats no són més clars que els exposats aquí. De manera, que la pràctica aconsella donar per bona l’aproximació inicial, més simple i canònica.

Les comparacions dels recomptes de com es distribueixen els glifs, en ser mesures graduals[7], no poden donar certeses, ja hem dit al començar que era evident que lletres diferents poden tenir distribucions similars, el que sí ens aporten són dades objectives. Dades que neixen de disposar d’un corpus codificat i informatitzat amb un alt grau de semblança a l’original. Sense aquest element (actualment sols disponible a ibers.cat i a cathalaunia.org), cap treball quantitatiu podrà ser verificat independentment per tercers que és un dels requisits bàsics de la Ciència.

Lo presentat en aquest apunt és una foto puntual; com diem, s’incorporaran nous glifs (i aprofitant l’avinentesa s’eliminaran els glifs no documentats) i la codificació de les dades i per tant aquests resultats canviaran lleugerament. Hagués estat millor postposar aquesta anàlisi per després dels canvis? Potser sí, però fixem-nos que si més no per el que fa al glif amb forma de V invertida i so Ka, ha estat el fet de fer aquesta prova el que l’ha posat de manifest. I és que el procés d’adequació del signari als originals és un procés retroactiu i treballós (per exemple, caldrà tornar a repassar totes les epigrafies per comprovar que es registren  totes les aparicions dels nous glifs). Un treball de codificació i publicació del corpus resultant que sembla mentida que hagi de dependre d’iniciatives no institucionals.

– Actualització 2017-II-24 –

S’ha corregit un error de transcripció dels resultats que havia comportat que el darrer quadre amb les agrupacions resultants hi manqués informació (82 glifs en 22 grups vs. 89 en 24 en el recompte correcte).

 


Notes

  • [1] No tocarem aquí el tema de la problemàtica d’aquesta codificació, ja n’hem parlat abastament en aquest bloc.
  • [2] Cal entendre que com que la incorporació de nous glifs es fa a posteriori de la seva detecció, en els casos de variants de signes ja coneguts, es possible que no totes les epigrafies hagin estat convenientment actualitzades i que caldrà una segona repassada per incorporar-los plenament.(s’anoten i actualitzen les que es detecten un cop es fa evident l’existència del nou glif, però no les processades amb anterioritat)  Amb tot, com que en la immensa majoria de casos la diferència és sols entre una variant que ja s’assembla a l’original i una d’encara més semblant, tampoc és una qüestió especialment delicada i es pensa anar ajustant gradualment..
  • [3] Treball que també va ser publicat en aquest bloc.fa poc.
  • [4] Els resultats superiors a 0.1 d’aquesta tercera mesura es poden veure en la següent taula:

    pg-2

    Resultats superiors a 0.1 de la tercera reducció de glifs.
    Cap parella de variants conegudes detectada.

  • [5] Es pot veure si es disposen els glifs segons aparença, per exemple:
    iberglifs

    Glifs per aparença per graus de complexitat.
    En verd les mateixes figures en blau amb un traç vertical inferior afegit.

    .

  • [6] Concretament: unificar tots els glifs separadors de paraula (els formats per una columna de punts) en un únic glif, ja que no sembla que estar al costat d’un separador de dos punts ens pugui aportar cap informació rellevant diferent que estar al costat d’un de tres o d’un de quatre. I en segon lloc, un tecnicisme: mirem el glif abans i després de cada un dels signes, però que fem amb els que estan a l’inici i al final d’una inscripció? En tot el procediment explicat aquí, el que es va fer va ser inserir abans i després de cada epigrafia un caràcter 256 (el de les discontinuïtats). Desafortunadament, com hem explicat, en la fase posterior totes les parelles que contenien aquest caràcter s’eliminaven, i per tant, es perdia la informació del primer i del darrer glif. La solució ha estat inserir un espai, en comptes d’un 256. Amb tot, i com es comenta amunt, cap d’aquestes millores ha resultat tenir un efecte clarament perceptible.
  • [7] La quantitat de mesures de correlació és pràcticament infinita. El fet d’emprar una mesura de correlació lineal com la de Pearson i no d’altres més genèriques com la de Spearman (monotònica) o semblants es deu a preferir sempre que sigui possible la aproximació més simple.En altres termes, caldria donar una raó per poder pensar que una mesura més complexa seria preferible en aquest domini en particular.
Publicat dins de Carme J Huertas, cathlaunia.org, coeficient de Pearson, coeficient de Spearman, comparació de variants, detecció de variants, epigrafia ibèrica, grup LITTERA, ibèric nord-oriental, Iberika, ibers.cat, Signari ibèric, UB | Etiquetat com a , , , , , , , , , , , , | Deixa un comentari

2017-gener a cathalaunia.org

Gener ha estat un mes llegit, molt llegit. I és complicat per un amant dels llibres com el que escriu reconèixer que des de fa ja un temps la pantalla ha substituït el paper. No en el plaer específic de la imitació de Sant Agustí d’Hipona, on el paper venç de llarg, però és que la practicitat de poder llegir i al mateix temps anar anotant i a més, integrar tant els texts com les notes en un sistema integrat de consulta no té parangó. Potser si Hefaistos i Enki volen podrem tenir aviat paper electrònic per poder llegir sota el sol amb dispositius informàtics, com fem amb el paper normal (si no vaig errat la tecnologia base ja està esbossada de fa temps) i a l’hora poder fer la tasca de Nisaba. I posats a demanar, anem un pas més enllà i creem una tecnologia de  presentació que funcioni contínuament entre llum reflectida i llum emesa i així poder llegir en qualsevol condició de llum (això sí que no hem sona que estigui ja en els laboratoris).

La secció Ibèrica i Romana ha rebut el gruix de la feina del mes, bàsicament consistent en continuar la tasca de incorporar els esquemes de les inscripcions per poder-ne validar la seva correcció. La bona nova està en què ja hi han més entrades amb esquema no pas sense. Encara s’està a mig incorporar un bloc d’epigrafies, de manera que es previsible que el mes que ve també estigui marcat per aquesta activitat. El treball resulta interessant perquè a part de repassar les entrades una a una, permet concretar la pluralitat de formes dels glifs, la darrera tongada en va aportar una trentena de nous i en aquesta també s’esperen algunes incorporacions més. Convé no deixar-ho a mig fer, ja que un cop recopilats els nous glifs cal incorporar-los en el corpus, en la font TrueType iber.ttf i en les eines de cerca del web i és una tasca delicada.

Aquest bloc ha tingut una entrada de temàtica altmedieval (ja era hora!) dedicada a Santa Maria de Riudaura en la generació dels pares del Pilós. Un tema que dóna molt de si i que així que es pugui continuarem comentant. Ganes no en falten.

La Bibliografia, amb tanta lectura, hauria de reflectir-ho més del que ho fa; i el motiu que no ho faci és perquè la majoria de lectures del mes ja havien estat incorporades en el web prèviament. L’acumulació de lectures pendents, havia arribat a superat els 450 títols el desembre, i en acabar el gener està en els 360; continuant al mateix ritme en quatre mesos fem net… (Ni de conya!) Però sí resulta curiós observar la llista cronològicament, ja que indirectament hi pots veure les temàtiques o tòpics que en van propiciar la seva incorporació i fins a cert punt els viaranys per on ha anat circulant l’atenció o si voleu, la curiositat. I encara més de retruc, el motiu particular de cada volum per estar encara en la cua dels pendents tot i que la temàtica que el va dur allí sí va estar raonablement analitzada, més enllà del fet genèric que sempre hi ha més a aprendre del que un voldria…

Per variar, llistem les incorporacions del mes per seccions[1]:

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

A fi de mes, cathalaunia.org presenta 26.652 pàgines consultables.


Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
Publicat dins de Bibliografia, cathlaunia.org, Fons Cathalaunia, Iberika | Etiquetat com a , , , | Deixa un comentari