Cerca per formes en el Corpus Ibèrika.

Aquest és un apunt breu només per comentar el darrer canvi incorporat en les eines de consulta del Corpus Ibèrika.

Fins fa poc, el Corpus definia dues modalitats de Signaris: el complet actualment amb 286 signes, i el simplificat que els redueix a 32 categories (més 9 signes de mal classificar). I d’acord amb això la Cerca en el Corpus permetia aquestes dues modalitats. Però l’any passat es va definir una agrupació intermèdia que mira de simplificar a base d’agrupar les variacions ‘estètiques’ (o sigui diferenciant els signes només per topologia + funció); el resultat, com ja es va comentar,  fou un signari de 170 formes.

Si fa només uns mesos es comentaven les primeres utilitats que feien servir aquesta nova agrupació, és el cas ara, de comunicar que l’eina de Cerca també ha estat ampliada per poder fer cerques per formes.

En imatges ho farem més curt.

Cerca per Signari Simplificat i accés a la Cerca per formes.

Si fins ara en la part superior es podia triar només entre el Signari Simplificat (el de defecte) i el Complet.

Cerca per Signari Complet

Ara també es pot triar per Formes.

Cerca per Formes.

Que si més no de moment, no incorpora la possibilitat de fer cerques per menes de signes com sí permet fer la modalitat per signari Simplificat (recordem-ho: V=Vocal, C=Consonant, M=Ms, N=Nasal,   R=Vibrant, S=Sibilants B=Labial, G=Velar,  D=Dental, Sil·làbic en A|E|I|O|U).

Com tampoc (de moment?) s’ha expandit la Cerca Incremental per poder fer-la també per formes.

En tot cas, hauria de ser la utilitat (o la seva absència) la que dicti cap a on han d’anar els canvis. I per això, com és habitual, s’ha de demanar el parer dels usuaris. Bé, per això, i també per si es detecten errors, que cada canvi és sempre una nova oportunitat de marrar-la…

La Cerca és una de les eines més emprades en la consulta del Corpus[1], així que més mai, els comentaris seran més que benvinguts!

 

 

 

Notes

  • [1] Juntament amb la Cerca Incremental aparentment. Tot i així, sembla que eines més avançades com la Cronologia encara no han estat ‘descobertes’ per els usuaris experts…?

 

Publicat dins de cathalaunia.org, Cerca, cerca avançada, Cerca Incremental, Cerca per Formes, Corpus Ibèrika, cronologia, Cronologia avançada, formes, Signari ibèric, signari per formes, signari simplificat | Etiquetat com a , , , , , , , , , , , | Deixa un comentari

2022-desembre a cathalaunia.org

Desembre ha estat un mes discret a cathalaunia.org. El fer ha oscil·lat entre el manteniment informàtic del web i la tasca prosopogràfica del Fons Cathalaunia.

El primer ha significat fer un pas que s’hagués preferit no fer, però que la conveniència ha propiciat, com és el passar a servir també el protocol HTTPS[1]. Una ‘millora’ ‘propiciada’ per els mateixos que empitjoren el tràfic a la xarxa, una faceta més del ferotge Big Brother banal d’avui en dia.

El segon ha comportat completar la tasca d’incorporació de les evidències de la documentació local de Borgonya en l’interval que el Fons ja havia processat.

Aquest bloc ha restat aturat. Hi ha un apunt pendent de fa temps però la circumstància es veu que encara no el vol fer propici. A veure si s’encarta el mes vinent…?

La Secció Ibèrica i Romana, amb l’aparició a darrera hora del volum 22 de la revista Paleohispanica, ha pogut afegir vuit entrades al Corpus Ibèrika. Dues d’elles en àmbits tan allunyats com el Valle del Guadalhorce  o el Campo de Montiel (tot i que la primera és francament dubtosa) i que han obligat a expandir els mapes de comarques que es fan servir… A veure si ho hem fet be…

La Secció de l’Alta Edat Mitjana sí ha tingut, com dèiem, activitat rellevant. La decisió d’incorporar també al Fons Cathalaunia el context més pròpiament borgonyó, ha expandit l’àmbit geogràfic des de casa nostra, fins la Xampanya (amb el natural increment de fonts documentals associat). Un objectiu que en cap cas en començar el Fons es contemplava, però que la tasca hi ha anat duent de forma progressiva.

Si en un principi l’àmbit geogràfic del Fons Cathalaunia eren els comtats ‘catalans’, la continuïtat sociològica (o dit en termes més correctes, la cerca i detecció dels límits de la goticitat en el registre textual) dugué a incorporar els septimans (amb un buit documental tolosà terrible), i d’allí als provençals i alvernesos, per tot seguit continuar per el Roina i a incorporar la part sud de ‘Borgonya’ , o sigui els nuclis de Viena i Lió, i d’allí al Llemosí i Mâcon i els documents de Beaulieu i Cluny, fins arribar a Autun.

En aquest punt, i ja a les portes del ‘regne franc’[2], es decidí afegir la part més septentrional de Borgonya amb Dijon, i Langres, arribant així a les fons del riu Marne (el que de camí a Paris passa per la Cathalaunia de llavors, l’actual Châlons en Champagne). Una decisió que implicava tota una autèntica ‘perdigonada’ documental al recull que ja es tenia (entre els anys 876 i 914) i a tornar a treballar contexts temporals que feia anys que s’havien donat per pràcticament tancats. Aquesta és la part que ja s’ha processat i a partir d’ara es pot reprendre la incorporació de documents de forma seqüencial (tot i que ara amb un context geogràfic encara més ampli). La magnitud d’aquesta ‘perdigonada’ es pot veure indirectament en el fet que aquest és el segon mes on amb només l’activitat del Fons s’han incorporant més de quatre-cents dossiers nous al web.

La Bibliografia, com en els mesos passats continua al ralentí i amb incorporacions majoritàriament propiciades per la tasca prosopogràfica.

Seguint el costum, llistem les poques novetats del mes per seccions[3].

 

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Alta Edat Mitjana:

A fi de mes, cathalaunia.org presenta un total de 36.916 pàgines consultables.

 

Però amb el renaixement del cicle solar a l’hemisferi nord[4], s’acaba també un any, el 2022.

Un any, com el passat, de regal i més que profitós per el que fa al web. No sols en la quantitat de dossiers nous que s’han pogut crear (això es veu a grosso modo en el nombre de pàgines del web, més de 3.000 a les que hi havien fa un any), sinó també per el que fa a la recerca, tant en l’àmbit de l’alta edat mitjana, com en el de l’escriptura ibèrica. Només cal repassar els apunts d’aquest bloc…

Obrint la mirada al món, un any que ja amb la pandèmia de baixa aquí, encara continua matant gent a la Xina, on després de fer la millor opció per protegir la vida (abans de tenir una vacuna efectiva) com era l’estratègia de covid zero, a l’hora de vacunar a la població han fracassat estrepitosament amb la conseqüent pèrdua innecessària de vides humanes.

A casa nostra, la indecència política d’ignorar un referèndum d’autodeterminació guanyat aclaparadorament continua, (i així pensen continuar). Només fa una mica de gràcia veure com aquests dies les vedettes del món de la faràndula que han fet carrera a l’estado corren a mirar d’apuntalar les (tele)consignes dels seus paganos. Com ja es va dir, fins que no es faci foc nou, no hi haurà res a pelar. I en aquest sentit, els que prefereixen enganyar-se pensant que un judici internacional ajudarà a la independència d’un País, no fan tampoc cap favor a ningú.

Però un nou any és una nova esperança i el creixement del dia seguirà el seu curs indiferent, com fan altres forces naturals més enllà de la mida humana.

Deixeu-me desitjar-vos:

 

Que tingueu un bon any!

 

 

Notes

  • [1] La millor idea que la indústria informàtica ha tingut per ‘protegir la privacitat’, ha estat fer que quan A vulgui parlar amb B, li hagi de preguntar primer a C si B és qui diu ser. La dada que permet entendre aquest disbarat és que de As o Bs n’hi poden haver dos mil milions (en ipv4), però de Cs només n’hi han potser una centena… Ves quina cosa, oi?
  • [2] Sovint en la literatura sembla com si els actors d’aquests contexts tan septentrionals fossin sempre ‘francs‘. Una noció però probablement errònia. Si es mira per exemple l’ús del gentilici franchorum a finals del segle IX, a Borgonya tenim que en les afrontacions d’un llistat de vinyes de Ratherius (un capitost de Dijon) al costat d’esments a monestirs i particulars, hi consta un: ”de ambobus frontibus terra Francorum”… El text no és pas original i ves a saber les alteracions que pot haver tingut, però només la possibilitat d’entendre que en aquell context els ‘francs’ fossin considerats prou aliens com per fer-ne servir el gentilici en una afrontació d’un document local, és una idea refrescant. Si uns veïns eren ‘francs’ que eren ells? No?
  • [3] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.
  • [4] Recordem que el punt vernal en realitat és l’eix vernal, i que les ‘èpoques’  de la precessió equinoccial sempre són duals.

 

Publicat dins de 876, Autun, Bibliografia, Borgonya, Campo de Montiel, Cathalaunia, cathalaunia.org, Chalons-sur-Marne, Cluny, Corpus Ibèrika, Dijon, Fons Cathalaunia, https, Langres, Llemosí, Marne, Paleohispanica, París, Valle del Guadalhorce, Vienne, Xampanya | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2022-novembre a cathalaunia.org

S’acaba un novembre miscel·lànic a cathalaunia.org. Un mes en punt mort per el que fa a la recerca encara que molt productiu per el que fa al web (s’han afegit més de 500 pàgines).

Aquest bloc no ha tingut cap entrada nova però tot i així ha estat un dels centres d’activitat del mes. Si la recerca es condensa formalment en forma d’articles (texts) i dades en el web (Fons Cathalaunia i Corpus Ibèrika), aquest bloc conté uns quants treballs que s’escapen d’ambdós àmbits. Ja sigui per raons de format o de contingut, el fet és que durant aquests anys s’han fet un seguit de treballs/experiments/assaigs que han estat comentats i presentats en aquest bloc, però que tenen un mal encaix en el format text i en els dels reculls de dades. De manera que s’ha decidit incorporar un arxiu separat amb els apunts d’aquest bloc en el web cathalaunia.org.

Accés a l’arxiu del bloc.

L’accés està en el menú principal, en la opció (arxiu) al costat de l’accés a aquest bloc. Allà es desarà una còpia de cada apunt, si bé sense possibilitat de comentari i en un format un xic més simple. La idea és que les aportacions fetes en els continguts dels apunts es puguin consultar des del propi web.

La Secció Ibèrica i Romana tampoc ha tingut cap novetat. En la premsa s’ha parlat força de la trobada de la mà d’Irulegui i si els articles amb la seva descripció fossin ja accessibles al públic s’hauria afegit al Corpus Ibèrika. Desafortunadament això no és així, i com que la metodologia obliga a tenir referències de cada entrada, caldrà esperar a que arribin per poder-la incorporar. Només un parell d’observacions inicials:

  1. Fa una certa gràcia veure els experts afirmar públicament que el signe en forma de T només existí en entorns ‘vascons’ i que era prova d’una adaptació local del signari ibèric. Només que s’haguessin pres la molèstia de mirar el seu registre en el Corpus Ibèrika (glif 239) haurien vist que a més de les monedes de les dues seques suposadament ‘basques’, sabem d’exemples en llocs tan èuscars com les comarques de, Maresme, Rosselló, Horta de Múrcia o Baix Vinalopó…! És un signe infreqüent. En el Corpus només consten 20 exemples (i quatre són duplicats i dos més probablement anòmals), així que com a molt, en la mesura que les dues seques es puguin situar en territori ‘basc’, certament indicaria que era conegut i emprat allà al segle I aC, però la resta d’exemples apunta a que també ho era en la costa mediterrània[1]. En parlàvem tot just fa dos mesos en aquest bloc sobre els epicorismes ibèrics i el perill de confondre el soroll per el senyal quan les dades són escasses.
  2. Impossible no fer esment de la semblança de la primera sentència del text amb l’expressió basca ‘zorioneko‘ (afortunat). En aquest bloc ja es va comentar que amb un grau de correlació en la distribució de sons bàsics entre l’eusquera modern i l’ibèric de 0.88 (superior al que hi ha entre català i castellà actuals) qualsevol coneixedor de la llengua basca hauria de poder llegir sense massa dificultat un plom ibèric.  La semblança amb ‘zorioneko‘ és patent, però si ens hi fixem, veurem que aquesta expressió només conté un sil·làbic al final, i que de fet, en la resta del text (farcit de sil·làbics) aquesta semblança desapareix i així ho fa la comprensió del que hi posa. Sembla un indici més que el rol dels sil·làbics, modelat per el franquista Gómez Moreno al segle passat i encara en vigor en les tesis acadèmiques espanyoles, està estructuralment equivocat (com ja s’ha repetit abastament en aquest bloc).

La Secció de l’Alta Edat Mitjana, ha continuat incorporant documents anteriors al 914 provinents de contexts borgonyons en el Fons Cathalaunia. Encara en queden uns quants abans no es pugui tornar a continuar processant l’any 876

La Bibliografia, ha estat on millor es reflecteix l’aturada en la recerca. Seguint el costum, llistem les escassíssimes novetats del mes per seccions[2].

 

Secció Bibliografia de l’Època Ibèrica i Romana:

Secció Bibliografia de l’Època Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

Secció Bibliografia sobre Judaisme

Secció Bibliografia Vària:

 

A fi de mes, cathalaunia.org presenta un total de 36.473 pàgines consultables.

 

Notes

 

Publicat dins de 876, Bibliografia, Bloc, cathalaunia.org, Corpus Ibèrika, epicorismes ibèrics, Fons Cathalaunia, mà d'irulegui | Etiquetat com a , , , , , , , | Deixa un comentari

2022-octubre a cathalaunia.org

Marxa un octubre atípic, intens i molt profitós a cathalaunia.org. L’activitat ha anat per un doble viarany: seguint primer el dictat de la Curiositat per un cop satisfeta la primera ànsia, tornar a la tasca de digitalització prosopogràfica.

Aquest bloc ha tingut no una sinó dues entrades noves. Les dues, sobre el tema de com detectar els conjunts sígnics ‘locals’ en l’escriptura ibèrica de forma estrictament quantitativa. Un mateix propòsit abordat de dues formes complementàries. El resultat ha estat més que satisfactori, i de fet ha deixat una depressió ‘post part’ notable (acostuma a passar quan el regal és inesperat). Poguer objectivar les diferències entre els signaris que es van emprar en les diferents parts de la Ibèria occidental (tot i les grans semblances que tenen entre ells), ha estat una fita, que no per imaginada, ha resultat menys curiosa i interessant. Tot i no ser més que un primer pas, probablement caldrà un cert temps per pair els resultats…

La Secció de l’Alta Edat Mitjana, i en concret el Fons Cathalaunia, ha recollit la resta d’activitat del mes tot continuant processant els documents pendents de Borgonya anteriors al 914 (i a molt bon pas). Les darreres eines afegides al Fons estan donant un rendiment magnífic.

La Bibliografia amb tant experiment i tanta pedra picada ha quedat (de nou) en un segon terme.

Seguint el costum, llistem les novetats del mes per seccions[1].

Secció Bibliografia de l’Època Visigoda:

Secció Bibliografia de l’Alta Edat Mitjana:

 

A fi de mes, cathalaunia.org presenta un total de 35.945 pàgines consultables.

 

Notes

  • [1] Es marquen amb (www) les entrades que es poden trobar lliurement a Internet.

 

Publicat dins de Bibliografia, Borgonya, cathalaunia.org, epicorismes ibèrics, escriptura ibèrica, estadística, Fons Cathalaunia, Ibèria, Ibèria occidental | Etiquetat com a , , , , , , , , | Deixa un comentari

Més epicorismes ibèrics.

Tot just en el darrer apunt temàtic d’aquest bloc es va comentar una primera prova per detectar de forma estrictament quantitativa els signaris ibèrics ‘locals’ o ‘epicòrics’. És el cas ara de comentar un segon experiment, un xic més complex.

Classificadors

Allà, el mètode per comparar signaris es basava en una simple proporció de signes (formes , per ser exactes) compartits entre comarques veïnes; mètode que també semblà adequant per intentar re-contextualitzar les més de 500 epigrafies orfes de context arqueològic original conegut. La idea inicial, per motius de cost computacional, era (i és) oblidar-se de la natura textual de les epigrafies (del que ‘hi posa’), i reduir el text d’una determinada entrada a les seves ‘lletres’ constituents (de nou, formes, parlant amb propietat). Un exemple en català: si en una epigrafia hi posa “Ves per on”, la reduïm a:”enoprsV”. Una reducció extrema que tot i així pot ser hàbil si el que es vol detectar és prou genèric (en la literatura estadística es coneix com models de  ‘sacs de paraules/lletres‘). Havent gastat més d’una neurona fa més de vint anys raonant i programant sobre tècniques de classificació, el cas s’adaptava perfectament al que es coneix en la literatura informàtica com ‘aprenentatge supervisat‘.

En el Corpus Ibèrika tenim actualment 3.104 entrades epigràfiques localitzades geotemporalment, és a dir, 3.104 exemples per els quals sabem de quina comarca són. Si reduïm cada epigrafia a la llista de les seves formes constituents (que són com a màxim 170) podem construir una matriu rectangular  de 171 columnes (les primeres 170 per cada una de les formes possibles, i la 171ena per la comarca) i 3.104 files (una per cada epigrafia). I per tant, de retruc, podem mesurar la ‘importància’ de cada una de les formes per el que fa a identificar la comarca d’origen de cada epigrafia, a partir com diem, només, dels seus signes. De les infinites maneres de calcular un factor així, n’analitzarem dos de ben coneguts i establerts: IG i IGR, o sigui, guany d’informació/information gain, i proporció de guany d’informació/information gain ratio (una mesura de normalització del IG). Per veure gràficament de què estem parlant, podem mostrar el conjunt de les formes ibèriques augmentant o disminuint -aproximadament- la seva mida segons aquest factors.

Ja en el primer experiment on es comparaven els signaris de cada comarca amb els de les seves veïnes, a cada forma se la va valorar (entre 0 i 1) segons l’invers del ‘percentatge’ de comarques on constava (diguem-li intercomarcalitatinversa). Seguint la idea que, quan més freqüent un signe, menys rellevant hauria de ser. El resultat era:

Signari de les formes ibèriques segons intercomarcalitatinversa.

Si fem el mateix, però calculant la IG de cada forma en la matriu de les 3.104 epigrafies contextualitzades, tenim:

Signari de les formes ibèriques segons IG.

On es veu clarament com les formes que consten en més comarques (al revès del cas previ de la intercomarcalitatinversa) reben un factor més elevat.

I si calculem les IGR del mateix conjunt de dades, tenim:

Signari de les formes ibèriques segons IGR.

Una fórmula que mirant de reduir la ben coneguda preferència que el càlcul de IG té per els atributs (formes) presents en moltes classes (comarques), ens duu a un mapa de formes que està a mig camí entre la intercomarcalitatinversa i el de IG.

Fou en quest punt quan es pensà que aquesta metodologia es podia utilitzar també per mirar de detectar els signaris epicòrics ibèrics (si és que hi foren).

La idea fou aplicar el mateix algoritme que ja s’havia fer servir en la primera prova (recordem-ho: començant per un mapa on cada comarca va per separat, comparar cada comarca amb les seves veïnes i fusionar la millor parella que es trobi, repetint-ho fins que no hi hagin més comarques a fusionar), però en aquest cas, canviant la funció de comparació entre comarques i fent que en comptes de retornar un valor basat en la intercomarcalitatinversa, retorni el percentatge d’encerts de dues variants d’un classificador (segons IGR) en un corpus derivat del de 3,104 exemples on les dues comarques a comparar s’han fusionat en una de sola.

El raonament és simple. Quants més grups comarcals/comarques hi hagin, més difícil/improbable és que un classificador ‘encerti’ la comarca a partir d’un conjunt determinat de formes, així que anem reduint el nombre de grups comarcals, triant la fusió que maximitzi el nombre d’encerts. ‘Ad absurdum‘, si totes les comarques estan en un únic grup, el 100% d’encerts està assegurat!  🙂

El quid està en què des de la situació inicial (amb 110 comarques amb alguna epigrafia ibèrica), fins aquest final teòric amb només un únic grup, l’evolució de les agrupacions que es formin sí poden ser rellevants en la mesura que reflectiran una classificació automatitzada més acurada derivada exclusivament dels conjunts de formes coneguts a cada comarca. Entrem en matèria.

 

Dades

El primer que cal entendre és que voler predir la comarca d’una epigrafia només a partir de les lletres que la formen, en realitat, és una tasca impossible. El fet, és que la majoria de conjunts de signes existeixen en més d’una comarca, i per tant, fins i tot en el cas que el conjunt que es busca fos exactament un dels coneguts, la resposta ‘correcta’ seria sovint un conjunt de comarques, i per tant, la reducció a una sola, fa de l’encert, una qüestió de simple probabilitat.

A més, la distribució territorial d’aquestes 3.104 epigrafies localitzades és molt desigual (donem en nota la llista)[1]. La gràfica de les comarques ordenades per nombre d’epigrafies ho deixarà ben clar:

Comarques ordenades per nombre d’epigrafies.

Si en mirar la variabilitat sígnica ibèrica, Erau i Camp de Túria eren els llocs amb un repertori sígnic més extens, la comarca amb més entrades epigràfiques és Baix Martín, amb el jaciment d’Azaila (578),seguit sí, per Erau (421) i Camp de Túria (166). I tal i com es pot veure, la gran majoria de comarques tenen menys de 10 epigrafies conegudes. Per ser exactes, només 50 de les 110 comarques tenen 10 o més epigrafies. Mostrem la mateixa gràfica en escala logarítmica, per poder apreciar-ho millor.

Comarques per epigrafies, escala logarítmica.

De manera que, reaprofitant l’exemple del català anterior, voler encertar la comarca a partir de “enoprsV” és una tasca destinada al fracàs. I efectivament, cap dels classificadors basats en arbres de decisió provats sobre aquest corpus de 171×3104 cel·les (utilitzant el programari WEKA) no arriba ni al 50% d’encerts. O sigui s’equivoca més que encerta. Gairebé tots es queden en el 30% i només un cas (ForestPA) arriba al 40%. I és que com dèiem, la majoria dels conjunts sígnics que formen les epigrafies existeixen més o menys a tot arreu. Pitjor encara, la majoria d’epigrafies estan formades per unes poques lletres (en total tenim 26.182 signes en 3.643 entrades, o sigui que toca a 7 lletres per barba de mitjana), i per tant els conjunts de signes són usualment minúsculs (en terminologia estadística es diria que les dades són disperses). I per si fos poc, el mètode per provar un classificador consisteix usualment en separar aleatòriament un terç del total d’exemples (o sigui un miler, en el nostre cas), entrenar el classificador amb els altres 2.000 i mesurar si l’encerta o no amb el miler separat (+ repetir el procediment 10 vegades i mitjanar). Amb una distribució amb tantes comarques amb tant poques epigrafies és ben probable que entre les 2.000 per entrenar hi faltin comarques, i per tant sigui matemàticament impossible arribar al 100% d’encerts.

La gràcia però, està en què tot i les limitacions metodològiques, en la mesura que una agrupació intercomarcal millori el rendiment d’un classificador determinat, podem suposar que és degut a que està agrupant conjunts sígnics rellevants (per a la tasca de identificar la comarca a partir de conjunts de signes, s’entén).

La prova que s’ha fet ha estat aplicar dos classificadors diferents amb el programari Timbl[2] (IB1 i IGTree aplicant el coeficient IGR) sobre les mateixes dades i veure com evoluciona el procés de fusió intercomarcal; per conveniència els hi direm: IB1 i IGT. D’entrada, els dos classificadors es comporten de forma similar, i des de una configuració inicial de 110 comarques i un  ≃30% d’encerts, arriben a deixar-ne només 16 o 17 grups amb un ≃98% d’encerts. Mostrem la gràfica de l’evolució del classificador IB1.

Evolució classificador IB1

En l’eix horitzontal tenim els 95 passos que l’algoritme ha calculat. La línia blava va amb l’eix dretà i indica el % d’encert (normalitzat a 1), i la taronja indica el nombre de comarques (o grups de comarques) que s’estan utilitzant a cada pas. La gràfica del classificador IGT és força similar:

Evolució classificador IGT.

La línia de les comarques, com que l’algoritme a cada pas fusiona una única comarca, descendeix linealment (des de 110), però com es pot veure, la millora dels classificadors no. I és rellevant el comportament similar d’ambdós classificadors.

A una millora inicial lenta, aproximadament als 50 passos, hi ha un increment sobtat important en el nombre d’encerts (del ≃60% al ≃85%), seguida de nou d’una millora lenta fins arribar quasi al 100% i menys de 20 grups comarcals/comarques. L’explicació d’aquest comportament és bastant simple.

Les primeres fusions van creant grups comarcals separats que milloren la classificació de forma individuada i limitada, però a partir d’un punt, els grups s’han fet veïns i l’algoritme n’ha dictat la seva fusió. D’aquí l’increment sobtat central (el que s’està fusionant no són comarques aïllades, sinó grups comarcals), i d’aquí també que un cop exhaurides les possibles grans fusions, es retorni al creixement lent degut a la incorporació de les comarques aïllades que encara queden.

Per el que fa a la tasca de detecció de signaris epicòrics és evident que el punt que ens interessa és la configuració de grups comarcals just abans de la pujada sobtada. Mirem-ho en detall.

IB1

La primera fusió del classificador IB1 ens dóna aquest mapa (l’evolució pas a pas es pot seguir molt millor en la versió SVG, ja que permet aturar-se a cada pas i fer el zoom que es vulgui, però WordPress no permet la seva utilització en les seves pàgines i per tant aquí haurem de mostrar les imatges rellevants una a una):

Primer pas classificador IB1.

La fusió d’Erau amb 421 epigrafies i Aude amb 128 proporciona l’increment major inicial d’encerts. A partir d’aquí el grup es va expandint fins que al 9è pas apareix un segon grup:

Pas 9è del classificador IB1.

La comarca amb més epigrafies (578), Baix Martin es fusiona amb Andorra-Serra d’Arcs (27). El grup gran continuarà expandint-se fins que al pas 25è es detecta un tercer grup.

Pas 25è del classificador IB1,

Camp de Túria amb 166 epigrafies es fusiona amb Camp de Morvedre amb 121. El grup major continuarà expandint-se (i puntualment també els dos altres grups) fins que entre el pas 43 i 44 es creen dos grups més:

Pas 44è del classificador IB1.

Saragossa amb 49 entrades i Cinco Villas amb 10,  formen un grup propi i Jacetània (7 entrades) amb Foia d’Osca (13 entrades) un altre. Com es pot veure, els nous grups ja corresponen a un nombre limitat d’entrades epigràfiques. Aquests grups encara creixeran un xic més fins arribar al seu màxim en el pas 50è (just abans de l’increment sobtat en la gràfica de % d’encerts).

Pas 50è del classificador IB1.

A partir d’aquí i amb un rendiment d’un ≃60% d’encerts, el grup primer i més gran entra en contacte amb la resta, i en els següents passos els fagocitarà un rere l’altra i continuarà expandint-se fins la disposició final al pas 94è.

Pas final del classificador IB1.

On es pot observar a més del grup principal, un grup amb Horta de Múrcia i Camp de Cartagena (amb 13 i 12 entrades respectivament, detectat al pas 78è) i un amb Mallorca i Menorca (amb 3 i 1 epigrafies respectivament) que apareix en el pas final.

 

IGT

L’evolució del classificador IGT és força semblant, però amb diferències significatives ja que mostra una millor capacitat discriminant (de nou, l’evolució pas a pas es pot seguir millor en la versió SVG). El començament és idèntic:

Primer pas del classificador IGT.

Al pas 13è es detecta l’inici del grup de Camp de Túria:

Pas 13è del classificador IGT,

I al 19è l’inici del grup de Baix Martín.

Pas 19è del classificador per IGT.

A partir d’aquí l’evolució és lleugerament diferent. Al pas 37è ens apareix un nou grup aïllat.

Pas 37è del classificador IGT.

Rioja Baixa i Tarassona i el Moncayo (amb 7  i 26 epigrafies cada una) formen un grup propi. Al 39è se’n detecta un altre.

Pas 39è del classificador IGT.

Ara són els Monegres i la Ribera Baixa d’Ebre (amb 1  i 14 epigrafies respectivament) els que es diferencien de la resta. Al 42é, encara se’n crea un de nou en la zona ‘valenciana’.

L’Alt Palància i Gúdar-Javalambre (amb 4 i 1 epigrafies respectivament).

Pas 42è del classificador IGT.

I en els passos 43è i 44è encara se’n crearan dos més.

Pas 44è del classificador IGT.

Un amb el Vinalopó Mitjà i el Baix Vinalopó (amb 1 i 9 entrades respectives). I un d’illenc amb Menorca i les Pitiüses, amb només una entrada cada una. Serà en el pas 48é quan el grup principal (i inicial) entrarà en contacte amb la resta i començarà el procès de fusió de grups que farà saltar el % d’encerts del ≃58% al ≃86%.

Pas 48é del classificador per IGT.

El final del procés del classificador IGT s’assembla al del classificador IB1 i després d’haver creat un grup hegemònic, també acaba per detectar els petits grups aïllats; en aquest cas, amb un xic més detall.

Pas 95è i final del classificador IGT,

On a més del grup ‘murcià’ i ‘illenc’ detectats per el classificador IB1, encara se li suma un format per Jaén i Sierra de Cazorla amb una única entrada cada una. I un altre entre Landes i Cuenca de Pamplona (amb 2 i 1 entrades respectives). Grup possible només perquè en definir els veïnatges es preferir ‘connectar’ Landes amb Pamplona, per no deixar-la completament aïllada.

Fins aquí, la presentació dels resultats del càlcul dels dos classificadors (IB1 i IGT) sobre els grups de formes de les 3.104 epigrafies contextualitzades conegudes. Mirem de comentar-ne les possibles derivades.

Comentari

D’entrada, remarcar que a diferència del primer intent realitzat, les agrupacions comarcals detectades aquí no s’han fet a base de comparar el seus signaris i per tant, els conjunts sígnics que es detecten són una conseqüència, no una causa.

En segon lloc, també és evident que el fet de triar la fusió comarcal que aporti la millora més gran, premia la creació de grups a partir de les comarques amb més epigrafies. Un efecte que pot ser desitjable, però cal entendre que una estratègia diferent podria donar resultats diversos. Per exemple, si en comptes de triar la millora més gran triéssim la més petita, l’algoritme començaria probablement fusionant les comarques veïnes amb menys epigrafies, i ben probablement, de retruc tindríem uns mapes ben diferents. Però això no s’ha provat…

Agrupacions comarcals segons classificador IB1

Quedem-nos doncs amb les dades que sí tenim i fem una ullada als signaris de les agrupacions detectades, just abans que els grans grups es comencin a fusionar. En el cas del classificador IB1 era el pas 50é i definia cinc grups.

IB1 pas 50.

Si els ordenem per nombre d’epigrafies tenim:

  1. El grup més gran, diguem-li ‘català‘ amb 37 comarques i 1.647 epigrafies (Garrotxa, Baix_Ebre, Pla_de_l_Estany, Tarragonès, Alt_Penedès, Pla_d_Urgell, Alta_Garona, Gironès, Llitera, Noguera, Segrià, Urgell, Berguedà, Baix_Llobregat, Barcelonès, Vallès_Occidental, Aude, Erau, Rosselló, Alt_Empordà, Baix_Empordà, Alta_Cerdanya, La_Selva, Vallès_Oriental, Maresme, Anoia, Segarra, Baixa_Cerdanya, Les_Garrigues, Ribera_d_Ebre, Solsonès, Priorat, Osona, Pallars_Jussà, Bages, Baix_Camp, Montsià).
  2. El ‘Sedetà‘ amb cinc comarques i 613 epigrafies (Ports, Andorra-Serra_d_Arcs, Baix_Martín, Maestrat_aragonès, Baix_Aragó).
  3. El ‘valencià‘ amb 6 comarques i 355 epigrafies (La_Plana_d_Utiel-Requena, Plana_Baixa, Camp_de_Túria, Camp_de_Morvedre, Serrans, Plana_Alta,)
  4. El ‘saragossà‘ amb 4 comarques i 25 epigrafies (Monegres, Ribera_Baixa_de_l_Ebre, Cinco_Villas, Saragossa):
  5. I el ‘jacetà‘ amb 2 comarques i 7 epigrafies (Jacetània, Foia_d_Osca).

Tenim doncs 3 grups sígnics derivats de centenars d’epigrafies i un parell de grups menors amb molt poc suport evidencial (tot i que no per això, a ignorar). Passem a l’eina de Cronologia del Corpus Iberika i mirem quins signaris conformen aquests tres grans grups.

Formes del signari del grup ‘català’.

Formes del signari del grup ‘sedetà’.

Formes del signari del grups ‘valencià’.

Tots tres signaris tenen formes en totes les 33 categories/bases del signari simplificat (tret dels signes espiga en el cas ‘valencià’) i per tant indiquen que l’evidència disponible cobreix raonablement bé la totalitat del mostrari semi-alfabètic. El cas ‘català’ amb 150 formes de les 170 definides és el més complet. El segueix el cas ‘valencià’ amb 132, i finalment el signari ‘sedetà’ amb 86. Sembla rellevant que aquest darrer, tot i ser el segon per nombre d’epigrafies tingui ‘només’ un ≃60%  de formes dels signaris costaners ‘català’ i ‘valencià’ (pensant en el jaciment d’Azaila, pot ser per ser més tardaner?)

Si comparem el signari ‘català’ vs. el ‘valencià’, ens dóna:

On veiem que el signari ‘valencià’ a més de compartir 116 formes (és a dir, la majoria) només afegeix 7 formes exclusives mentre que li manquen 36, o sigui un ≃30% del total. Però tal i com es pot veure, aquests 36 (en vermell en la imatge) es concentren en les formes situades més avall i per tant més infreqüents o rares. S’aparten d’aquesta darrera consideració, però les formes dels signes Espiga i Bu que sí apunten clarament a una diferenciació sistèmica.

Si ara comparem el signari ‘català’ vs. el ‘sedetà’, tenim:

On es veu clarament que les 86 formes del signari conegut dels ‘sedetans’ són un subconjunt, una simplificació de les del signari ‘català’. Afegeix només 4 formes (i dues d’elles en la categoria de formes ‘rares’,f0) i algunes de les 33 bases estan fortament reduïdes (com els casos de: O, Be, Ki, Bu, Metr).

Si finalment comparen els signaris ‘valencià’ i ‘sedetà’, el resultat és:

La part compartida és molt semblant en mida a la que el signari ‘sedetà’ té amb el ‘català’ (82 vs.76). Així mateix, un part molt important de signes ‘valencians’ manquen en el repertori ‘sedetà’ (47 ≃30%). Potser el més cridaner sigui l’ús ‘sedetà’ dels signes Espiga i Metr. a semblança del cas ‘català’ i diferència del ‘valencià’.

Els altres dos grups sígnics detectats per el classificador IB1, semblen massa fragmentaris com per poder dir-ne gran cosa (52 formes en el cas ‘saragossà’ i 16 en el ‘jacetà’).

Formes del signari del grup ‘saragossà’.

Formes del signari dels grup ‘jacetà’.

Com a molt, només fer notar la proliferació de formes Te del grup ‘saragossà’.

Passem a les agrupacions detectades per l’altre classificador.

Agrupacions comarcals segons classificador IGT

El mapa just abans que el grup majoritari comenci a cruspir-se el seus veïns era al pas 48é i detectava fins a 8 grups diferents.

IGT pas 48.

Ordenats per nombre d’epigrafies dóna:

  1. El ‘català‘ amb 37 comarques i 1.661 epigrafies (Montsià,Pla_d_Urgell, Terra_Alta, Baix_Camp, Osona, Berguedà, Ribera_d_Ebre, Alt_Penedès, Priorat, Segrià, Urgell, Segarra, Baix_Llobregat, arcelonès, Vallès_Occidental, Vallès_Oriental, Maresme, Baixa_Cerdanya, Aude, Erau, Rosselló, Alt_Empordà, Alta_Cerdanya, Baix_Empordà, Alta_Garona, La_Selva, Anoia, Solsonès, Les_Garrigues, Llitera, Noguera, Gironès, Bages, Alt_Camp, Tarragonès, Pallars_Jussà, Baix_Maestrat).
  2. El ‘sedetà‘ amb 4 comarques i 608 epigrafies (Ports, Andorra-Serra_d_Arcs, Baix_Martín, Baix_Aragó).
  3. El ‘valencià‘ també amb 4 comarques i 195 epigrafies (Plana_Baixa, Horta_Nord, Camp_de_Túria, Camp_de_Morvedre).
  4. L”aragonés‘ amb 2 comarques i 14 epigrafies (Ribera_Baixa_de_l_Ebre, Monegres).
  5. L”alacanti‘ amb 3 comarques i 7 epigrafies (Alacantí, Vinalopó_Mitjà, Baix_Vinalopó).
  6. El ‘tarassonenc‘ amb 2 comarques i 7 epigrafies (Rioja_Baixa, Tarassona_i_el_Moncayo).
  7. El ‘palantí‘ amb 2 comarques i 4 epigrafies (Alt_Palància, Gúdar-Javalambre).
  8. L”illenc‘ amb 2 comarques i 2 epigrafies (Menorca, Pitiüses).

Molta fragmentació ja que només els tres primers grups tenen un nombre d’epigrafies rellevant. Els altres sis grups, plegats, només es basen en 34 epigrafies (≃un 1% del total), i per tant, més enllà de mostrar la capacitat discriminant del classificador IGT, no sembla que amb una base evidencial tan petita es pugui derivar cap patró rellevant. Més aviat, il·lustrar com en situacions amb poques dades hi ha el perill de confondre el soroll amb el senyal.

I els tres primers, tot i que amb petites diferències, segueixen molt de prop els tres grups principals del classificador IB1, que ja hem comentat. De manera que per a la tasca que ens ocupa aquí, es diria que amb les dades disponibles:

  1. El classificador IB1 proporciona un grau de generalització millor.
  2. Que la coincidència de resultats dels dos classificadors, suggereix clarament la possibilitat de l’existència de fins a tres agrupacions comarcals majors, la ‘catalana’ , la ‘valenciana’ i la ‘sedetana’ per el que fa als grups sígnics emprats en les seves epigrafies. Grups però, amb una base sígnica compartida majoritària, quantitativament parlant.
  3. El fet que es puguin detectar grups minoritaris basats en molt poques epigrafies, apunta a que tot i que els texts han estat reduïts a les seves formes constituents, les diferents combinacions permeten diferenciar-los. Dit altrament, s’estan diferenciant -indirectament- per ‘el que hi posa’.

Suma

Les tres agrupacions comarcals detectades per els classificadors IB1 i IGT cal sumar-les a les dues detectades prèviament per comparació de signaris. De fet, es complementen força bé entre sí. Si considerant només els signaris comarcals es podien discernir bé un grup ‘septimà’ (d’Empúries al nord dels Pirineus i amb Erau com a epicentre)  i un de ‘valencià’ (entre l’Ebre i València i amb Camp de Túria al capdavant).

Grups comarcals detectats per intercomarcalitatinversa.

Considerant les epigrafies, ens apareix el tercer nucli, el ‘sedetà’, el més ben documentat localment, tot i que poc diferenciat per el seu signari, ja que hem vist que era un subconjunt del del nord, i per això menys visible sota una mirada per conjunts de formes comarcals. Tenim doncs que aquests ‘epicorismes ibèrics’ ens dibuixen fins a 5 grups comarcals diferents a considerar, als que cal sumar de retruc les seves interseccions i exclusions. O sigui, superposant mapes:

Superposició de tots els grups comarcals detectats.

Pas mal!. Molta teca nova a pair…

Coda

El fet que els classificadors siguin capaços de diferenciar conjunts amb molt poques epigrafies, té una doble lectura. En la part positiva, explicita que si sota una reducció extrema de les dades com la que s’ha aplicat aquí, es poden fer aquestes diferenciacions, quan es considerin els texts com a tals, és a dir, es faci servir tota la informació disponible, les possibilitats d’extreure’n dades rellevants són ben reals. En la part negativa, que també és ben real el perill, sempre present quan les dades són escasses, de prendre el detall com a categoria o el soroll com a senyal.

En tot cas, és un primer (i limitat) exemple de les possibilitats que l’anàlisi estadística pot obrir amb les dades que ja tenim. És perfectament possible dissenyar una bateria de proves més sistemàtica i àmplia (per exemple, aquí només s’han emprat dues variants del coeficient IGR). Com també sembla raonable mirar d’aplicar aquestes metodologies estadístiques en altres tasques, per exemple, com dèiem, per mirar de recontextualitzar les epigrafies orfes de context original. Recordant, això sí, les limitacions estructurals d’aquests sistemes. Entre elles, que són incapaços de generar nova informació, i que per tant, els seus resultats han de ser entesos sempre en el conjunt de coneixements del domini que s’estigui tractant.

Però sí que poden resultar decisius a l’hora d’examinar l’estructura de la pròpia escriptura i llenguatge ibèric. La quantitat de coneixement sobre tractament computacional (i estadístic) de texts acumulat durant les darreres dècades és formidable!

Cal que comencin a parlar els experts en Lingüística Computacional. Les dades ja hi són[3]!

 

– Actualització 2022-X-13

Per claredat s’ha canviat la denominació original del classificador IG, per IB1 que és la de l’algoritme aplicat, i la IGR a IGT, per l’algoritme IgTree.

 

 

– Actualització 2022-X-14

Per compleció, ha semblat oportú mostrar també el resultat d’aplicar el coeficient IG en lloc del IGR.

Amb el mateix algoritme IB1 però fent servir IG, els resultats són força similars (l’evolució pas a pas, en la versió SVG).

L’evolució del classificador és un xic més llarga, però amb la mateixa estructura:

Evolució classificador IB1-IG

En aquest cas, és al pas 44è que es dona la major detecció de grups comarcals abans de la seva unificació.

Pas 44è del classificador IB1-IG

Als tres grups comarcals ja detectats prèviament li afegeix un quart format per Comunitat de Calataiud i Aranda amb només 56 epigrafies (gairebé totes, de les seques Sekaisa i Bilbilis de context celtibèric) i que defineixen un signari fragmentari amb només 18 de les 33 bases definides com a signari simplificat.

Signari de Calataiud i Aranda.

El final de l’algoritme també és similar i al costat del grup majoritari detecta també la resta de grups aïllats.

Pas final del classificador IB1-IG

Es pot comprovar doncs, que l’ús del coeficient IG en lloc del de IGR no altera significativament els resultats (sí però el detall).

 

 

Notes

  • [1] BaixMartín=578, Erau=421, CampdeTúria=166, AltEmpordà=133, Aude=128, CampdeMorvedre=121, Maresme=117, Rosselló=82, Tarragonès=74, BaixEmpordà=73, Segrià=61, VallèsOriental=57, AltaCerdanya=57, Barcelonès=55, VallèsOccidental=53, ComunitatdeCalataiud=53, Saragossa=49, Segarra=42, AltaGarona=38, Anoia=31, LaPlanadUtielRequena=28, TierrasdelBurgo=27, RiberadEbre=27, AndorraSerradArcs=27, TarassonaielMoncayo=26, Osona=24, FoiadeBunyol=23, BaixAragó=23, PlanaBaixa=21, Costera=20, BaixLlobregat=20, Serrans=19, BaixaCerdanya=18, Urgell=16, Noguera=16, Solsonès=15, RiberaBaixadelEbre=14, PlanaAlta=14, LaSelva=14, Berguedà=14, HortadeMúrcia=13, FoiadOsca=13, CampdeBorja=13, LesGarrigues=12, CampdeCartagena=12, BaixMaestrat=11, RiberaAlta=10, Llitera=10, HortadeValència=10, CincoVillas=10, BaixVinalopó=9, HortaNord=8, Gironès=8, RiojaBaixa=7, Priorat=7, Jacetània=7, Valdejalón=6, PladUrgell=6, Matarranya=6, AltPenedès=6, Alcoià=6, Alacantí=6, Tudela=5, PallarsJussà=5, Montsià=5, Maestrataragonès=5, BaixCamp=5, Bages=5, AltCamp=5, Terol=4, MarinaBaixa=4, Càceres=4, BaixEbre=4, AltPalància=4, AltMaestrat=4, RiberaAltadelEbre=3, Ports=3, Mallorca=3, Jiloca=3, Comtat=3, CanaldeNavarrés=3, CampdeBelchite=3, Aranda=3, PladelEstany=2, Landes=2, BaixAragóCasp=2, VinalopóMitjà=1, ValledelGuadiato=1, ValldeRicote=1, ValldAlbaida=1, TerraAlta=1, Sòria=1, SierradeCazorla=1, Safor=1, Pitiüses=1, MonteIbéricoCorredordeAlmansa=1, Monegres=1, Menorca=1, Jaén=1, HortaOest=1, GúdarJavalambre=1, Garrotxa=1, ElCondadodeJaén=1, CuencadePamplona=1, ComarcadeTafalla=1, ComarcadelNoroeste=1, CampidanodiCagliari=1, BaixPenedès=1, BaixCinca=1, Alcalatén=1
  • [2] Corresponents a l’algoritme IB1 i IGTree del programari Timbl. desenvolupat per el grup dirigit per Walter Daelemans en la Universitat de Tilburg.
  • [3] Les dades que s’han fet servir en aquest experiment estan disponibles per a qui vulgui repetir-lo a: tim-dades.tar.gz. I les proves fetes amb el programari WEKA a: comadades.tar.gz.
Publicat dins de agrupacion sígniques, Alt Palància, Andorra-Serra d'Arcs, aprenentatge supervisat, Aranda, Azaila, Baix Martín, Baix Vinalopó, Balears, Bilbilis, Bu, Camp de Cartagena, Camp de Morvedre, Camp de Túria, Cinco Villas, classificadors estadístics, Comarques, comparació de signaris, comparació de variants, Comunitat de Calataiud, Corpus Ibèrika, cronologia, Cronologia avançada, Cuenca de Pamplona, Dades, Enserune, epicorismes, epicorismes ibèrics, Erau, Espiga, Foia d'Osca, ForestPA, formes, Gúdar-Javalambre, Horta de Múrcia, IB1, IG, IGR, IGTree, intercomarcalitat, intercomarcalitatinversa, Jaén, jacetans, Jacetània, Landes, Lingüística Computacional, Mallorca, matrius disperses, Menorca, Monegres, Pitiüses, Ribera Baixa d'Ebre, Rioja Baixa, sac de paraules, Saragossa, sedetans, Segeda, Sekaisa, Sierra de Cazorla, Signari ibèric, signari simplificat, signaris epicòrics, signaris ibèrics, SVG, Tarassona i el Moncayo, Timbl, Uncategorized, Vinalopó Mitjà, WEKA | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari