Més epicorismes ibèrics.

Tot just en el darrer apunt temàtic d’aquest bloc es va comentar una primera prova per detectar de forma estrictament quantitativa els signaris ibèrics ‘locals’ o ‘epicòrics’. És el cas ara de comentar un segon experiment, un xic més complex.

Classificadors

Allà, el mètode per comparar signaris es basava en una simple proporció de signes (formes , per ser exactes) compartits entre comarques veïnes; mètode que també semblà adequant per intentar re-contextualitzar les més de 500 epigrafies orfes de context arqueològic original conegut. La idea inicial, per motius de cost computacional, era (i és) oblidar-se de la natura textual de les epigrafies (del que ‘hi posa’), i reduir el text d’una determinada entrada a les seves ‘lletres’ constituents (de nou, formes, parlant amb propietat). Un exemple en català: si en una epigrafia hi posa “Ves per on”, la reduïm a:”enoprsV”. Una reducció extrema que tot i així pot ser hàbil si el que es vol detectar és prou genèric (en la literatura estadística es coneix com models de  ‘sacs de paraules/lletres‘). Havent gastat més d’una neurona fa més de vint anys raonant i programant sobre tècniques de classificació, el cas s’adaptava perfectament al que es coneix en la literatura informàtica com ‘aprenentatge supervisat‘.

En el Corpus Ibèrika tenim actualment 3.104 entrades epigràfiques localitzades geotemporalment, és a dir, 3.104 exemples per els quals sabem de quina comarca són. Si reduïm cada epigrafia a la llista de les seves formes constituents (que són com a màxim 170) podem construir una matriu rectangular  de 171 columnes (les primeres 170 per cada una de les formes possibles, i la 171ena per la comarca) i 3.104 files (una per cada epigrafia). I per tant, de retruc, podem mesurar la ‘importància’ de cada una de les formes per el que fa a identificar la comarca d’origen de cada epigrafia, a partir com diem, només, dels seus signes. De les infinites maneres de calcular un factor així, n’analitzarem dos de ben coneguts i establerts: IG i IGR, o sigui, guany d’informació/information gain, i proporció de guany d’informació/information gain ratio (una mesura de normalització del IG). Per veure gràficament de què estem parlant, podem mostrar el conjunt de les formes ibèriques augmentant o disminuint -aproximadament- la seva mida segons aquest factors.

Ja en el primer experiment on es comparaven els signaris de cada comarca amb els de les seves veïnes, a cada forma se la va valorar (entre 0 i 1) segons l’invers del ‘percentatge’ de comarques on constava (diguem-li intercomarcalitatinversa). Seguint la idea que, quan més freqüent un signe, menys rellevant hauria de ser. El resultat era:

Signari de les formes ibèriques segons intercomarcalitatinversa.

Si fem el mateix, però calculant la IG de cada forma en la matriu de les 3.104 epigrafies contextualitzades, tenim:

Signari de les formes ibèriques segons IG.

On es veu clarament com les formes que consten en més comarques (al revès del cas previ de la intercomarcalitatinversa) reben un factor més elevat.

I si calculem les IGR del mateix conjunt de dades, tenim:

Signari de les formes ibèriques segons IGR.

Una fórmula que mirant de reduir la ben coneguda preferència que el càlcul de IG té per els atributs (formes) presents en moltes classes (comarques), ens duu a un mapa de formes que està a mig camí entre la intercomarcalitatinversa i el de IG.

Fou en quest punt quan es pensà que aquesta metodologia es podia utilitzar també per mirar de detectar els signaris epicòrics ibèrics (si és que hi foren).

La idea fou aplicar el mateix algoritme que ja s’havia fer servir en la primera prova (recordem-ho: començant per un mapa on cada comarca va per separat, comparar cada comarca amb les seves veïnes i fusionar la millor parella que es trobi, repetint-ho fins que no hi hagin més comarques a fusionar), però en aquest cas, canviant la funció de comparació entre comarques i fent que en comptes de retornar un valor basat en la intercomarcalitatinversa, retorni el percentatge d’encerts de dues variants d’un classificador (segons IGR) en un corpus derivat del de 3,104 exemples on les dues comarques a comparar s’han fusionat en una de sola.

El raonament és simple. Quants més grups comarcals/comarques hi hagin, més difícil/improbable és que un classificador ‘encerti’ la comarca a partir d’un conjunt determinat de formes, així que anem reduint el nombre de grups comarcals, triant la fusió que maximitzi el nombre d’encerts. ‘Ad absurdum‘, si totes les comarques estan en un únic grup, el 100% d’encerts està assegurat!  🙂

El quid està en què des de la situació inicial (amb 110 comarques amb alguna epigrafia ibèrica), fins aquest final teòric amb només un únic grup, l’evolució de les agrupacions que es formin sí poden ser rellevants en la mesura que reflectiran una classificació automatitzada més acurada derivada exclusivament dels conjunts de formes coneguts a cada comarca. Entrem en matèria.

 

Dades

El primer que cal entendre és que voler predir la comarca d’una epigrafia només a partir de les lletres que la formen, en realitat, és una tasca impossible. El fet, és que la majoria de conjunts de signes existeixen en més d’una comarca, i per tant, fins i tot en el cas que el conjunt que es busca fos exactament un dels coneguts, la resposta ‘correcta’ seria sovint un conjunt de comarques, i per tant, la reducció a una sola, fa de l’encert, una qüestió de simple probabilitat.

A més, la distribució territorial d’aquestes 3.104 epigrafies localitzades és molt desigual (donem en nota la llista)[1]. La gràfica de les comarques ordenades per nombre d’epigrafies ho deixarà ben clar:

Comarques ordenades per nombre d’epigrafies.

Si en mirar la variabilitat sígnica ibèrica, Erau i Camp de Túria eren els llocs amb un repertori sígnic més extens, la comarca amb més entrades epigràfiques és Baix Martín, amb el jaciment d’Azaila (578),seguit sí, per Erau (421) i Camp de Túria (166). I tal i com es pot veure, la gran majoria de comarques tenen menys de 10 epigrafies conegudes. Per ser exactes, només 50 de les 110 comarques tenen 10 o més epigrafies. Mostrem la mateixa gràfica en escala logarítmica, per poder apreciar-ho millor.

Comarques per epigrafies, escala logarítmica.

De manera que, reaprofitant l’exemple del català anterior, voler encertar la comarca a partir de “enoprsV” és una tasca destinada al fracàs. I efectivament, cap dels classificadors basats en arbres de decisió provats sobre aquest corpus de 171×3104 cel·les (utilitzant el programari WEKA) no arriba ni al 50% d’encerts. O sigui s’equivoca més que encerta. Gairebé tots es queden en el 30% i només un cas (ForestPA) arriba al 40%. I és que com dèiem, la majoria dels conjunts sígnics que formen les epigrafies existeixen més o menys a tot arreu. Pitjor encara, la majoria d’epigrafies estan formades per unes poques lletres (en total tenim 26.182 signes en 3.643 entrades, o sigui que toca a 7 lletres per barba de mitjana), i per tant els conjunts de signes són usualment minúsculs (en terminologia estadística es diria que les dades són disperses). I per si fos poc, el mètode per provar un classificador consisteix usualment en separar aleatòriament un terç del total d’exemples (o sigui un miler, en el nostre cas), entrenar el classificador amb els altres 2.000 i mesurar si l’encerta o no amb el miler separat (+ repetir el procediment 10 vegades i mitjanar). Amb una distribució amb tantes comarques amb tant poques epigrafies és ben probable que entre les 2.000 per entrenar hi faltin comarques, i per tant sigui matemàticament impossible arribar al 100% d’encerts.

La gràcia però, està en què tot i les limitacions metodològiques, en la mesura que una agrupació intercomarcal millori el rendiment d’un classificador determinat, podem suposar que és degut a que està agrupant conjunts sígnics rellevants (per a la tasca de identificar la comarca a partir de conjunts de signes, s’entén).

La prova que s’ha fet ha estat aplicar dos classificadors diferents amb el programari Timbl[2] (IB1 i IGTree aplicant el coeficient IGR) sobre les mateixes dades i veure com evoluciona el procés de fusió intercomarcal; per conveniència els hi direm: IB1 i IGT. D’entrada, els dos classificadors es comporten de forma similar, i des de una configuració inicial de 110 comarques i un  ≃30% d’encerts, arriben a deixar-ne només 16 o 17 grups amb un ≃98% d’encerts. Mostrem la gràfica de l’evolució del classificador IB1.

Evolució classificador IB1

En l’eix horitzontal tenim els 95 passos que l’algoritme ha calculat. La línia blava va amb l’eix dretà i indica el % d’encert (normalitzat a 1), i la taronja indica el nombre de comarques (o grups de comarques) que s’estan utilitzant a cada pas. La gràfica del classificador IGT és força similar:

Evolució classificador IGT.

La línia de les comarques, com que l’algoritme a cada pas fusiona una única comarca, descendeix linealment (des de 110), però com es pot veure, la millora dels classificadors no. I és rellevant el comportament similar d’ambdós classificadors.

A una millora inicial lenta, aproximadament als 50 passos, hi ha un increment sobtat important en el nombre d’encerts (del ≃60% al ≃85%), seguida de nou d’una millora lenta fins arribar quasi al 100% i menys de 20 grups comarcals/comarques. L’explicació d’aquest comportament és bastant simple.

Les primeres fusions van creant grups comarcals separats que milloren la classificació de forma individuada i limitada, però a partir d’un punt, els grups s’han fet veïns i l’algoritme n’ha dictat la seva fusió. D’aquí l’increment sobtat central (el que s’està fusionant no són comarques aïllades, sinó grups comarcals), i d’aquí també que un cop exhaurides les possibles grans fusions, es retorni al creixement lent degut a la incorporació de les comarques aïllades que encara queden.

Per el que fa a la tasca de detecció de signaris epicòrics és evident que el punt que ens interessa és la configuració de grups comarcals just abans de la pujada sobtada. Mirem-ho en detall.

IB1

La primera fusió del classificador IB1 ens dóna aquest mapa (l’evolució pas a pas es pot seguir molt millor en la versió SVG, ja que permet aturar-se a cada pas i fer el zoom que es vulgui, però WordPress no permet la seva utilització en les seves pàgines i per tant aquí haurem de mostrar les imatges rellevants una a una):

Primer pas classificador IB1.

La fusió d’Erau amb 421 epigrafies i Aude amb 128 proporciona l’increment major inicial d’encerts. A partir d’aquí el grup es va expandint fins que al 9è pas apareix un segon grup:

Pas 9è del classificador IB1.

La comarca amb més epigrafies (578), Baix Martin es fusiona amb Andorra-Serra d’Arcs (27). El grup gran continuarà expandint-se fins que al pas 25è es detecta un tercer grup.

Pas 25è del classificador IB1,

Camp de Túria amb 166 epigrafies es fusiona amb Camp de Morvedre amb 121. El grup major continuarà expandint-se (i puntualment també els dos altres grups) fins que entre el pas 43 i 44 es creen dos grups més:

Pas 44è del classificador IB1.

Saragossa amb 49 entrades i Cinco Villas amb 10,  formen un grup propi i Jacetània (7 entrades) amb Foia d’Osca (13 entrades) un altre. Com es pot veure, els nous grups ja corresponen a un nombre limitat d’entrades epigràfiques. Aquests grups encara creixeran un xic més fins arribar al seu màxim en el pas 50è (just abans de l’increment sobtat en la gràfica de % d’encerts).

Pas 50è del classificador IB1.

A partir d’aquí i amb un rendiment d’un ≃60% d’encerts, el grup primer i més gran entra en contacte amb la resta, i en els següents passos els fagocitarà un rere l’altra i continuarà expandint-se fins la disposició final al pas 94è.

Pas final del classificador IB1.

On es pot observar a més del grup principal, un grup amb Horta de Múrcia i Camp de Cartagena (amb 13 i 12 entrades respectivament, detectat al pas 78è) i un amb Mallorca i Menorca (amb 3 i 1 epigrafies respectivament) que apareix en el pas final.

 

IGT

L’evolució del classificador IGT és força semblant, però amb diferències significatives ja que mostra una millor capacitat discriminant (de nou, l’evolució pas a pas es pot seguir millor en la versió SVG). El començament és idèntic:

Primer pas del classificador IGT.

Al pas 13è es detecta l’inici del grup de Camp de Túria:

Pas 13è del classificador IGT,

I al 19è l’inici del grup de Baix Martín.

Pas 19è del classificador per IGT.

A partir d’aquí l’evolució és lleugerament diferent. Al pas 37è ens apareix un nou grup aïllat.

Pas 37è del classificador IGT.

Rioja Baixa i Tarassona i el Moncayo (amb 7  i 26 epigrafies cada una) formen un grup propi. Al 39è se’n detecta un altre.

Pas 39è del classificador IGT.

Ara són els Monegres i la Ribera Baixa d’Ebre (amb 1  i 14 epigrafies respectivament) els que es diferencien de la resta. Al 42é, encara se’n crea un de nou en la zona ‘valenciana’.

L’Alt Palància i Gúdar-Javalambre (amb 4 i 1 epigrafies respectivament).

Pas 42è del classificador IGT.

I en els passos 43è i 44è encara se’n crearan dos més.

Pas 44è del classificador IGT.

Un amb el Vinalopó Mitjà i el Baix Vinalopó (amb 1 i 9 entrades respectives). I un d’illenc amb Menorca i les Pitiüses, amb només una entrada cada una. Serà en el pas 48é quan el grup principal (i inicial) entrarà en contacte amb la resta i començarà el procès de fusió de grups que farà saltar el % d’encerts del ≃58% al ≃86%.

Pas 48é del classificador per IGT.

El final del procés del classificador IGT s’assembla al del classificador IB1 i després d’haver creat un grup hegemònic, també acaba per detectar els petits grups aïllats; en aquest cas, amb un xic més detall.

Pas 95è i final del classificador IGT,

On a més del grup ‘murcià’ i ‘illenc’ detectats per el classificador IB1, encara se li suma un format per Jaén i Sierra de Cazorla amb una única entrada cada una. I un altre entre Landes i Cuenca de Pamplona (amb 2 i 1 entrades respectives). Grup possible només perquè en definir els veïnatges es preferir ‘connectar’ Landes amb Pamplona, per no deixar-la completament aïllada.

Fins aquí, la presentació dels resultats del càlcul dels dos classificadors (IB1 i IGT) sobre els grups de formes de les 3.104 epigrafies contextualitzades conegudes. Mirem de comentar-ne les possibles derivades.

Comentari

D’entrada, remarcar que a diferència del primer intent realitzat, les agrupacions comarcals detectades aquí no s’han fet a base de comparar el seus signaris i per tant, els conjunts sígnics que es detecten són una conseqüència, no una causa.

En segon lloc, també és evident que el fet de triar la fusió comarcal que aporti la millora més gran, premia la creació de grups a partir de les comarques amb més epigrafies. Un efecte que pot ser desitjable, però cal entendre que una estratègia diferent podria donar resultats diversos. Per exemple, si en comptes de triar la millora més gran triéssim la més petita, l’algoritme començaria probablement fusionant les comarques veïnes amb menys epigrafies, i ben probablement, de retruc tindríem uns mapes ben diferents. Però això no s’ha provat…

Agrupacions comarcals segons classificador IB1

Quedem-nos doncs amb les dades que sí tenim i fem una ullada als signaris de les agrupacions detectades, just abans que els grans grups es comencin a fusionar. En el cas del classificador IB1 era el pas 50é i definia cinc grups.

IB1 pas 50.

Si els ordenem per nombre d’epigrafies tenim:

  1. El grup més gran, diguem-li ‘català‘ amb 37 comarques i 1.647 epigrafies (Garrotxa, Baix_Ebre, Pla_de_l_Estany, Tarragonès, Alt_Penedès, Pla_d_Urgell, Alta_Garona, Gironès, Llitera, Noguera, Segrià, Urgell, Berguedà, Baix_Llobregat, Barcelonès, Vallès_Occidental, Aude, Erau, Rosselló, Alt_Empordà, Baix_Empordà, Alta_Cerdanya, La_Selva, Vallès_Oriental, Maresme, Anoia, Segarra, Baixa_Cerdanya, Les_Garrigues, Ribera_d_Ebre, Solsonès, Priorat, Osona, Pallars_Jussà, Bages, Baix_Camp, Montsià).
  2. El ‘Sedetà‘ amb cinc comarques i 613 epigrafies (Ports, Andorra-Serra_d_Arcs, Baix_Martín, Maestrat_aragonès, Baix_Aragó).
  3. El ‘valencià‘ amb 6 comarques i 355 epigrafies (La_Plana_d_Utiel-Requena, Plana_Baixa, Camp_de_Túria, Camp_de_Morvedre, Serrans, Plana_Alta,)
  4. El ‘saragossà‘ amb 4 comarques i 25 epigrafies (Monegres, Ribera_Baixa_de_l_Ebre, Cinco_Villas, Saragossa):
  5. I el ‘jacetà‘ amb 2 comarques i 7 epigrafies (Jacetània, Foia_d_Osca).

Tenim doncs 3 grups sígnics derivats de centenars d’epigrafies i un parell de grups menors amb molt poc suport evidencial (tot i que no per això, a ignorar). Passem a l’eina de Cronologia del Corpus Iberika i mirem quins signaris conformen aquests tres grans grups.

Formes del signari del grup ‘català’.

Formes del signari del grup ‘sedetà’.

Formes del signari del grups ‘valencià’.

Tots tres signaris tenen formes en totes les 33 categories/bases del signari simplificat (tret dels signes espiga en el cas ‘valencià’) i per tant indiquen que l’evidència disponible cobreix raonablement bé la totalitat del mostrari semi-alfabètic. El cas ‘català’ amb 150 formes de les 170 definides és el més complet. El segueix el cas ‘valencià’ amb 132, i finalment el signari ‘sedetà’ amb 86. Sembla rellevant que aquest darrer, tot i ser el segon per nombre d’epigrafies tingui ‘només’ un ≃60%  de formes dels signaris costaners ‘català’ i ‘valencià’ (pensant en el jaciment d’Azaila, pot ser per ser més tardaner?)

Si comparem el signari ‘català’ vs. el ‘valencià’, ens dóna:

On veiem que el signari ‘valencià’ a més de compartir 116 formes (és a dir, la majoria) només afegeix 7 formes exclusives mentre que li manquen 36, o sigui un ≃30% del total. Però tal i com es pot veure, aquests 36 (en vermell en la imatge) es concentren en les formes situades més avall i per tant més infreqüents o rares. S’aparten d’aquesta darrera consideració, però les formes dels signes Espiga i Bu que sí apunten clarament a una diferenciació sistèmica.

Si ara comparem el signari ‘català’ vs. el ‘sedetà’, tenim:

On es veu clarament que les 86 formes del signari conegut dels ‘sedetans’ són un subconjunt, una simplificació de les del signari ‘català’. Afegeix només 4 formes (i dues d’elles en la categoria de formes ‘rares’,f0) i algunes de les 33 bases estan fortament reduïdes (com els casos de: O, Be, Ki, Bu, Metr).

Si finalment comparen els signaris ‘valencià’ i ‘sedetà’, el resultat és:

La part compartida és molt semblant en mida a la que el signari ‘sedetà’ té amb el ‘català’ (82 vs.76). Així mateix, un part molt important de signes ‘valencians’ manquen en el repertori ‘sedetà’ (47 ≃30%). Potser el més cridaner sigui l’ús ‘sedetà’ dels signes Espiga i Metr. a semblança del cas ‘català’ i diferència del ‘valencià’.

Els altres dos grups sígnics detectats per el classificador IB1, semblen massa fragmentaris com per poder dir-ne gran cosa (52 formes en el cas ‘saragossà’ i 16 en el ‘jacetà’).

Formes del signari del grup ‘saragossà’.

Formes del signari dels grup ‘jacetà’.

Com a molt, només fer notar la proliferació de formes Te del grup ‘saragossà’.

Passem a les agrupacions detectades per l’altre classificador.

Agrupacions comarcals segons classificador IGT

El mapa just abans que el grup majoritari comenci a cruspir-se el seus veïns era al pas 48é i detectava fins a 8 grups diferents.

IGT pas 48.

Ordenats per nombre d’epigrafies dóna:

  1. El ‘català‘ amb 37 comarques i 1.661 epigrafies (Montsià,Pla_d_Urgell, Terra_Alta, Baix_Camp, Osona, Berguedà, Ribera_d_Ebre, Alt_Penedès, Priorat, Segrià, Urgell, Segarra, Baix_Llobregat, arcelonès, Vallès_Occidental, Vallès_Oriental, Maresme, Baixa_Cerdanya, Aude, Erau, Rosselló, Alt_Empordà, Alta_Cerdanya, Baix_Empordà, Alta_Garona, La_Selva, Anoia, Solsonès, Les_Garrigues, Llitera, Noguera, Gironès, Bages, Alt_Camp, Tarragonès, Pallars_Jussà, Baix_Maestrat).
  2. El ‘sedetà‘ amb 4 comarques i 608 epigrafies (Ports, Andorra-Serra_d_Arcs, Baix_Martín, Baix_Aragó).
  3. El ‘valencià‘ també amb 4 comarques i 195 epigrafies (Plana_Baixa, Horta_Nord, Camp_de_Túria, Camp_de_Morvedre).
  4. L”aragonés‘ amb 2 comarques i 14 epigrafies (Ribera_Baixa_de_l_Ebre, Monegres).
  5. L”alacanti‘ amb 3 comarques i 7 epigrafies (Alacantí, Vinalopó_Mitjà, Baix_Vinalopó).
  6. El ‘tarassonenc‘ amb 2 comarques i 7 epigrafies (Rioja_Baixa, Tarassona_i_el_Moncayo).
  7. El ‘palantí‘ amb 2 comarques i 4 epigrafies (Alt_Palància, Gúdar-Javalambre).
  8. L”illenc‘ amb 2 comarques i 2 epigrafies (Menorca, Pitiüses).

Molta fragmentació ja que només els tres primers grups tenen un nombre d’epigrafies rellevant. Els altres sis grups, plegats, només es basen en 34 epigrafies (≃un 1% del total), i per tant, més enllà de mostrar la capacitat discriminant del classificador IGT, no sembla que amb una base evidencial tan petita es pugui derivar cap patró rellevant. Més aviat, il·lustrar com en situacions amb poques dades hi ha el perill de confondre el soroll amb el senyal.

I els tres primers, tot i que amb petites diferències, segueixen molt de prop els tres grups principals del classificador IB1, que ja hem comentat. De manera que per a la tasca que ens ocupa aquí, es diria que amb les dades disponibles:

  1. El classificador IB1 proporciona un grau de generalització millor.
  2. Que la coincidència de resultats dels dos classificadors, suggereix clarament la possibilitat de l’existència de fins a tres agrupacions comarcals majors, la ‘catalana’ , la ‘valenciana’ i la ‘sedetana’ per el que fa als grups sígnics emprats en les seves epigrafies. Grups però, amb una base sígnica compartida majoritària, quantitativament parlant.
  3. El fet que es puguin detectar grups minoritaris basats en molt poques epigrafies, apunta a que tot i que els texts han estat reduïts a les seves formes constituents, les diferents combinacions permeten diferenciar-los. Dit altrament, s’estan diferenciant -indirectament- per ‘el que hi posa’.

Suma

Les tres agrupacions comarcals detectades per els classificadors IB1 i IGT cal sumar-les a les dues detectades prèviament per comparació de signaris. De fet, es complementen força bé entre sí. Si considerant només els signaris comarcals es podien discernir bé un grup ‘septimà’ (d’Empúries al nord dels Pirineus i amb Erau com a epicentre)  i un de ‘valencià’ (entre l’Ebre i València i amb Camp de Túria al capdavant).

Grups comarcals detectats per intercomarcalitatinversa.

Considerant les epigrafies, ens apareix el tercer nucli, el ‘sedetà’, el més ben documentat localment, tot i que poc diferenciat per el seu signari, ja que hem vist que era un subconjunt del del nord, i per això menys visible sota una mirada per conjunts de formes comarcals. Tenim doncs que aquests ‘epicorismes ibèrics’ ens dibuixen fins a 5 grups comarcals diferents a considerar, als que cal sumar de retruc les seves interseccions i exclusions. O sigui, superposant mapes:

Superposició de tots els grups comarcals detectats.

Pas mal!. Molta teca nova a pair…

Coda

El fet que els classificadors siguin capaços de diferenciar conjunts amb molt poques epigrafies, té una doble lectura. En la part positiva, explicita que si sota una reducció extrema de les dades com la que s’ha aplicat aquí, es poden fer aquestes diferenciacions, quan es considerin els texts com a tals, és a dir, es faci servir tota la informació disponible, les possibilitats d’extreure’n dades rellevants són ben reals. En la part negativa, que també és ben real el perill, sempre present quan les dades són escasses, de prendre el detall com a categoria o el soroll com a senyal.

En tot cas, és un primer (i limitat) exemple de les possibilitats que l’anàlisi estadística pot obrir amb les dades que ja tenim. És perfectament possible dissenyar una bateria de proves més sistemàtica i àmplia (per exemple, aquí només s’han emprat dues variants del coeficient IGR). Com també sembla raonable mirar d’aplicar aquestes metodologies estadístiques en altres tasques, per exemple, com dèiem, per mirar de recontextualitzar les epigrafies orfes de context original. Recordant, això sí, les limitacions estructurals d’aquests sistemes. Entre elles, que són incapaços de generar nova informació, i que per tant, els seus resultats han de ser entesos sempre en el conjunt de coneixements del domini que s’estigui tractant.

Però sí que poden resultar decisius a l’hora d’examinar l’estructura de la pròpia escriptura i llenguatge ibèric. La quantitat de coneixement sobre tractament computacional (i estadístic) de texts acumulat durant les darreres dècades és formidable!

Cal que comencin a parlar els experts en Lingüística Computacional. Les dades ja hi són[3]!

 

– Actualització 2022-X-13

Per claredat s’ha canviat la denominació original del classificador IG, per IB1 que és la de l’algoritme aplicat, i la IGR a IGT, per l’algoritme IgTree.

 

 

– Actualització 2022-X-14

Per compleció, ha semblat oportú mostrar també el resultat d’aplicar el coeficient IG en lloc del IGR.

Amb el mateix algoritme IB1 però fent servir IG, els resultats són força similars (l’evolució pas a pas, en la versió SVG).

L’evolució del classificador és un xic més llarga, però amb la mateixa estructura:

Evolució classificador IB1-IG

En aquest cas, és al pas 44è que es dona la major detecció de grups comarcals abans de la seva unificació.

Pas 44è del classificador IB1-IG

Als tres grups comarcals ja detectats prèviament li afegeix un quart format per Comunitat de Calataiud i Aranda amb només 56 epigrafies (gairebé totes, de les seques Sekaisa i Bilbilis de context celtibèric) i que defineixen un signari fragmentari amb només 18 de les 33 bases definides com a signari simplificat.

Signari de Calataiud i Aranda.

El final de l’algoritme també és similar i al costat del grup majoritari detecta també la resta de grups aïllats.

Pas final del classificador IB1-IG

Es pot comprovar doncs, que l’ús del coeficient IG en lloc del de IGR no altera significativament els resultats (sí però el detall).

 

 

Notes

  • [1] BaixMartín=578, Erau=421, CampdeTúria=166, AltEmpordà=133, Aude=128, CampdeMorvedre=121, Maresme=117, Rosselló=82, Tarragonès=74, BaixEmpordà=73, Segrià=61, VallèsOriental=57, AltaCerdanya=57, Barcelonès=55, VallèsOccidental=53, ComunitatdeCalataiud=53, Saragossa=49, Segarra=42, AltaGarona=38, Anoia=31, LaPlanadUtielRequena=28, TierrasdelBurgo=27, RiberadEbre=27, AndorraSerradArcs=27, TarassonaielMoncayo=26, Osona=24, FoiadeBunyol=23, BaixAragó=23, PlanaBaixa=21, Costera=20, BaixLlobregat=20, Serrans=19, BaixaCerdanya=18, Urgell=16, Noguera=16, Solsonès=15, RiberaBaixadelEbre=14, PlanaAlta=14, LaSelva=14, Berguedà=14, HortadeMúrcia=13, FoiadOsca=13, CampdeBorja=13, LesGarrigues=12, CampdeCartagena=12, BaixMaestrat=11, RiberaAlta=10, Llitera=10, HortadeValència=10, CincoVillas=10, BaixVinalopó=9, HortaNord=8, Gironès=8, RiojaBaixa=7, Priorat=7, Jacetània=7, Valdejalón=6, PladUrgell=6, Matarranya=6, AltPenedès=6, Alcoià=6, Alacantí=6, Tudela=5, PallarsJussà=5, Montsià=5, Maestrataragonès=5, BaixCamp=5, Bages=5, AltCamp=5, Terol=4, MarinaBaixa=4, Càceres=4, BaixEbre=4, AltPalància=4, AltMaestrat=4, RiberaAltadelEbre=3, Ports=3, Mallorca=3, Jiloca=3, Comtat=3, CanaldeNavarrés=3, CampdeBelchite=3, Aranda=3, PladelEstany=2, Landes=2, BaixAragóCasp=2, VinalopóMitjà=1, ValledelGuadiato=1, ValldeRicote=1, ValldAlbaida=1, TerraAlta=1, Sòria=1, SierradeCazorla=1, Safor=1, Pitiüses=1, MonteIbéricoCorredordeAlmansa=1, Monegres=1, Menorca=1, Jaén=1, HortaOest=1, GúdarJavalambre=1, Garrotxa=1, ElCondadodeJaén=1, CuencadePamplona=1, ComarcadeTafalla=1, ComarcadelNoroeste=1, CampidanodiCagliari=1, BaixPenedès=1, BaixCinca=1, Alcalatén=1
  • [2] Corresponents a l’algoritme IB1 i IGTree del programari Timbl. desenvolupat per el grup dirigit per Walter Daelemans en la Universitat de Tilburg.
  • [3] Les dades que s’han fet servir en aquest experiment estan disponibles per a qui vulgui repetir-lo a: tim-dades.tar.gz. I les proves fetes amb el programari WEKA a: comadades.tar.gz.
Advertisement
Aquesta entrada s'ha publicat en agrupacion sígniques, Alt Palància, Andorra-Serra d'Arcs, aprenentatge supervisat, Aranda, Azaila, Baix Martín, Baix Vinalopó, Balears, Bilbilis, Bu, Camp de Cartagena, Camp de Morvedre, Camp de Túria, Cinco Villas, classificadors estadístics, Comarques, comparació de signaris, comparació de variants, Comunitat de Calataiud, Corpus Ibèrika, cronologia, Cronologia avançada, Cuenca de Pamplona, Dades, Enserune, epicorismes, epicorismes ibèrics, Erau, Espiga, Foia d'Osca, ForestPA, formes, Gúdar-Javalambre, Horta de Múrcia, IB1, IG, IGR, IGTree, intercomarcalitat, intercomarcalitatinversa, Jaén, jacetans, Jacetània, Landes, Lingüística Computacional, Mallorca, matrius disperses, Menorca, Monegres, Pitiüses, Ribera Baixa d'Ebre, Rioja Baixa, sac de paraules, Saragossa, sedetans, Segeda, Sekaisa, Sierra de Cazorla, Signari ibèric, signari simplificat, signaris epicòrics, signaris ibèrics, SVG, Tarassona i el Moncayo, Timbl, Uncategorized, Vinalopó Mitjà, WEKA i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out /  Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out /  Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out /  Canvia )

S'està connectant a %s

Aquest lloc utilitza Akismet per reduir els comentaris brossa. Apreneu com es processen les dades dels comentaris.