Segmentant l’ibèric i altres consonàntcies.

Aquest apunt és per explicar un experiment i algunes idees recents sobre l’escriptura ibèrica.

Una de les dificultats afegides de l’estudi de l’ibèric està en què tal i com passa en altres escriptures antigues, usualment no es registrava la separació entre paraules (probablement sota la premissa que si sabies llegir les lletres, ja hauries de poder entendre el sentit). Afortunadament, aquesta no és una afirmació categòrica, tota vegada que sí s’utilitzaren de vegades signes (barres d’entre un i sis punts en vertical) per separar conjunts de lletres, que segons la seva mida podem pensar que corresponen a frases, paraules o fins i tot síl·labes o abreviatures (ja que tampoc falten exemples d’un únic signe entre puntuacions – 21, per ser exactes, amb 12 signes diferents -).

Des del punt de vista filològic, els experts han creat diversos conjunts lèxics mirant de recollir les repeticions i patrons que s’observen en el conjunt epigràfic conegut[1]. Tot i que atesa la ignorància del funcionament de la llengua, han de relegar la majoria d’elements lèxics a una simple enumeració i que tampoc hi ha unanimitat en les propostes, precisament per la gran varietat de possibilitats a contemplar.

En el Corpus Ibèrika, conscients de la dificultat d’oferir una segmentació que fos entenedora i que pogués ser hàbil per a la majoria d’experts, es decantà per una aproximació purament algorítmica, que mostrés els fragments de cada entrada coexistents en altres epígrafs. És la subsecció de Seqüències  i les seccions de Concordances de cada entrada, i ja es va explicar els seus fonaments i funcionament en aquest bloc. És el cas ara, de tornar-hi però des del punt de vista lèxic. És a dir, mirant d’establir un conjunt de grups de signes (paraules, afixes, etc) que ens permetin composar la totalitat dels texts coneguts. Una proposta, de nou feta des de la Computació, que no la Filologia (ja agradaria, ja…), amb l’ànim precisament de mirar de facilitar-li la feina. Ho expliquem.

Segments

La Teoria de la informació ensenya que davant d’una seqüència arbitrària de signes, es poden cercar mecànicament els grups que es repeteixen (segons un criteri formal determinat, usualment: la concatenació), i així definir uns ‘diccionaris’ que permetin expressar la seqüencia inicial con una seriació dels grups així definits. De fet, és la base principal dels algoritmes de compressió (entesa com a reducció de redundàncies). El problema, quan estem parlant de texts, és que els grups que es detecten no tenen perquè tenir sentit per un lector; el criteri (matemàtic) per definir-les usualment no ho exigeix (la comprensió humana tampoc és formalitzable, de manera que, essencialment, tampoc ajudaria gaire si ho fossin…).

En el cas de les Concordances passa quelcom similar. El programa premia les seqüencies de lletres més llargues que existeixin en altres entrades, però les particions que es detecten no tenen perquè seguir cap criteri ‘filològic’, i per tant, sovint la partició presentada per defecte (la que més ‘ressona’ en la resta del Corpus) no té allò que potser s’esperaria un coneixedor dels texts ibèrics. Aquesta dificultat es soluciona, si més no parcialment, presentant al fons de la secció, la llista dels altres segments compartits detectats però no utilitzats, per tal que l’usuari pugui trobar, tot i així, el que potser buscava.

Si volem anar més enllà, la pregunta és: com ens ho podem fer per mirar de detectar les ‘paraules’ des d’un punt de vista programàtic i així poder tractar els texts com seqüències de termes d’un lèxic específic (tot esperant que la Filologia acabi definint les regles de l’ibèric)?

Mètode

El mètode que s’ha ideat descansa en dos fets. 1) La natura aparentment aglutinant dels texts, és a dir: Les ‘frases’ i ‘paraules’ es construeixen per concatenació de formants, ergo,  que aquests haurien de ser de mida raonablement curta, i. 2) El fet que tenim exemples en el Corpus de seqüències entre puntuacions d’unes poques lletres.

Ajuntant aquests dos principis ja podem imaginar una manera algorítmica de cercar aquestes ‘seqüències curtes’ (paraules, afixes?).

Definim una mida màxima (5 signes). Cerquem cada cas d’aquesta mida que estigui entre puntuacions, els anotem a part, els esborrem del Corpus i després cerquem si existeixen al començament o al final d’alguna altra entrada i també els esborrem. Fem-ho des de la mida gran (5) a la més petita (1) i si el procés d’una mida ha alterat el Corpus, tornem a la mida gran.

Entenguen ‘puntuació’ com a ‘no lletra‘ (o sigui, puntuació, però també espai, canvi de línia, caràcter indefinit o interrupció del suport), expressem el corpus en el signari simplificat de 31 ‘lletres’, i afegim-hi que per treure un fragment d’un inici o final cal que tingui dues ‘lletres’ més després (o abans), i ja casi ho tenim. Fet així, es detecten unes 1.900 ‘paraules’, però amb centenars de casos de 4 i 5 signes que sols apareixen un cop en el Corpus, de manera que afegim-hi un darrer procediment:

Mirem si aquests hàpaxs es poden dividir en parelles de segments més curts detectats prèviament, i si és així, eliminem-los, i dels que quedin, si hi n’hi ha que comencen per uns mateixos tres signes, crea l’entrada per aquests trilíters, i elimina els hàpaxs formats a partir d’ells.

En la entrada del procediment teníem un corpus expressat en signari simplificat i una llista de paraules buida, i al final, tenim una llista de ‘paraules’ (seqüències d’entre 1 i 5 signes) detectades, i un romanent del Corpus que no s’ha pogut partir (format per els fragments a prop de signes ‘no lletres‘). És un procediment determinista, que a part del contingut del corpus en sí, depèn només de dues variables: la mida màxima i el nombre de ‘lletres’ mínim abans o després d’un afixe per considerar-lo vàlid.

És un procediment ben simple[2] i amb unes limitacions ben evidents, però que tot i així permet uns resultats que són força interessants. La idea és fer servir aquest ‘diccionari computat’ a l’hora de presentar les entrades, i afegir a les Concordances, una secció de Segments, on el text de l’entrada s’expressi en funció d’aquest diccionari, i es pugui consultar amb un clic els llocs on es fan servir cada una de les ‘paraules’ triades…

Implementació

Anem primer per el Lèxic:

Lèxic del Corpus Ibèrika.

S’ha afegit una subsecció al Corpus on mostrar el Lèxic (s’hi accedeix des del menú esquerra de la Secció), i tal i com es pot veure, en contempla dues menes: el Computat, que acabem de descriure i que pot variar lleugerament cada vegada que s’actualitzen els continguts, i un de Manual, on poder especificar les entrades (paraules o afixes) definits per els experts.

Els dos es presenten de forma similar, agrupant les entrades ordenades per la seva inicial, en seccions que es poden desplegar o tancar amb un clic en la seva primera línia (signes +/) com es fa servir en tot el web.

El Lèxic Computat mostra les entrades en fins a tres colors: en negre (per defecte). en vermell, per mostrar les entrades que només es detecten un sol cop en el Corpus, o en blau, si el terme existeix també en el Lèxic Manual. Fent clic sobre qualsevulla d’elles es mostra la llista d’entrades on consten, amb els texts convenientment ressaltats per facilitar-ne la consulta.

El Lèxic Manual es mostra just a sota del Computat i no depèn en res d’ell. Es tracta d’un lloc nou on poder recollir un a un els termes que els experts van definint. Per diferenciar-los es mostren en blau, i amb un clic obren el dossier del terme corresponent. En mostrem l’exemple del terme eban:

La fitxa del terme eban.

Tractant-se d’una mena de dada nova, s’ha seguit el criteri habitual de màxima simplicitat. Per cada ‘paraula’ es descriu la seqüència de signes que la forma (en signari simplificat) de color vermell i que en clicar-la obra la llista d’entrades del Corpus on es coneix el terme. Opcionalment, si la seqüencia es considera ser composta, es detalla la seva partició en  Segments. La seva Transliteració seguint la costum de la literatura actual. El seu significat (o significats) si es coneixen o suposen (Traducció). I amb caràcter obligat la secció de Bibliografia on recollir un mínim de la literatura sobre el terme que permeti assegurar la seva existència formal. Completen la fitxa, les habituals seccions de Web i Comentaris on recollir les referències en línia d’accés públic sobre el terme i els comentaris que puguin ser rellevants.

La idea seria que, idealment, el lèxic computat estigués tot ell en blau, o sigui, que cada un dels termes calculats haguessin estat detectats i documentats per els experts. Evidentment, és només un desideratum atès el magre coneixement que tenim sobre l’ibèric, però sí que hauria de permetre avaluar amb un cop d’ull, a grosso modo, la distància entre la proposta computacional i la filològica.

Dades

Si passem a les noves dades, tenim que actualment tot just s’han definit una cinquantena de termes ‘manuals’, amb la voluntat, com dèiem, que a mida que els experts vagin arribant a conclusions més o menys compartides, es vagin incorporant termes al Lèxic Manual.

Si mirem el Lèxic Computat, la cosa és ben diferent. Amb el Corpus del moment d’escriure aquest apunt, el diccionari creat seguint els paràmetres enunciats, detecta 1.636 termes, (494 dels quals amb una única aparició), desglossats en: 31 d’una única lletra, 409 de dues, 554 de tres, 303 de quatre i 339 de cinc[3]. És a dir, totes les lletres del signari simplificat, poden actuar com afixes, un fet altament improbable. I la quantitat de  seqüències de més d’una lletra es situa entre els 300-500. Evitarem entrar en comentaris de tipus filològic, més enllà de fer notar que entre els termes bilíters, n’hi ha uns pocs que són parelles de consonants, i que per tant, tampoc sembla gaire encertat definir-los com afixes. Ara, més enllà d’aquestes (i altres) mancances evidents[4], sí es detecten els termes usuals en la literatura. De fet, de moment, tots el termes del Lèxic Manual existeixen en el Computat, un indici que el procediment, tot i ser només una primera temptativa, potser sí que té capacitat per ser hàbil. Passem a la seva utilització…

Tenint un lèxic (computat) a consultar, podem començar a mirar de segmentar els epígrafs.

La segmentació -actual- de la I02777.

I per fer això, s’ha afegit una secció Segments després de la de Glifs, en les entrades de Corpus, on es mostra el text segmentat en les ‘paraules’ del lèxic (en signari simplificat, en negre i entre puntuacions), i en gris les parts que no s’han pogut identificar (les puntuacions originals, interrupcions, etc). Fent clic en qualsevulla d’elles s’obre una Cerca per mostrar on apareixen en el Corpus. I de moment, això és tot el que es mostra.

Cal explicar però, el mètode per el qual es calcula la segmentació. I és ben simple, si més no de moment.

Seguint la idea de la concatenació d’afixes, el que es fa és: per cada fragment del text es comença per l’esquerra i es cerca el terme de lèxic més llarg que s’hi avingui. Si no se’n troba cap, es separa la lletra de l’extrem (d’aquí neixen els fragments en gris de la segmentació) i sant tornem-hi. Però com que la fragmentació és la norma, i no hi ha res que asseguri que l’inici d’un fragment efectivament comenci per una ‘paraula’, el que es fa, és repetir el procediment però a l’inrevés, des del final. De manera que un cop es tenen els dos resultats, es comparen, i si difereixen es tria la segmentació amb menys termes, i en cas d’empat (cas molt freqüent), es presenta la que tingui el sumatori d’aparicions en el Corpus de cada terme, més alt (un criteri francament dubtós, però que de moment s’aplica per simplicitat).

En l’estat actual, aquí s’acaba el procés, però no costa imaginar alternatives que potser donin millors resultats. N’enumerem unes quantes…

  1. Segmentar conjuntament totes les entrades d’una mateix grup (amb la idea que sovint s’hi repeteixen literalitats).
  2. Oferir diversos graus de segmentació, Posem un exemple en anglès: si tinguéssim la seqüència: ‘lookingforsunshine’, podríem partir-la en ‘lookingfor’ + ‘sunshine’, però també per ‘looking’ + ‘for’ + ‘sunshine’, o perquè no? en; ‘look’ + ‘ing’ + ‘for’ +’sun’ + ‘shine’ i totes elles serien segmentacions vàlides (cada una aporta un coneixement extra). En el cas de l’ibèric, de moment tenim la dificultat que el lèxic a utilitzar per partir els texts és computat i pot contenir, més ben dit, conté, paraules invàlides. Amb tot, sembla que és una prova digna de fer-se (tal vegada diferents nivells de segmentació permetin una millor aproximació al text).

Manca a més, presentar una informació nova i bàsica, com és la de les semblances amb les altres entrades del Corpus calculada a partir de les entrades lèxiques compartides (i no per cadenes de signes com es fa en les Concordances). Però tot això està encara en la cuina i n’haurem de parlar algun altre dia.

De moment, s’han posat les bases per tractar les epigrafies no sols con seqüències de símbols (fidels als originals), sinó plenament com a texts i un suport inicial al seu lèxic. Un canvi d’aparença discreta però de gran envergadura…

Passem ara a l’altra tema que s’ha anat examinant mentre es feia tot això: les ‘consonàntcies‘ del títol.

Noms i Sons

Segons la literatura sobre l’ibèric, s’han detectat gairebé un miler d’antropònims, una quantitat certament important[5]. De fet, tota seqüència de més o menys quatre síl·labes, separable en dues mitats pot ser un candidat. Estranya que no havent trobat ni articles, ni verbs, ni pràcticament res, els noms de persona siguin tan fàcils de detectar, no?. De fet, la debilitat d’un plantejament tan simple, hauria de fer sospitar. Els esquemes de denominació duals, són gairebé universals[6], i les possibles categories duals a emprar són múltiples i no excloents (persona/família, persona/lloc, nom/adjectiu, nom/càrrec, verb/teònim, etc, etc). Tot molt genèric i poc definit.

La Casualitat volgué que mentre s’estava rumiant la partició dels texts, l’atenció es fixà en una entrada amb el què segons la literatura és una llista de deu noms:

La I02143 (àlies la F.21.1).

És un plom escrit de través amb una llista de termes que transcrits seria més o menys quelcom així (sense fer diferència de fortis/lenis i amb ípsilon):

becoiiltun:
soribeis:
uŕcaŕailtur:
tueitikeiltun:
ikoŕiskeŕ:
otoiltiŕ:
selkiskeŕ:
otokeiltiŕ:
iskeiltun;
selkiyiltun:

S’entén que s’haguin considerats una llista de noms propis, son tots convenientment curts i fàcilment descomposables en dues mitats. Oi més, amb les repeticions que es donen entre ells (-iltun, -skeŕ, -iltiŕ, oto-, selk-), algunes d’elles molt estudiades.

Ara, més enllà d’aquesta primera impressió, si ens hi fixem, veurem que tots deu ‘noms’ tenen una i en la part central, més o menys on representa que hi hauria el nexe entre les dues formants. Una casualitat certament notable, no?

becoi i ltun:
sor i beis:
uŕcaŕa i ltur:
tueitike i ltun:
ikoŕ i skeŕ:
oto i ltiŕ:
selk i skeŕ:
otoke i ltiŕ:
iske i ltun;
selkiy i ltun:

La partició habitual, davant de termes tan ben coneguts i testimoniats com iltiŕ, potser ho podria interpretar com una casualitat, però la presència d’altres afixes ben coneguts com yi, o kei, fan pensar en quelcom un xic més complex. No tenint cap resposta a aquests interrogants, es tenia curiositat per veure com segmentaria el procediment explicat aquesta entrada. Aquí ho tenim:

La segmentació per lèxic de la I02143 i les seves concordances.

Si fem la transcripció, tenim que els segments lèxics trobats són (en vermell marquem els que només existeixen en aquesta entrada, o sigui, els hàpax):

becoii ltun:
sor ibei s:
uŕ caŕ ailtur:
tueiti kei ltun:
ikoŕ iskeŕ:
oto iltiŕ:
se lkis keŕ:
otoke iltiŕ:
iske iltu n;
se lki yi ltun:

Una proposta certament millorable, però tot i així interessant. Per exemple, els doblets -isker i selk- han estat interpretats diferentment en cada cas, mentre que la seqüència -iltun, tot i que ben documentada en el Corpus (i per això marcada en la segmentació per Concordances) ha restat tres cops ignorada en favor de -ltun, deixant la i central que dèiem, en el segment anterior (becoii-, -kei-, -yi-), però no així en el cas dels -iltiŕ. Per ser una partició mecànica, no està gens malament, i el que potser és més important, és fàcil identificar-ne les mancances.

D’entrada, quants més hàpax es detectin, pitjor, i en aquest sentit és de remarcar que tots els detectats es donen en la part inicial del ‘nom’ i tots ells amb alternatives de descomposició clares: beco-ii-tuei-ti, oto-ke, is-kei. Mentre que les segones formants són termes més habituals, fet congruent si pensem que poden indicar algun tipus de patronímia (són 10 noms però 5 ‘famílies’ -iltun, -ibeis, -iltur, -isker, iltiŕ, totes amb la i inicial que dèiem). Per altra banda, l’error de no haver identificat igual els iskeŕ del text, té a veure amb la natura semisil·làbica de l’ibèric. Atenent a la seva sonoritat (i en la notació alfabètica), es feia evident aquesta  i central però en aquest cas, la i del segon iskeŕ, no està aïllada, sinó en la vocalitat d’una ki. Un indici més que les paraules o afixes ibèrics poden començar al mig d’un sil·làbic[7].

Però si en el pla sintàctic, els sil·làbics semblen tenir rols específics (com els estudiadíssims -te-), també en el pla fonètic es pot argumentar que no s’està tenint en compte tota la seva potencialitat. Arribem a les consonàntcies..

La idea és ben simple:

I si un sil·làbic després d’una consonant li pogués canviar el so?

Tenim exemples clars en el cas de les laterals + dentals (Iltirta-Illirda, Ilturo-Iluro, Salduie-Salluie, etc). I si altres combinacions també poguessin correspondre a sons diferents?

Ja es va indicar fa un temps que l’esquema actual de desxiframent és inacceptable tota vegada que reduït a 12 símbols base (5 vocals + 7 consonants) té la mateixa distribució que l’eusquera modern (correlació de 0.88). En tot cas, més aviat mostra el procediment que emprà Gómez Moreno per definir-lo al segle passat: comparar freqüències entre els signes ibèrics i l’eusquera del seu temps (de fet, ell ja partia de la concepció ideològica que l’eusquera era  l’ibèric per antonomàsia, i el seu esbiaix espanyolista el dugué a ignorar conscientment la influència més explícitament ibèrica, per ser: ‘catalana’!). I es va proposar que calia cercar també altres paral·lels més propers, com seria el català per raons fonològiques, o més llunyans (Caucas/Orient Mitjà?) si atenem a un possible origen forà.

Segons això, probablement caldria observar un mapa fonològic diferent, i en aquesta línia, es van presentar les evidències de dues Es i reinterpretar el signe en forma de Y/V com una ípsilon grega. Canvis que permetrien expandir el registre vocàlic i aproximar-lo al del català, sota la idea que la fonologia pot subsistir fins i tot al canvi de llenguatge.

Quedava però el mapa consonàntic. La proposta actual resulta igualment deficient, hi manquen sons característics. Recuperar la ípsilon, permet llegir la conjunció nasal+ípsilon com la representació del fonema ɲ (la ny). Sembla que la suma de lateral+dental podria representar el fonema ʎ (la ll). Si fem un escandall del nombre de cops que es dóna una consonant seguit de sil·làbic, tenim:

Mapa de consonants seguides de sil·làbic.

Es pot apreciar que les dentals i velars recullen la majoria de casos, i que la de L+Dental és el mes freqüent de tots, si bé seguit de prop per la R1 (ŕ en la transcripció habitual). L’evidència és certament parcial. Fins i tot el cas més clar, el de la ‘ll‘, té evidència de lectura ‘ld‘ (per exemple, Saragossa apareix tan aviat com Salluie o com Salduie). En el cas de la N+Dental no sembla que dugui a un altre so (els Indibils o Indiques són ben coneguts de les fonts llatines). Però també és cert que actualment manquen sons tan freqüents com la ʃ (la ‘x‘) o el ʒ (la ‘j‘) que com la ‘ll‘ o la ‘ny‘ també són palatals. A més, tenim que els experts parlen de geminacions d’origen incert en els noms ibèrics registrats en llatí.

S’han proposat alternatives puntuals,però no un plantejament global (per exemple; en Xaberio Ballester, – un autor que en primera persona he de dir quan més llegeixo més m’agrada- ha proposat situar la ‘x‘ en la sibilant en forma de M). És només una idea, una proposta. I si en aquesta taula tenim l’evidència d’aquests o altres sons?

És més, si per un moment tornen a la llista de noms anterior, a més de poder tal vegada canviar els -iltun, -iltiŕ per -illun, -illir, si ens fixem en les variants de Tu emprades en el text original, veurem que l’escrivà utilitzà fins a tres formes diferents per el terme -iltun: sense marca, amb marca baixa, i amb marca travessera. No serà que aquestes variacions indicaven sonoritats properes a ʎ, però també diferents?

I acabarem citant un exemple encara més pertorbador de com de fràgils poden acabar sent les categoritzacions modernes a l’hora de tractar quelcom tant imprecís i variable com una escriptura d’una llengua desconeguda de fa més de 2.000 anys.

No fa gaire, parlant del signe Bo, fèiem recalc en el cas de les monedes d’Osca (Bolscan) on en algunes emissions la variant emprada abandona la forma d’aspa de sis puntes habitual de la ‘lletra’ per presentar una de semblant al signe Piscis (♓), més aviat semblant a una ‘O‘ ibèrica d’un sol travesser (com una H) a la que s’haguessin corbat les verticals. Un cas, doncs, on la grafia de la lletra sembla adaptar-se a la fonologia. Doncs bé, la numismàtica també ens ofereix el complement contrari perfecte en la mateixa ‘lletra’ Bo; és el cas de Narbona. El nom actual representa derivar de la Narbo romana del segle II aC, però la seca ibèrica de la ciutat feia servir el nom Neron (-ken) (amb la o sempre amb un únic travesser, com una H). En aquest cas, semblaria que la lectura romana, aparentment transformà la O en una Bo. Ves quina casualitat… Oi?

La confusió OBo, no és un cas aïllat en el signari ibèric. Ben significativament, U i Tu, també es confonen fàcilment (la U curta és com una Tu amb traç medial sense base horitzontal), per no parlar de les ŕ curtes (rombe) versus les Ku sense diacrític, que són homògrafs perfectes  o les confusions (potser induïdes) entre A i R

Si pensem en l’escriptura ibèrica com una adaptació de la grega feta al segle V aC (o d’un derivat d’ella com l’etrusc, com escrigué en Ballester), la creació dels sil·làbics podria respondre a la necessitat d’adaptar-la a uns sons consonàntics no inclosos en el repertori original. Una adaptació potser basada en sil·labismes (que sembla que són la opció preferida en aquesta mena d’emulacions), que davant de la multiplicació de signes, optà per codificar explícitament les velars sonores (les que en etrusc s’anomenen amb Ce), i aprofitar-les ajuntant-les a una consonant per indicar-ne variacions fonètiques properes. Una adaptació, que tampoc té perquè ser sistemàtica, sinó potser tant sols guiada per la conveniència i la necessitat (i d’aquí les variacions i asimetries entre els diferents caràcters…?).

Tot plegat, dibuixa un escenari certament complex (i més que ho hauria de ser si les propostes fonològiques que es presenten resulten ser certes), que creiem que cal encarar amb una doble mirada. Una de simplificadora, per intentar entendre les nocions bàsiques (d’aquí, per exemple, l’ús d’un signari simplificat de 30 i poques lletres: és pràctic), però alhora confrontant-la constantment amb la mirada complexificant, mirant de  tenir sempre present la realitat específica de l’evidència per evitar caure en contradicció amb ella.

I quan no es pugui, fer-la el més evident possible!

 

 

– Actualització 2021-VI-23

Seguint les idees expresades abans sobre com mirar de millorar el procediment de segmentació dels texts a partir d’un lèxic donat (computat o no), s’ha modificat la secció Segments de les entrades del Corpus Ibèrika.

Amb una imatge en passarem més via…

La nova segmentació de la I02143 (i la de la I02144).

Si es compara amb l’exemple d’abans, es poden veure més fàcilment els canvis incorporats.

  1. Si l’entrada forma part d’un grup (usualment per ser d’una peça amb més d’una inscripció), es mostra la segmentació de totes les entrades del grup, cada una amb la seva secció (que s’obre i es tanca amb un clic) . La idea és doble: per una banda per poder ‘llegir’ el conjunt del grup sense haver de canviar de pantalla. I en segon lloc, perquè el nou procediment té en compte el lèxic del conjunt, i no sols el de l’entrada.
  2. A cada entrada. la segmentació inicial (per concatenació, explicada abans) es continua mostrant igual (sota l’índex 0), però si el nou mètode n’ha detectat una de diferent, es mostra just a sota (amb l’index 1, i que també s’obre i es tanca amb un clic).

Falta explicar breument el nou mètode de segmentació (un algoritme de tessel·lació).

A partir del text de tot el grup, s’apunta quines paraules del lèxic hi apareixen i a on, i es comença per reservar un espai amb el mateix nombre de lletres que el text. Llavors, es van coŀlocant les paraules (de més llargues a més curtes) que hi càpiguen senceres al lloc on estaven del text original. I si una no hi cap perquè se n’ha posat abans una altra, i no hi ha cap més espai, s’en crea un de nou  i es col·loca allà. Es repeteix fins haver col·locat totes les paraules.

Una manera de visualitzar-ho seria pensar-ho com el joc del Tetris, on van caient objectes i es van apilant. Aquí van caient les paraules als llocs que els hi corresponen, de més llargues a més curtes i van buscant l’espai lliure més baix possible. Un cop fet aixó, l’espai inferior té la partició més plena i la resta d’espais tenen les paraules que no s’hi han pogut situar. Només falta ‘omplir’ els forats d’aquests altres espais amb les paraules que hi càpiguen d’algun espai anterior (el que l’ompli millor) i tenim un conjunt de possibles segmentacions del text. Comptem el nombre de paraules emprades en cada una i ens quedem amb la que en faci servir menys.

En realitat les tenim totes, però només s’ensenya aquesta. I segons com, ni aixó, ja que si resulta que aquesta és identica a la generada per el métode de concatenació explicat abans (i passa força sovint si el text és curt) seria redundant mostrar dues segmentacions idèntiques, i per tant s’omet.

La bondat de tot plegat encara està per veure. Acaba de sortir del forn i ja veurem com evoluciona, però si més no, de moment, aquí queda explicat el com i el perquè…

 

Notes

  • [1] Només amb un cop d’ull als títols de la bibliografia de la Secció Ibèrica tenim: Moncunill Martí, Noemí : 2007 : “Lèxic d’inscripcions ibèriques (1991-2006)” i Silgo Gauche, Luis : 2016 : “Léxico ibérico” : Estudios de lenguas y epigrafía antiguas-E.L.E.A. : .
  • [2] La implementació és un xic més complicada (sempre ho és), més que res, per sistematitzar les separacions i facilitar el procediment de detecció amb les eines emprades. Així per exemple, es respecta la separació per línies original dels epígrafs, tot i que en certs casos, per el que fa a la seva textualitat, semblaria lògic unir-les. Amb tot, desafortunadament la fragmentació és la norma en els pocs testimonis que han arribat als nostre dies (només cal recordar que el símbol més freqüent és precisament el de ‘símbol i il·legible o interrupció del suport’), i per tant, el nombre extra de segmentacions que això introdueix és petit. Un recompte manual d’entrades de més d’una línia i que facin servir puntuacions, que son els que el procediment actual sobre-segmenta dóna un total de 36.Els llistem: I01098 I01126 I01219 I01316 I01909 I01922 I01923 I01933 I01936 I01939 I01940 I01944 I01946 I02123 I02126 I02551 I02552 I02563 I02567 I02572 I02578 I02579 I02597 I02653 I02683 I02688 I02730 I02731 I02732 I02733 I02734 I02738 I02777 I02778 I03097 I03540.
    Doncs bé, mentre s’escrivia aquest apunt s’ha afegit suport per poder marcar els canvis de línia que sí cal entendre que continuen en la següent. També s’han modificat les eines de Cerca i incorporat la majoria de casos de continuïtat translineal.
  • [3] Es pot fer una comparativa aproximada amb l’eina de Cerca del Corpus buscant casos d’una, dues, tres, quatre i cinc lletres entre puntuacions: el nombre de formulacions diferent son:1=12, 2=15, 3=26, 4=53 i 5=71. I si en comptes de puntuacions fem servir el ‘no signe‘ com a delimitador (que inclou també la puntuació, però a més, els espais i canvis de línia i els caràcters il·legibles, en qualsevol combinació), els resultats són 1=175, 2=724, 3=586, 4=505, 5=459. Unes quantitats que permeten veure que l’ús de la puntuació és francament minoritària, i que a partir de 5 el nombre de cadenes diferents comença a disminuir, situant-se efectivament a prop del mig miler de casos diferents.
  • [4] Per exemple. En fer les primeres proves s’intentà donar un tractament diferenciat als ‘numerals’ (grups de signes Ba), però complicava innecessàriament el model, més que res, perquè els numerals també es composen per concatenació, com al resta del text, i per tant el procediment ja els estava processant de forma coherent. La torna, és que en el Lèxic Computat hi ha unes poques entrades formades per grups de signes Ba; com que són d’allò més evident, s’ha considerat un preu acceptable per mantenir la simplicitat conceptual del procediment de segmentació.
  • [5] Un miler d’antropònims bimembres, a 6 o 7 lletres per barba (2/3 per meitat), sobre un Corpus d’encara no 40.000 lletres, és més d’un 15%. Si resulta que tenim un lèxic només de poc més d’un miler i mig de termes, la majoria d’aquests membres han de ser segmentables, és a dir, han de compartir formants. I la seva suma, probablement estigui darrera de l’escreix de termes de 4 i 5 lletres (uns 300) que l’algoritme de segmentació detecta en la seva fase inicial. És una possibilitat a estudiar…
  • [6] Un parell d’exemples directament relacionats amb casa nostra: la germànica més d’un miler d’anys posterior (tot i que no es pot descartar episodis semblants al del segle V en èpoques anteriors a l’escriptura – ie: els sorotaptes d’en Coromines, o altres indicis, com la dispersió dels Alaun -), i la semita, aquesta contemporània amb ibèric i encara ben present entre les nostres costums.
  • [7] Un exemple palmari d’això es la seqüència tekiar, documentada en quatre entrades, i veïna de ekiar que ha estat interpretada com un possible verb ‘fer‘, i que apareix en una cinquena (la I01246 o C.18.6) segmentada explícitament en: are : teki : ar sota d’un epígraf llatí HEIC.EST.SIT. Només cal sumar-hi els are : take de les I01944 o F.11.1 i I01245 àlies C.18.5. per entendre que l’arrel vocal+velar probablement indiqui el verb ‘ser/estar/haver?’. Així que la pregunta és: en quina altra parla (del primer mil·lenni aC) es feia servir aquest so per aquest verb?
Aquesta entrada s'ha publicat en Alaun, alauns, antroponímia ibèrica, ípsilon, Bo, Bolskan, cathalaunia.org, Caucas, compressió, concatenació, concordances, consonant+sil·làbic, consonants ibèriques, Corpus Ibèrika, eban, eki-ar, I02143, iltir-illir, iltun-illun, Joan Coromines, Lèxic, Lèxic computat, Lèxic ibèric, lèxic numerals, Manuel Gómez-Moreno, Narbo, Narbona, Neron-ken, Orient MItjà, Osca, segmentació textual, Segments, seqüències, signari simplificat, sorotaptes, teoria de la informació, tessel·lació, Tetris, vocals ibèriques, Xaberio Ballester i etiquetada amb , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out /  Canvia )

Google photo

Esteu comentant fent servir el compte Google. Log Out /  Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out /  Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out /  Canvia )

S'està connectant a %s

Aquest lloc utilitza Akismet per reduir els comentaris brossa. Apreneu com es processen les dades dels comentaris.