Concordances de l’ibèric nord-oriental.

Hi haurà un dia en el què disposem d’un diccionari i una gramàtica ibèrica, i llavors, podrem mostrar les epigrafies ibèriques ressaltant-ne les arrels i afixes de manera ben visible. Espero que no tardem massa, però mentrestant, i per mirar d’ajudar a que aquest dia arribi el més aviat possible, el que sí podem fer és posar els nostres ordenadors al servei dels estudiosos.

El corpus d’inscripcions ibèriques de cathalaunia.org, originat en el de la na Carme Huertas i en David Folch, té la característica única de codificar les inscripcions atenent a les variants específiques de cada signe. Ja n’hem parlat altres cops d’aquest tema. Però d’igual manera que cal preservar la variabilitat del missatge original per tal de no perdre informació que potser podria ser rellevant, també és cert, que l’intent de comprensió de la llengua passa actualment per mirar d’entendre aspectes més essencials, o estructurals, i en aquesta tasca, sí resulta còmode treballar amb uns signaris més reduïts formats a base d’agrupar les diferents variants en unitats que siguin adients; per exemple, per caràcters, o sons, o fins i tot en tipologies com: vocals+consonants+sil·làbics. Les possibilitats són moltes i depenen de quin sigui l’objectiu a analitzar, però en qualsevol cas, totes són agrupacions dels signes presents en el corpus original.

Aquest és el motiu per el qual, des de l’inici, el web es dissenyà per suportar un nombre indefinit de signaris ‘reduïts’, però davant de la dificultat dels experts en definir quines grafies pertanyen  a quins signaris, es decidí definir-ne un, que proper al signari no-dual[1], fos l’emprat per defecte en molts dels càlculs que el web implementa. Un d’ells, sent la detecció de totes les cadenes de signes repetides existents en el corpus. Informació que en un primer moment s’utilitzà a més de per a fer cerques, també, per a detectar ‘semblances’ entre epigrafies. Encara aquest darrer mes s’hi afegí la capacitat de detecció de ‘duplicats’. No sent, tant les semblances com les duplicacions, altra cosa que diferents criteris específics per mesurar el nombre i percentatge de signes que dues epigrafies tenen en comú. Signes, que com diem, no es comparen en la seva literalitat sinó en la seva versió ‘simplificada’, ja que l’ànim, en l’estat actual de coneixement, és més aviat mirar d’ajudar en la comprensió de la llengua que no pas en l’estudi de les seves literalitats (que també és un camp ben interessant, per descomptat).

Repeticions

Però el cert, és que aquestes ‘semblances’ i/o ‘duplicacions’ resultaven insatisfactòries. Podien ser d’ajut en algun cas concret, però només era la punta de l’iceberg de la informació sobre repeticions que realment es disposa. De manera que ja el més passat es publicà una nova ajuda a més de la Cerca, per consultar el corpus. És la pàgina de Repeticions, on es llisten ordenades totes les seqüències repetides existents – segons el signari simplificat -.

ciber1

Llista de repeticions existents.

La idea és ben simple, s’ha definit un criteri d’ordenació del signari que és : a,e,i,o,u + l,m,m’,m”,n,r,r’,s,s’ + labial+aeiou, dental+aeiou, oclusiva+aeiou + altres, i a partir d’aquí, es llisten totes les cadenes de més d’un signe que existeixen en més d’una inscripció. Hi han milers de repeticions, però el fet que estiguin ordenades, fa que siguin de fàcil localització (bé, un cop un s’acostuma a la seqüència dels signes, s’entén…).

ciber2

Triant una repetició en concret.

Cada lletra del llistat es pot expandir/col·lapsar a voluntat, per mostrar/amagar els fragments repetits que li corresponen, i cada un d’aquests fragments poden ser clicats per obrir la Cerca Incremental corresponent que mostri les epigrafies en qüestió.

ciber3

Les repeticions de metuainum

Amb això, es facilita la consulta de totes les cadenes de signes repetits existents, però quedava pendent el fet de millorar la informació sobre quines epigrafies s’assemblen a quines altres. Aquí arribem a les Concordances.

Concordances.

El que s’ha fet és: en la pàgina de cada epigrafia, substituir la secció de Semblances per una de Concordances. Secció que requereix d’alguna explicació.

Dèiem inicialment, que si disposéssim d’un diccionari i gramàtica ibèrica, podríem visualitzar les parts constituents de cada epigrafia (paraules, afixes, puntuació, etc). Lo lamentable però, és que encara no ho tenim; ara bé, el que sí tenim, per a cada epigrafia, és quins conjunts de signes es repeteixen entre ella i les demés del corpus, de manera que a falta de poder subratllar paraules, sí podem emfatitzar repeticions i mesurar quines epigrafies s’assemblen més, o tenen més cadenes en comú, amb quines altres.

De manera que el que s’ha fet, és dividir el text de l’epigrafia en les seves seccions repetides. Ara bé, això planteja una certa problemàtica, ja que no hi ha una única manera de dividir un text. Pensem per exemple que en una epigrafia tenim una seqüència de sis lletres que existeix en altres tres epigrafies. Resulta evident, que els cinc primers signes, també existiran en aquests altres tres texts, i el que és més important, sent una seqüencia més curta, probablement existeixi en més epigrafies encara. De manera, que el conjunt de totes les cadenes repetides existents en la nostra epigrafia, realment, ens defineix tot un arbre de possibles particions a fer, la pregunta, és doncs: quin criteri lògic podem seguir per triar una partició o una altra?

La resposta no és unívoca, i en la pràctica, s’ha decantat per un criteri simple, com és el d’afavorir les seqüències més llargues. És a dir, comencem per marcar (amb un color diferent) la seqüencia més llarga, llavors, prenem la següent, mirem si no s’encavalca sobre l’anterior, i si és així, la marquem amb un altre color, i així, anar fent. La resultant d’aquest procediment és una partició que intenta afavorir l’anàlisi de cadenes llargues, sota la idea (certament simple) que és possible que resultin més interessants d’analitzar. De manera, que la secció de Concordances, el primer que presenta és una versió del propi text, on les parts repetides tenen cada una un color diferent i poden ser clicades per mostrar les altres epigrafies on es troben. El resultat, és una versió interactiva de l’epigrafia original, que pot resultar un xic confusa per la multiplicitat de colors (en epigrafies llargues), però crec que la funcionalitat que permet és prou interessant.

ciber4

Concordances de l’epigrafia I02678.

Ara bé, amb això veiem la partició feta del text. A continuació, disposem les epigrafies que més s’assemblin, o per ser precisos, que comparteixin un major nombre de parts comuns diferents i que presentin un major nombre de signes compartits (una mateixa cadena pot figurar més d’un cop en una mateixa epigrafia). Això és el que es mostra en la part immediatament inferior.

ciber5

L’epigrafia I02678 té actualment 60 epigrafies amb les que comparteix més d’un fragment.
La imatge mostra les quatre amb més fragments comuns.

On es presenten ordenades per grau de concordança i amb les part en comú amb l’epigrafia original en el seu color i que també poden ser clicades. Ara bé, hi han casos, en què si es volguessin mostrar totes les concordances, per mínimes que fossin (pensem, per exemple, en els casos en què una epigrafia sols comparteix una parella de lletres), n’hauríem de llistar centenars i això seria un problema, de manera que s’ha pres una decisió. Si entre els texts concordants hi han epigrafies amb més d’un fragment comú, (multiconcordants), es llisten sols aquestes i s’obvien en aquest cas les que tinguin un únic fragment compartit (aquest és el cas més habitual en texts que no siguin molt curts). Per contra, en inscripcions molt petites, com per exemple,  monedes, el més freqüent és que les concordances ho siguin sols a partir d’un únic fragment, i en aquest cas, sí es llisten totes.

Queda sols una dada per presentar. Dèiem que de tots els fragments compartits que una epigrafia conté, és ben possible que sols se n’hagin emprat uns quants per fer la partició. Cal doncs, per completesa, presentar la resta de fragments repetits que no s’han utilitzat, i enllaçar-los per si es vol consultar en quines epigrafies apareixen. Això és el que es presenta en el fons de la secció:

ciber6

Repeticions descartades.

Expectatives

La codificació visual per colors no és la millor de les opcions quan el nombre d’ítems diferents a presentar supera la desena (han de ser diferents entre ells i el fons, a l’hora) però és relativament fàcil d’emprar i molt efectiu si les opcions no són gaires.

Més enllà dels problemes de representació visual, la idea base és mirar de presentar la interconnexió existent entre moltes de les epigrafies i ajudar en l’estudi de l’estructura de la llengua. Com també es fa des de fa temps, per exemple, en la Cerca, amb la possibilitat de cercar finals, inicis o subgrups de paraules (una capacitat encara poc utilitzada).

Un problema pràctic de les concordances pot ser l’excés d’informació presentada, un altre pot ser que la tria de segments repetits no sigui la més interessant per el que s’estigui estudiant. Només l’ús dirà quines parts són de profit i quines supèrflues. Mentrestant, però, és una alegria poder proporcionar una altra eina als estudiosos de la llengua ibèrica.

Més que mai s’agrairan suggeriments i idees de com millorar-la.


Notes

  • [1] Actualment es contempla l’existència de dos signaris: el no-dual, i el dual. Distingint-se aquest segon per incorporar un traç extra en els signes per tal de diferenciar els sons més forts o tancats, com per exemple entre: ‘D‘ i ‘T‘ o ‘G‘ i ‘K‘.
Aquesta entrada s'ha publicat en cathalaunia.org, Cerca, Cerca Incremental, concordances, ibèric nord-oriental, Iberika, ibers.cat, Repeticions, signari simplificat i etiquetada amb , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

4 respostes a Concordances de l’ibèric nord-oriental.

  1. Estic impressionada, Joan Vilaseca, per aquesta eina tan potent que, segur, marcarà un abans i un després en l’estudi de l’estructura de la llengua ibèrica. Felicitats i moltes gràcies!

    • cathalaunis ha dit:

      Benvolguda Carme.

      Moltes gràcies per un comentari tan elogiós. S’agraeix molt, especialment venint d’algú tan expert en la llengua ibèrica com tu! Ja saps que miro de fer coses que siguin útils, de manera que si veus alguna cosa a millorar – o corregir -, estaré més que content de saber-ho. Estic convençut que treballant conjuntament els filòlegs i els programadors, ajuntant els conceptes lingüístics i l’anàlisi quantitativa, la comprensió de la llengua ibèrica ha de ser possible. Sols cal posar-hi els mitjans -humans i materials-.

  2. Antoni Jaquemot ha dit:

    Qüestions pràctiques: Cerco els signes simplificats d’una seqüència coneguda com és ‘aloŕ’ i em donen tres resultats del corpus. Perfecte. Si clico “cerca incremental” em surt ressaltades una quantitat de signes que no em resolen res, en canvi en cerca de possibles igualtats sí que m’informen. ‘Aloŕ’ podria estar escrita amb l’altra /r/ o bé sense aquesta o amb final en /n/ que em permet fer l’estudi d’aquest morf. Crec que això és essencial.

    Antoni

    • cathalaunis ha dit:

      Benvolgut Antoni.
      No t’entenc gaire bé. Miro de respondre el que sí entenc.
      La cerca incremental, com el seu nom indica, es fa lletra a lletra, és a dir, en el cas de ‘alor’, començaries amb totes les lletres i marcaries la ‘a’, i et donaria 1210 entrades amb la ‘a’, després i afegeixes la ‘l’, és a dir, estem cercant ‘al’ i ja només son 121 epigrafies, si ara hi afegim la ‘o’, ja només són 12. En cada un d’aquests passos, veuràs que les lletres que pots anar afegint són cada cop menys, i és perquè el programa coneix totes les seqüències, i per cada una sap totes les possibles continuacions; en el cas de ‘alo’, per exemple, sols pots afegir una ‘r’, una ‘s’, una ‘ba’, una ‘espiga’, o un ‘#’ que significa signe ‘desconegut/imprecís’ (el símbol quadrat menut). Arribats aquí veuràs que després de ‘alo’, l’altra ‘R’ no s’activa ja que no existeix després de ‘alo’ en el corpus.
      Però si vols examinar formes, la cerca per paraula pot ser encara més hàbil, ja que permet emprat símbols ‘especials’, per indicar coses com inicis, finals, etc. Per exemple, si vull saber tots els fragments que acabin per ‘alo’, només tinc que cercar ‘@alo#’. O pots cercar ‘#alo@’ per saber els que comencin per ‘alo’. O cercar ‘alo[rR]’ per tal que llisti tant les seqüències amb ‘alor’ com les de ‘aloR’ (encara que en aquest cas, aquestes no existeixen). I així anar fent. Si en la cerca per paraula, poses el ratolí sobre la paraula ‘Cerca’ et mostra una ajuda que explica què són cada un d’aquests símbols especials (els que estan sota les lletres ibèriques = ‘[‘, ‘]’, ‘?’, ‘@’, ‘*’, ‘#’).

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s