Arxiu d'etiquetes: segmentació textual

Dades.

El web cathalaunia.org nasqué a partir de la ideació del Fons Cathalaunia (inicialment, un dipòsit on recollir en quins documents apareixen cada un dels nostres personatges altmedievals). Unes primeres proves deixaren clar que el model que millor podia recollir la … Continua llegint

Publicat dins de agrupacions de glifs, algoritme, antroponímia, BDHesperia, Bibliografia, CATCAR, cathalaunia.org, CC BY-NC-SA, cohomònims, compressió, Corpus Ibèrika, Creative Commons, Donald Knuth, epigtafia ibèrica, esments, estructures de dades, Fons Cathalaunia, hipertext, ibers.cat, identitats personals, jaciments, programació, prosopografia, relacions geogràfiques, relacions interpersonals, schema, segmentació textual, Signari ibèric, signari simplificat, SVG, TAOCP, tar.gz, toponímia, Uncategorized, wiki, wikipedia.org, xml | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2021-juny a cathalaunia.org

Marxa el juny i cal tornar a fer balanç mensual. A cathalaunia.org juny ha estat un mes intens i molt treballat. El focus ha continuat fixat en l’epigrafia ibèrica i en concret en la segmentació lèxica automatitzada. Activitat en bona … Continua llegint

Publicat dins de Arxius Departamentals dels Pirineus Orientals, Azaila, bases de dades, BDHesperia, Bibliografia, Catalunya Carolíngia, CATCAR, cathalaunia.org, Corpus Ibèrika, CSV, Enserune, fonologia ibèrica, Fons Cathalaunia, Gòtia, IEC, Lèxic ibèric, PDF, Ploms d'Arles, prosopografia, segmentació textual, xml | Etiquetat com a , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

Segmentant l’ibèric i altres consonàntcies.

Aquest apunt és per explicar un experiment i algunes idees recents sobre l’escriptura ibèrica. Una de les dificultats afegides de l’estudi de l’ibèric està en què tal i com passa en altres escriptures antigues, usualment no es registrava la separació … Continua llegint

Publicat dins de Alaun, alauns, antroponímia ibèrica, ípsilon, Bo, Bolskan, cathalaunia.org, Caucas, compressió, concatenació, concordances, consonant+sil·làbic, consonants ibèriques, Corpus Ibèrika, eban, eki-ar, I02143, iltir-illir, iltun-illun, Joan Coromines, Lèxic, Lèxic computat, Lèxic ibèric, lèxic numerals, Manuel Gómez-Moreno, Narbo, Narbona, Neron-ken, Orient MItjà, Osca, segmentació textual, Segments, seqüències, signari simplificat, sorotaptes, teoria de la informació, tessel·lació, Tetris, vocals ibèriques, Xaberio Ballester | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2021-maig a cathalaunia.org

S’acaba un maig experimental a cathalaunia.org. Un mes esgotador que se’n va amb la feina encara a mig fer. El focus ha estat de nou l’epigrafia ibèrica, i en particular, la seva segmentació. Un mes de fer i no llegir, … Continua llegint

Publicat dins de Bibliografia, cathalaunia.org, Corpus Ibèrika, cronosignaris, epigrafia ibèrica, Lèxic, segmentació textual | Etiquetat com a , , , , , , | Deixa un comentari

Semblances documentals (5).

En el darrer apunt d’aquesta sèrie, havíem vist com el mètode de transformar les paraules dels documents altmedievals a una forma simplificada, per tot seguit esmicolar la versió dels texts resultant en grups d’entre 3 i 40 paraules consecutives, permetia … Continua llegint

Publicat dins de Alvèrnia, aprenentage no supervisat, aprenentage supervisat, Aquitània, Borgonya, cadenes de Màrkov, cathalaunia.org, classificadors estadístics, detecció de formularis, estadística, Fons Cathalaunia, formularis, Gòtia, Gephi, Llemosí, Lluís el Cec, Mocorono, Odó I, Revellus, Roergue, segmentació textual, semblança documental, Semblances interdocumentals, SVG, Terrassa, Vallfogona | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari