Arxiu d'etiquetes: segmentació textual

2021-juny a cathalaunia.org

Marxa el juny i cal tornar a fer balanç mensual. A cathalaunia.org juny ha estat un mes intens i molt treballat. El focus ha continuat fixat en l’epigrafia ibèrica i en concret en la segmentació lèxica automatitzada. Activitat en bona … Continua llegint

Publicat dins de Arxius Departamentals dels Pirineus Orientals, Azaila, bases de dades, BDHesperia, Bibliografia, Catalunya Carolíngia, CATCAR, cathalaunia.org, Corpus Ibèrika, CSV, Enserune, fonologia ibèrica, Fons Cathalaunia, Gòtia, IEC, Lèxic ibèric, PDF, Ploms d'Arles, prosopografia, segmentació textual, xml | Etiquetat com a , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

Segmentant l’ibèric i altres consonàntcies.

Aquest apunt és per explicar un experiment i algunes idees recents sobre l’escriptura ibèrica. Una de les dificultats afegides de l’estudi de l’ibèric està en què tal i com passa en altres escriptures antigues, usualment no es registrava la separació … Continua llegint

Publicat dins de Alaun, alauns, antroponímia ibèrica, ípsilon, Bo, Bolskan, cathalaunia.org, Caucas, compressió, concatenació, concordances, consonant+sil·làbic, consonants ibèriques, Corpus Ibèrika, eban, eki-ar, I02143, iltir-illir, iltun-illun, Joan Coromines, Lèxic, Lèxic computat, Lèxic ibèric, lèxic numerals, Manuel Gómez-Moreno, Narbo, Narbona, Neron-ken, Orient MItjà, Osca, segmentació textual, Segments, seqüències, signari simplificat, sorotaptes, teoria de la informació, tessel·lació, Tetris, vocals ibèriques, Xaberio Ballester | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

2021-maig a cathalaunia.org

S’acaba un maig experimental a cathalaunia.org. Un mes esgotador que se’n va amb la feina encara a mig fer. El focus ha estat de nou l’epigrafia ibèrica, i en particular, la seva segmentació. Un mes de fer i no llegir, … Continua llegint

Publicat dins de Bibliografia, cathalaunia.org, Corpus Ibèrika, cronosignaris, epigrafia ibèrica, Lèxic, segmentació textual | Etiquetat com a , , , , , , | Deixa un comentari

Semblances documentals (5).

En el darrer apunt d’aquesta sèrie, havíem vist com el mètode de transformar les paraules dels documents altmedievals a una forma simplificada, per tot seguit esmicolar la versió dels texts resultant en grups d’entre 3 i 40 paraules consecutives, permetia … Continua llegint

Publicat dins de Alvèrnia, aprenentage no supervisat, aprenentage supervisat, Aquitània, Borgonya, cadenes de Màrkov, cathalaunia.org, classificadors estadístics, detecció de formularis, estadística, Fons Cathalaunia, formularis, Gòtia, Gephi, Llemosí, Lluís el Cec, Mocorono, Odó I, Revellus, Roergue, segmentació textual, semblança documental, Semblances interdocumentals, SVG, Terrassa, Vallfogona | Etiquetat com a , , , , , , , , , , , , , , , , , , , , , , , , , | Deixa un comentari

Semblances documentals (4).

En el tercer apunt d’aquesta sèrie, s’havia comentat el darrer càlcul realitzat per mirar de trobar un procediment de segmentació de documents altmedievals que basat exclusivament en criteris quantitatius, produís idealment uns resultats similars als de la segmentació manual, basada … Continua llegint

Publicat dins de cathalaunia.org, estadística, Fons Cathalaunia, segmentació textual, semblança documental, Semblances interdocumentals | Etiquetat com a , , , , , | Deixa un comentari