CoLFIS: análisis de las categorias morfosintácticas

Cutugno, P; Chiarella, D; Lucentini, R; Marconi, L; Morgavi, G

CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios géneros analizados oportunamente y seleccionados en tres sectores distintos: diarios, periódicos y libros. El corpus realizado representa el italiano comúnmente leído, y no tanto la lengua italiana escrita en su totalidad. Esta elección se justifica en cuanto se deseaba construir un corpus, y en consecuencia un léxico de frecuencia, que se acercara lo más posible al léxico mental de un hablante de cultura media y no a un diccionario de la lengua italiana. El corpus CoLFIS ha sido sometido a una lematización completa y además se han desarrollado paquetes de software de análisis estadístico para producir los léxicos de frecuencia relativos al corpus total y a los distintos sectores. Este artículo analiza los componentes gramaticales de los diferentes textos del corpus lematizado CoLFIS; los objetivos son identificar las posibles diferencias de las partes del discurso en los textos de los diferentes sectores y subsectores que componen el corpus CoLFIS y, al mismo tiempo, tratar de establecer, para los diversos tipos de textos, dentro de qué gama de valores se coloca la relación entre sustantivos y verbos.