CoLFIS: sistemas de interrogación online. CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. . En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.

CoLFIS: sistemas de interrogación online

Paola Cutugno;Lucia Marconi;Giovanna Morgavi;Mauro Morando
2007

Abstract

CoLFIS: sistemas de interrogación online. CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. . En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.
2007
Istituto di Elettronica e di Ingegneria dell'Informazione e delle Telecomunicazioni - IEIIT
Istituto di linguistica computazionale "Antonio Zampolli" - ILC
959-7174-08-1
Corpora
Lessico
Italiano
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/155325
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact