CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.

Corpus e lessico di frequenza dell'Italiano scritto (CoLFIS). [Corpus and Frequency Lexicon of Written Italian]

Cristina Burani;Lucia Marconi;
2005

Abstract

CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC -
dc.authority.orgunit Istituto di Scienze e Tecnologie della Cognizione - ISTC -
dc.authority.people Pier Marco Bertinetto it
dc.authority.people Cristina Burani it
dc.authority.people Alessandro Laudanna it
dc.authority.people Lucia Marconi it
dc.authority.people Daniela Ratti it
dc.authority.people Claudia Rolando it
dc.authority.people Anna Maria Thornton it
dc.collection.id.s 9b78cb77-0866-4cb5-8ca6-af14a97a08ef *
dc.collection.name 11.04 Banca dati *
dc.contributor.appartenenza Istituto di Scienze e Tecnologie della Cognizione - ISTC *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza.mi 918 *
dc.contributor.appartenenza.mi 986 *
dc.date.accessioned 2024/02/18 07:11:25 -
dc.date.available 2024/02/18 07:11:25 -
dc.date.issued 2005 -
dc.description.abstract CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias. -
dc.description.abstract Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. CALIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras y esta formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diaros, periodicos y libros. Este producto representa el italiano efectivamente leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras estan extraido de tres diarios que son los mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos esta constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, feminil, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros esta constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, fantascienza, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. En este trabajo se analizan las informaciones extraidas del lexico de frecuencia del corpus lematizado de CALIS (Corpus e Archivio Lessicale Italiano Scritto) relativamente a las diferentes categorias gramaticales, a los datos de frecuencia y de dispercion de cada lemma y de cada forma en los distintos sectores y subsectores. Se efectuan por algunos sectores analisis sobre el acrecentamiento de las formas/lemas con el fin de efectuar una evaluacion sobre las posibles y corectas dimensiones de un corpus para ser representativo de la lengua analizada. -
dc.description.affiliations Scuola Normale Superiore, Pisa; Istituto di Scienze e Tecnologie della cognizione - CNR; Università di Salerno; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Università de L'Aquila -
dc.description.allpeople Marco Bertinetto, Pier; Burani, Cristina; Laudanna, Alessandro; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia; Maria Thornton, Anna -
dc.description.allpeopleoriginal Pier Marco Bertinetto; Cristina Burani; Alessandro Laudanna; Lucia Marconi; Daniela Ratti; Claudia Rolando; Anna Maria Thornton -
dc.description.fulltext none en
dc.description.note I risultati del progetto ottenuti sono disponibili in rete. Il progetto CoLFIS ha dato luogo a tre database consultabili online http://www.ge.ilc.cnr.it/strumenti.php. (Corpus non lemmatizzato costituito dai testi autorizzati: http://www.ge.ilc.cnr.it/corpus.php; Corpus lemmatizzato costituito dai testi autorizzati: http://www.ge.ilc.cnr.it/corpus_lem.php; Lessico di Frequenza elaborato su tutto il Corpus: http://www.ge.ilc.cnr.it/lessico.php). Le liste lessicali sono attualmente disponibili per il downlad anche presso: http://alphalinguistica.sns.it/BancheDati.htm; http://www.istc.cnr.it/grouppage/databases; Quest'opera è stata realizzata col finanziamento del CNR. Progetto: "Banca dati lessicale dell'Italiano scritto contemporaneo". Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto. Per consentire una valutazione dei database consultabili online http://www.ge.ilc.cnr.it/strumenti.php si fa riferimento alle pubblicazioni: 1) Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. Autori: Paola Cutugno; Lucia Marconi; Daniela Ratti; Claudia Rolando. ACTAS-I IX Simposio Internacional Comunicación Social - 2005 (pag. 361 - 365). ISBN: 959-7174-04-9. http://www.santiago.cu/hosting/linguistica/descargar.php?d=194 . 2) CoLFIS: sistemas de interrogación online. Autori: Paola Cutugno; Lucia Marconi; Giovanna Morgavi; Mauro Morando. ACTAS-I X Simposio Internacional Comunicación Social - 2007 (pag. 505 - 510). ISBN: 959-7174-08-1. http://www.santiago.cu/hosting/linguistica/descargar.php?d=425 . -
dc.description.numberofauthors 7 -
dc.identifier.uri https://hdl.handle.net/20.500.14243/145632 -
dc.identifier.url http://www.ge.ilc.cnr.it/strumenti.php -
dc.language.iso ita -
dc.subject.keywords Corpora -
dc.subject.keywords Lessico -
dc.subject.keywords Italiano -
dc.subject.keywords DataBase -
dc.subject.singlekeyword Corpora *
dc.subject.singlekeyword Lessico *
dc.subject.singlekeyword Italiano *
dc.subject.singlekeyword DataBase *
dc.title Corpus e lessico di frequenza dell'Italiano scritto (CoLFIS). [Corpus and Frequency Lexicon of Written Italian] en
dc.type.driver info:eu-repo/semantics/other -
dc.type.full 11 Applicazione o prodotto multimediale::11.04 Banca dati it
dc.type.miur 295 -
dc.ugov.descaux1 175454 -
iris.orcid.lastModifiedDate 2024/04/04 12:17:12 *
iris.orcid.lastModifiedMillisecond 1712225832029 *
iris.sitodocente.maxattempts 1 -
Appare nelle tipologie: 11.04 Banca dati
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/145632
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact