CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.
Corpus e lessico di frequenza dell'Italiano scritto (CoLFIS). [Corpus and Frequency Lexicon of Written Italian]
Cristina Burani;Lucia Marconi;
2005
Abstract
CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.| Campo DC | Valore | Lingua |
|---|---|---|
| dc.authority.orgunit | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | - |
| dc.authority.orgunit | Istituto di Scienze e Tecnologie della Cognizione - ISTC | - |
| dc.authority.people | Pier Marco Bertinetto | it |
| dc.authority.people | Cristina Burani | it |
| dc.authority.people | Alessandro Laudanna | it |
| dc.authority.people | Lucia Marconi | it |
| dc.authority.people | Daniela Ratti | it |
| dc.authority.people | Claudia Rolando | it |
| dc.authority.people | Anna Maria Thornton | it |
| dc.collection.id.s | 9b78cb77-0866-4cb5-8ca6-af14a97a08ef | * |
| dc.collection.name | 11.04 Banca dati | * |
| dc.contributor.appartenenza | Istituto di Scienze e Tecnologie della Cognizione - ISTC | * |
| dc.contributor.appartenenza | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | * |
| dc.contributor.appartenenza.mi | 918 | * |
| dc.contributor.appartenenza.mi | 986 | * |
| dc.date.accessioned | 2024/02/18 07:11:25 | - |
| dc.date.available | 2024/02/18 07:11:25 | - |
| dc.date.issued | 2005 | - |
| dc.description.abstract | CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias. | - |
| dc.description.abstract | Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. CALIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras y esta formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diaros, periodicos y libros. Este producto representa el italiano efectivamente leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras estan extraido de tres diarios que son los mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos esta constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, feminil, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros esta constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, fantascienza, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. En este trabajo se analizan las informaciones extraidas del lexico de frecuencia del corpus lematizado de CALIS (Corpus e Archivio Lessicale Italiano Scritto) relativamente a las diferentes categorias gramaticales, a los datos de frecuencia y de dispercion de cada lemma y de cada forma en los distintos sectores y subsectores. Se efectuan por algunos sectores analisis sobre el acrecentamiento de las formas/lemas con el fin de efectuar una evaluacion sobre las posibles y corectas dimensiones de un corpus para ser representativo de la lengua analizada. | - |
| dc.description.affiliations | Scuola Normale Superiore, Pisa; Istituto di Scienze e Tecnologie della cognizione - CNR; Università di Salerno; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Università de L'Aquila | - |
| dc.description.allpeople | Marco Bertinetto, Pier; Burani, Cristina; Laudanna, Alessandro; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia; Maria Thornton, Anna | - |
| dc.description.allpeopleoriginal | Pier Marco Bertinetto; Cristina Burani; Alessandro Laudanna; Lucia Marconi; Daniela Ratti; Claudia Rolando; Anna Maria Thornton | - |
| dc.description.fulltext | none | en |
| dc.description.note | I risultati del progetto ottenuti sono disponibili in rete. Il progetto CoLFIS ha dato luogo a tre database consultabili online http://www.ge.ilc.cnr.it/strumenti.php. (Corpus non lemmatizzato costituito dai testi autorizzati: http://www.ge.ilc.cnr.it/corpus.php; Corpus lemmatizzato costituito dai testi autorizzati: http://www.ge.ilc.cnr.it/corpus_lem.php; Lessico di Frequenza elaborato su tutto il Corpus: http://www.ge.ilc.cnr.it/lessico.php). Le liste lessicali sono attualmente disponibili per il downlad anche presso: http://alphalinguistica.sns.it/BancheDati.htm; http://www.istc.cnr.it/grouppage/databases; Quest'opera è stata realizzata col finanziamento del CNR. Progetto: "Banca dati lessicale dell'Italiano scritto contemporaneo". Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto. Per consentire una valutazione dei database consultabili online http://www.ge.ilc.cnr.it/strumenti.php si fa riferimento alle pubblicazioni: 1) Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. Autori: Paola Cutugno; Lucia Marconi; Daniela Ratti; Claudia Rolando. ACTAS-I IX Simposio Internacional Comunicación Social - 2005 (pag. 361 - 365). ISBN: 959-7174-04-9. http://www.santiago.cu/hosting/linguistica/descargar.php?d=194 . 2) CoLFIS: sistemas de interrogación online. Autori: Paola Cutugno; Lucia Marconi; Giovanna Morgavi; Mauro Morando. ACTAS-I X Simposio Internacional Comunicación Social - 2007 (pag. 505 - 510). ISBN: 959-7174-08-1. http://www.santiago.cu/hosting/linguistica/descargar.php?d=425 . | - |
| dc.description.numberofauthors | 7 | - |
| dc.identifier.uri | https://hdl.handle.net/20.500.14243/145632 | - |
| dc.identifier.url | http://www.ge.ilc.cnr.it/strumenti.php | - |
| dc.language.iso | ita | - |
| dc.subject.keywords | Corpora | - |
| dc.subject.keywords | Lessico | - |
| dc.subject.keywords | Italiano | - |
| dc.subject.keywords | DataBase | - |
| dc.subject.singlekeyword | Corpora | * |
| dc.subject.singlekeyword | Lessico | * |
| dc.subject.singlekeyword | Italiano | * |
| dc.subject.singlekeyword | DataBase | * |
| dc.title | Corpus e lessico di frequenza dell'Italiano scritto (CoLFIS). [Corpus and Frequency Lexicon of Written Italian] | en |
| dc.type.driver | info:eu-repo/semantics/other | - |
| dc.type.full | 11 Applicazione o prodotto multimediale::11.04 Banca dati | it |
| dc.type.miur | 295 | - |
| dc.ugov.descaux1 | 175454 | - |
| iris.orcid.lastModifiedDate | 2024/04/04 12:17:12 | * |
| iris.orcid.lastModifiedMillisecond | 1712225832029 | * |
| iris.sitodocente.maxattempts | 1 | - |
| Appare nelle tipologie: | 11.04 Banca dati | |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


