CNR Institutional Research Information System

CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.

Corpus e lessico di frequenza dell'Italiano scritto (CoLFIS). [Corpus and Frequency Lexicon of Written Italian]

Pier Marco Bertinetto;Cristina Burani;Alessandro Laudanna;Lucia Marconi;Daniela Ratti;Claudia Rolando;Anna Maria Thornton

2005

Abstract

CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.

Scheda breve

Scheda completa

Scheda completa (DC)

Campo DC	Valore	Lingua
dc.authority.orgunit	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	-
dc.authority.orgunit	Istituto di Scienze e Tecnologie della Cognizione - ISTC	-
dc.authority.people	Pier Marco Bertinetto	it
dc.authority.people	Cristina Burani	it
dc.authority.people	Alessandro Laudanna	it
dc.authority.people	Lucia Marconi	it
dc.authority.people	Daniela Ratti	it
dc.authority.people	Claudia Rolando	it
dc.authority.people	Anna Maria Thornton	it
dc.collection.id.s	9b78cb77-0866-4cb5-8ca6-af14a97a08ef	*
dc.collection.name	11.04 Banca dati	*
dc.contributor.appartenenza	Istituto di Scienze e Tecnologie della Cognizione - ISTC	*
dc.contributor.appartenenza	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	*
dc.contributor.appartenenza.mi	918	*
dc.contributor.appartenenza.mi	986	*
dc.date.accessioned	2024/02/18 07:11:25	-
dc.date.available	2024/02/18 07:11:25	-
dc.date.issued	2005	-
dc.description.abstract	CoLFIS: sistemas de interrogación online. CoLFIS: sistemas de interrogación online CoLFIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras, formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diarios, periodicos y libros. El producto realizado representa el italiano leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras se han extraido de los tres diarios mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos es constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, femenino, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros es constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, ficcion, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. El corpus CoLFIS ha sido sometido a una lematizacion completa y se han desarrollado paquetes software de analisis estadistico para producir los lexicos de frecuencia relativos al corpus total y a los distintos sectores para cada lema y formas relativas. En este trabajo seran explicados los metodos de interogacion realizados para ayudar el usuario que quiere acercarse al corpus, puesto a disposicion en internet, y obtener informaciones del corpus, del corpus con lematizacion, de los lexicos de frecuencia. Ademas se ensenarà un estudio sobre los adverbios derivados, es decir los adverbios que terminan en -mente, como ejemplo de posibles investigaciones permitidas del material linguistico y del sistema de interogacion a disposicion. Se presenteran los porcentajes de las distintas tipologias adverbiales y se analizara la posicion del adverbio en la oracion buscando evaluar sus posibilidades combinatorias.	-
dc.description.abstract	Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. CALIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras y esta formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diaros, periodicos y libros. Este producto representa el italiano efectivamente leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras estan extraido de tres diarios que son los mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos esta constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, feminil, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros esta constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, fantascienza, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. En este trabajo se analizan las informaciones extraidas del lexico de frecuencia del corpus lematizado de CALIS (Corpus e Archivio Lessicale Italiano Scritto) relativamente a las diferentes categorias gramaticales, a los datos de frecuencia y de dispercion de cada lemma y de cada forma en los distintos sectores y subsectores. Se efectuan por algunos sectores analisis sobre el acrecentamiento de las formas/lemas con el fin de efectuar una evaluacion sobre las posibles y corectas dimensiones de un corpus para ser representativo de la lengua analizada.	-
dc.description.affiliations	Scuola Normale Superiore, Pisa; Istituto di Scienze e Tecnologie della cognizione - CNR; Università di Salerno; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Università de L'Aquila	-
dc.description.allpeople	Marco Bertinetto, Pier; Burani, Cristina; Laudanna, Alessandro; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia; Maria Thornton, Anna	-
dc.description.allpeopleoriginal	Pier Marco Bertinetto; Cristina Burani; Alessandro Laudanna; Lucia Marconi; Daniela Ratti; Claudia Rolando; Anna Maria Thornton	-
dc.description.fulltext	none	en
dc.description.note	I risultati del progetto ottenuti sono disponibili in rete. Il progetto CoLFIS ha dato luogo a tre database consultabili online http://www.ge.ilc.cnr.it/strumenti.php. (Corpus non lemmatizzato costituito dai testi autorizzati: http://www.ge.ilc.cnr.it/corpus.php; Corpus lemmatizzato costituito dai testi autorizzati: http://www.ge.ilc.cnr.it/corpus_lem.php; Lessico di Frequenza elaborato su tutto il Corpus: http://www.ge.ilc.cnr.it/lessico.php). Le liste lessicali sono attualmente disponibili per il downlad anche presso: http://alphalinguistica.sns.it/BancheDati.htm; http://www.istc.cnr.it/grouppage/databases; Quest'opera è stata realizzata col finanziamento del CNR. Progetto: "Banca dati lessicale dell'Italiano scritto contemporaneo". Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto. Per consentire una valutazione dei database consultabili online http://www.ge.ilc.cnr.it/strumenti.php si fa riferimento alle pubblicazioni: 1) Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. Autori: Paola Cutugno; Lucia Marconi; Daniela Ratti; Claudia Rolando. ACTAS-I IX Simposio Internacional Comunicación Social - 2005 (pag. 361 - 365). ISBN: 959-7174-04-9. http://www.santiago.cu/hosting/linguistica/descargar.php?d=194 . 2) CoLFIS: sistemas de interrogación online. Autori: Paola Cutugno; Lucia Marconi; Giovanna Morgavi; Mauro Morando. ACTAS-I X Simposio Internacional Comunicación Social - 2007 (pag. 505 - 510). ISBN: 959-7174-08-1. http://www.santiago.cu/hosting/linguistica/descargar.php?d=425 .	-
dc.description.numberofauthors	7	-
dc.identifier.uri	https://hdl.handle.net/20.500.14243/145632	-
dc.identifier.url	http://www.ge.ilc.cnr.it/strumenti.php	-
dc.language.iso	ita	-
dc.subject.keywords	Corpora	-
dc.subject.keywords	Lessico	-
dc.subject.keywords	Italiano	-
dc.subject.keywords	DataBase	-
dc.subject.singlekeyword	Corpora	*
dc.subject.singlekeyword	Lessico	*
dc.subject.singlekeyword	Italiano	*
dc.subject.singlekeyword	DataBase	*
dc.title	Corpus e lessico di frequenza dell'Italiano scritto (CoLFIS). [Corpus and Frequency Lexicon of Written Italian]	en
dc.type.driver	info:eu-repo/semantics/other	-
dc.type.full	11 Applicazione o prodotto multimediale::11.04 Banca dati	it
dc.type.miur	295	-
dc.ugov.descaux1	175454	-
iris.orcid.lastModifiedDate	2024/04/04 12:17:12	*
iris.orcid.lastModifiedMillisecond	1712225832029	*
iris.sitodocente.maxattempts	1	-
Appare nelle tipologie:	11.04 Banca dati

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/145632

Citazioni

ND

ND

ND

social impact