CNR Institutional Research Information System

Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana.

CoLFIS: Corpus e Archivio Lessicale dell Italiano Scritto contemporaneo

Pier Marco Bertinetto;Cristina Burani;Alessandro Laudanna;Lucia Marconi;Daniela Ratti;Claudia Rolando;Anna Maria Thornton

2005

Abstract

Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana.

Scheda breve

Scheda completa

Scheda completa (DC)

Campo DC	Valore	Lingua
dc.authority.orgunit	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	-
dc.authority.people	Pier Marco Bertinetto	it
dc.authority.people	Cristina Burani	it
dc.authority.people	Alessandro Laudanna	it
dc.authority.people	Lucia Marconi	it
dc.authority.people	Daniela Ratti	it
dc.authority.people	Claudia Rolando	it
dc.authority.people	Anna Maria Thornton	it
dc.collection.id.s	3022b026-ca94-4314-9d76-902fd078cd4d	*
dc.collection.name	05.12 Altro	*
dc.contributor.appartenenza	Istituto di Scienze e Tecnologie della Cognizione - ISTC	*
dc.contributor.appartenenza.mi	986	*
dc.date.accessioned	2024/02/20 06:20:13	-
dc.date.available	2024/02/20 06:20:13	-
dc.date.issued	2005	-
dc.description.abstract	Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana.	-
dc.description.affiliations	Scuola Normale Superiore, Pisa; Istituto di Scienze e Tecnologie della cognizione - CNR; Università di Salerno; Istituto di Linguistica Computazionale "Antonio Zampolli" - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - CNR; Università de L'Aquila	-
dc.description.allpeople	Marco Bertinetto, Pier; Burani, Cristina; Laudanna, Alessandro; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia; Maria Thornton, Anna	-
dc.description.allpeopleoriginal	Pier Marco Bertinetto; Cristina Burani; Alessandro Laudanna; Lucia Marconi; Daniela Ratti; Claudia Rolando; Anna Maria Thornton	-
dc.description.fulltext	none	en
dc.description.numberofauthors	7	-
dc.identifier.uri	https://hdl.handle.net/20.500.14243/192733	-
dc.identifier.url	http://www.ge.ilc.cnr.it/lessico.php	-
dc.language.iso	ita	-
dc.title	CoLFIS: Corpus e Archivio Lessicale dell Italiano Scritto contemporaneo	en
dc.type.driver	info:eu-repo/semantics/other	-
dc.type.full	05 Altro::05.12 Altro	it
dc.type.miur	298	-
dc.ugov.descaux1	151540	-
iris.orcid.lastModifiedDate	2024/04/04 10:20:49	*
iris.orcid.lastModifiedMillisecond	1712218849979	*
iris.sitodocente.maxattempts	2	-
Appare nelle tipologie:	05.12 Altro

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/192733

Citazioni

ND

ND

ND

social impact