Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana.

CoLFIS: Corpus e Archivio Lessicale dell Italiano Scritto contemporaneo

Cristina Burani;
2005

Abstract

Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana.
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC -
dc.authority.people Pier Marco Bertinetto it
dc.authority.people Cristina Burani it
dc.authority.people Alessandro Laudanna it
dc.authority.people Lucia Marconi it
dc.authority.people Daniela Ratti it
dc.authority.people Claudia Rolando it
dc.authority.people Anna Maria Thornton it
dc.collection.id.s 3022b026-ca94-4314-9d76-902fd078cd4d *
dc.collection.name 05.12 Altro *
dc.contributor.appartenenza Istituto di Scienze e Tecnologie della Cognizione - ISTC *
dc.contributor.appartenenza.mi 986 *
dc.date.accessioned 2024/02/20 06:20:13 -
dc.date.available 2024/02/20 06:20:13 -
dc.date.issued 2005 -
dc.description.abstract Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana. -
dc.description.affiliations Scuola Normale Superiore, Pisa; Istituto di Scienze e Tecnologie della cognizione - CNR; Università di Salerno; Istituto di Linguistica Computazionale "Antonio Zampolli" - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - CNR; Università de L'Aquila -
dc.description.allpeople Marco Bertinetto, Pier; Burani, Cristina; Laudanna, Alessandro; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia; Maria Thornton, Anna -
dc.description.allpeopleoriginal Pier Marco Bertinetto; Cristina Burani; Alessandro Laudanna; Lucia Marconi; Daniela Ratti; Claudia Rolando; Anna Maria Thornton -
dc.description.fulltext none en
dc.description.numberofauthors 7 -
dc.identifier.uri https://hdl.handle.net/20.500.14243/192733 -
dc.identifier.url http://www.ge.ilc.cnr.it/lessico.php -
dc.language.iso ita -
dc.title CoLFIS: Corpus e Archivio Lessicale dell Italiano Scritto contemporaneo en
dc.type.driver info:eu-repo/semantics/other -
dc.type.full 05 Altro::05.12 Altro it
dc.type.miur 298 -
dc.ugov.descaux1 151540 -
iris.orcid.lastModifiedDate 2024/04/04 10:20:49 *
iris.orcid.lastModifiedMillisecond 1712218849979 *
iris.sitodocente.maxattempts 2 -
Appare nelle tipologie: 05.12 Altro
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/192733
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact