CoLFIS: Corpus e Archivio Lessicale dell Italiano Scritto contemporaneo

Pier Marco Bertinetto,; Burani, Cristina; Laudanna, Alessandro; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia; Anna Maria Thornton,

Dal progetto speciale, "Banca Dati Lessicali dell'Italiano Scritto Contemporaneo" del CNR, sviluppato in collaborazione con la Scuola Normale Superiore di Pisa e l'Istituto di Scienze e Tecnologie della Cognizione del CNR di Roma, è stato realizzato il "Corpus e Archivio Lessicale dell'Italiano Scritto contemporaneo" (CoLFIS), suddiviso in tre settori contenente, in maniera opportunamente bilanciata, testi appartenenti a vari generi di scrittura. I sottoinsiemi, o settori, individuati in CoLFIS sono: la "stampa quotidiana" suddivisa in tre testate giornalistiche: "Il Corriere Della Sera", "La Repubblica", "La Stampa", a loro volta in ogni testata le occorrenze sono poi suddivise in sette sottoinsiemi; le "Pubblicazioni Periodiche" sono ulteriormente suddivise in 12 sottosettori; i "libri" sono suddivisi in 13 generi letterari. Il corpus rappresenta soprattutto l'italiano effettivamente letto piuttosto che tutto l'italiano scritto dal momento che, nel definire gli insiemi di testi da includere, non si sono tenuti presenti tutti i possibili usi scritti dell'italiano, tutti i tipi di testi teoricamente producibili ed effettivamente prodotti, ma piuttosto i tipi di testi che, da una indagine sociologica e statistica, sono risultati essere i più letti. Tale scelta si giustifica in quanto si è voluto costruire un corpus e un lessico di frequenza che si avvicinassero il più possibile al lessico mentale di un parlante di media cultura e non un a dizionario esaustivo della lingua italiana. Il corpus di CoLFIS è stato totalmente lemmatizzato e sono stati sviluppati algoritmi software di analisi statistica per estrarre i lessici di frequenza nel corpus totale e nei diversi settori costituenti il corpus lemmatizzato, per ogni lemma e per le relative forme. CoLFIS ha dato luogo a diversi prodotti disponibili in formato digitale tra cui un formario, i lessici di frequenza per i diversi settori e un lessico di frequenza totale dotati di appropriati indici di frequenza. Il corpus esiste in versione testuale e in versione lemmatizzata. Si tratta dell'unico corpus di riferimento creato su base statistica e interamente lemmatizzato della lingua italiana.

CNR Institutional Research Information System