Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. CALIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras y esta formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diaros, periodicos y libros. Este producto representa el italiano efectivamente leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras estan extraido de tres diarios que son los mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos esta constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, feminil, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros esta constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, fantascienza, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. En este trabajo se analizan las informaciones extraidas del lexico de frecuencia del corpus lematizado de CALIS (Corpus e Archivio Lessicale Italiano Scritto) relativamente a las diferentes categorias gramaticales, a los datos de frecuencia y de dispercion de cada lemma y de cada forma en los distintos sectores y subsectores. Se efectuan por algunos sectores analisis sobre el acrecentamiento de las formas/lemas con el fin de efectuar una evaluacion sobre las posibles y corectas dimensiones de un corpus para ser representativo de la lengua analizada.
Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito
Paola Cutugno;Lucia Marconi;
2005
Abstract
Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. CALIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras y esta formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diaros, periodicos y libros. Este producto representa el italiano efectivamente leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras estan extraido de tres diarios que son los mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos esta constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, feminil, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros esta constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, fantascienza, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. En este trabajo se analizan las informaciones extraidas del lexico de frecuencia del corpus lematizado de CALIS (Corpus e Archivio Lessicale Italiano Scritto) relativamente a las diferentes categorias gramaticales, a los datos de frecuencia y de dispercion de cada lemma y de cada forma en los distintos sectores y subsectores. Se efectuan por algunos sectores analisis sobre el acrecentamiento de las formas/lemas con el fin de efectuar una evaluacion sobre las posibles y corectas dimensiones de un corpus para ser representativo de la lengua analizada.| Campo DC | Valore | Lingua |
|---|---|---|
| dc.authority.orgunit | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | - |
| dc.authority.people | Paola Cutugno | it |
| dc.authority.people | Lucia Marconi | it |
| dc.authority.people | Daniela Ratti | it |
| dc.authority.people | Claudia Rolando | it |
| dc.collection.id.s | 71c7200a-7c5f-4e83-8d57-d3d2ba88f40d | * |
| dc.collection.name | 04.01 Contributo in Atti di convegno | * |
| dc.contributor.appartenenza | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | * |
| dc.contributor.appartenenza.mi | 918 | * |
| dc.date.accessioned | 2024/02/18 04:43:18 | - |
| dc.date.available | 2024/02/18 04:43:18 | - |
| dc.date.issued | 2005 | - |
| dc.description.abstract | Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito. CALIS es una base de datos de la lengua italiana escrita de 3.798.275 palabras y esta formada de textos escritos de varios generes pesados oportunamente y selecionados en tres distintos sectores: diaros, periodicos y libros. Este producto representa el italiano efectivamente leido mas bien que toda la lengua italiana escrita. Esta eleccion se justifica en cuanto se deseaba construir un corpus, y en consecuencia un lexico de frecuencia, que se acercara los mas posible al lexico mental de un hablante de media cultura y no a un diccionario de la lengua italiana. Los diarios con 1.836.119 palabras estan extraido de tres diarios que son los mas importantes y leidos en Italia: Il Corriere Della Sera, Repubblica, La Stampa. En cada diario se han elegidos textos de 9 diferentes subsectores: economia, cronica local, cronica mundana, cronica negra, politica exterior, politica interior, ciencia, espectaculo y deporte. El sector de los periodicos esta constituido por 1.306.653 palabras elejdas entre 12 differentes subsectores: arte-ciencia-tecnica, auto-nautica, ninos-muchachos, casa-hobby, feminil, fotonovelas, informacion general, cronica mundana, radio-television, deporte, viajes-ecologia y otro. El sector de los libros esta constituido por 655.503 palabras elejdas entre 13 generos literarios: arte, ninos, fantascienza, gialli espionaje, hobby y viajes, narrativa clasica, narrativa moderna, rosa, ensaystica, ciencias naturales y exactas, ciencias sociales y humanas, teatro y poesia. En este trabajo se analizan las informaciones extraidas del lexico de frecuencia del corpus lematizado de CALIS (Corpus e Archivio Lessicale Italiano Scritto) relativamente a las diferentes categorias gramaticales, a los datos de frecuencia y de dispercion de cada lemma y de cada forma en los distintos sectores y subsectores. Se efectuan por algunos sectores analisis sobre el acrecentamiento de las formas/lemas con el fin de efectuar una evaluacion sobre las posibles y corectas dimensiones de un corpus para ser representativo de la lengua analizada. | - |
| dc.description.affiliations | Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR; Istituto di Linguistica Computazionale "Antonio Zampolli" - U.O.S. di Genova - CNR. | - |
| dc.description.allpeople | Cutugno, Paola; Marconi, Lucia; Ratti, Daniela; Rolando, Claudia | - |
| dc.description.allpeopleoriginal | Paola Cutugno; Lucia Marconi; Daniela Ratti; Claudia Rolando | - |
| dc.description.fulltext | none | en |
| dc.description.note | Informazioni statistiche del Corpus e Archivio Lessicale dell'italiano scritto. | - |
| dc.description.numberofauthors | 4 | - |
| dc.identifier.isbn | 959-7174-04-9 | - |
| dc.identifier.uri | https://hdl.handle.net/20.500.14243/144315 | - |
| dc.identifier.url | http://www.santiago.cu/hosting/linguistica/descargar.php?d=194 | - |
| dc.language.iso | spa | - |
| dc.publisher.country | CUB | - |
| dc.publisher.name | Centro de linguística aplicada, Ministerio de ciencia, tecnología y medio ambiente | - |
| dc.publisher.place | Santiago de Cuba | - |
| dc.relation.alleditors | Celia Alvarez Moreno; Jorge Perez Bolaños; Laritza Hernandez Rojas; Leonel Ruiz Miyares | - |
| dc.relation.conferencedate | 24 - 28 Gennaio 2005 | - |
| dc.relation.conferencename | IX Simposio Internacional Comunicación Social | - |
| dc.relation.conferenceplace | Santiago de Cuba | - |
| dc.relation.firstpage | 361 | - |
| dc.relation.ispartofbook | Actas-I IX Simposio Internacional Comunicación Social | - |
| dc.relation.lastpage | 365 | - |
| dc.subject.keywords | Italiano | - |
| dc.subject.keywords | Analisi Statistica | - |
| dc.subject.keywords | Lessico di Frequenza | - |
| dc.subject.singlekeyword | Italiano | * |
| dc.subject.singlekeyword | Analisi Statistica | * |
| dc.subject.singlekeyword | Lessico di Frequenza | * |
| dc.title | Informaciones estadísticas en CALIS: Corpus y Archivo Léxical del Italiano Escrito | en |
| dc.type.driver | info:eu-repo/semantics/conferenceObject | - |
| dc.type.full | 04 Contributo in convegno::04.01 Contributo in Atti di convegno | it |
| dc.type.miur | 273 | - |
| dc.type.referee | Sì, ma tipo non specificato | - |
| dc.ugov.descaux1 | 175675 | - |
| iris.orcid.lastModifiedDate | 2024/04/04 12:39:12 | * |
| iris.orcid.lastModifiedMillisecond | 1712227152939 | * |
| iris.sitodocente.maxattempts | 1 | - |
| Appare nelle tipologie: | 04.01 Contributo in Atti di convegno | |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


