This report documenting the activities under the Operating Agreement on the development of software functions for the recovery of Archives Textual ILC texts and conversion to a format of XML/TEI representation, stipulated in the Agreement Scientific Collaboration ILC-CNR - Accademia della Crusca. In particular, this report focuses on the following object of the Operating Agreement: "Development of conversion procedures from DBT format to XML / TEI format, according to the indications contained in the Report on the Phase 1 and verification of the results by parsing XML consists of the corpus 800 and '900 of extract text from Heritage Textual ILC, the Its composition has been agreed upon with Accademia della Crusca. Many of the solutions adopted for that type of texts has been chosen to be used in texts lemmatized, as in the case of works by Italian authors of the nineteenth and twentieth centuries. The general structure of the TEI XML document header and body and the definition of the main TAG used is shared by both the text of this Corpus that those lemmatized Periodici Milanesi, where we started because they were significantly more cases of encodings and simultaneously a format earliest time origin. It is indeed formats and storage media prior to the era of personal computers and who have already undergone the transformation from EBCDIC to ASCII.

Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, questo rapporto si focalizza sul seguente oggetto della Convenzione Operativa: "sviluppo di procedure di conversione dal formato DBT al formato XML/TEI, secondo le indicazioni contenute nel Report relativo alla Fase 1 e verifica dei risultati mediante parsing XML costituito dal corpus dell'800 e '900 di testi estratto dal Patrimonio Testuale ILC, la cui composizione è stata concordata con l'Accademia della Crusca". Buona parte delle soluzioni adottate per quella tipologia di testi è stata scelta per essere utilizzata anche in testi non lemmatizzati, come nel caso di opere di autori italiani dell'Ottocento e del Novecento. La strutturazione generale del documento XML TEI in header e body e la definizione dei principali TAG utilizzati è condivisa sia dai testi di questo Corpus che da quelli lemmatizzati dei Periodici Milanesi, da cui siamo partiti perché presentavano una maggiore casistica di codifiche e contemporaneamente un formato di origine più lontano nel tempo. Si tratta infatti di formati e supporti di memorizzazione che precedono l'era del Personal Computer e che hanno già subito la trasformazione da EBCDIC ad ASCII.

Sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell' ILC e conversione in un formato di rappresentazione XML/TEI Fase 2

Cucurullo Sebastiana
2015

Abstract

Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, questo rapporto si focalizza sul seguente oggetto della Convenzione Operativa: "sviluppo di procedure di conversione dal formato DBT al formato XML/TEI, secondo le indicazioni contenute nel Report relativo alla Fase 1 e verifica dei risultati mediante parsing XML costituito dal corpus dell'800 e '900 di testi estratto dal Patrimonio Testuale ILC, la cui composizione è stata concordata con l'Accademia della Crusca". Buona parte delle soluzioni adottate per quella tipologia di testi è stata scelta per essere utilizzata anche in testi non lemmatizzati, come nel caso di opere di autori italiani dell'Ottocento e del Novecento. La strutturazione generale del documento XML TEI in header e body e la definizione dei principali TAG utilizzati è condivisa sia dai testi di questo Corpus che da quelli lemmatizzati dei Periodici Milanesi, da cui siamo partiti perché presentavano una maggiore casistica di codifiche e contemporaneamente un formato di origine più lontano nel tempo. Si tratta infatti di formati e supporti di memorizzazione che precedono l'era del Personal Computer e che hanno già subito la trasformazione da EBCDIC ad ASCII.
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC -
dc.authority.people Cucurullo Sebastiana it
dc.collection.id.s 95773a9f-8d06-4466-a951-5d4e15d70690 *
dc.collection.name 08.04 Rapporto tecnico *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza.mi 918 *
dc.date.accessioned 2024/02/21 03:05:43 -
dc.date.available 2024/02/21 03:05:43 -
dc.date.issued 2015 -
dc.description.abstract This report documenting the activities under the Operating Agreement on the development of software functions for the recovery of Archives Textual ILC texts and conversion to a format of XML/TEI representation, stipulated in the Agreement Scientific Collaboration ILC-CNR - Accademia della Crusca. In particular, this report focuses on the following object of the Operating Agreement: "Development of conversion procedures from DBT format to XML / TEI format, according to the indications contained in the Report on the Phase 1 and verification of the results by parsing XML consists of the corpus 800 and '900 of extract text from Heritage Textual ILC, the Its composition has been agreed upon with Accademia della Crusca. Many of the solutions adopted for that type of texts has been chosen to be used in texts lemmatized, as in the case of works by Italian authors of the nineteenth and twentieth centuries. The general structure of the TEI XML document header and body and the definition of the main TAG used is shared by both the text of this Corpus that those lemmatized Periodici Milanesi, where we started because they were significantly more cases of encodings and simultaneously a format earliest time origin. It is indeed formats and storage media prior to the era of personal computers and who have already undergone the transformation from EBCDIC to ASCII. -
dc.description.abstracteng Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, questo rapporto si focalizza sul seguente oggetto della Convenzione Operativa: "sviluppo di procedure di conversione dal formato DBT al formato XML/TEI, secondo le indicazioni contenute nel Report relativo alla Fase 1 e verifica dei risultati mediante parsing XML costituito dal corpus dell'800 e '900 di testi estratto dal Patrimonio Testuale ILC, la cui composizione è stata concordata con l'Accademia della Crusca". Buona parte delle soluzioni adottate per quella tipologia di testi è stata scelta per essere utilizzata anche in testi non lemmatizzati, come nel caso di opere di autori italiani dell'Ottocento e del Novecento. La strutturazione generale del documento XML TEI in header e body e la definizione dei principali TAG utilizzati è condivisa sia dai testi di questo Corpus che da quelli lemmatizzati dei Periodici Milanesi, da cui siamo partiti perché presentavano una maggiore casistica di codifiche e contemporaneamente un formato di origine più lontano nel tempo. Si tratta infatti di formati e supporti di memorizzazione che precedono l'era del Personal Computer e che hanno già subito la trasformazione da EBCDIC ad ASCII. -
dc.description.affiliations ILC - Istituto di Linguistica Computazionale "Antonio Zampolli" -
dc.description.allpeople Cucurullo, Sebastiana -
dc.description.allpeopleoriginal Cucurullo Sebastiana -
dc.description.fulltext none en
dc.description.numberofauthors 1 -
dc.identifier.uri https://hdl.handle.net/20.500.14243/316211 -
dc.language.iso ita -
dc.relation.numberofpages 21 -
dc.subject.keywords Archivi Testuali -
dc.subject.singlekeyword Archivi Testuali *
dc.title Sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell' ILC e conversione in un formato di rappresentazione XML/TEI Fase 2 en
dc.type.driver info:eu-repo/semantics/other -
dc.type.full 08 Report e Working Paper::08.04 Rapporto tecnico it
dc.type.miur -2.0 -
dc.ugov.descaux1 353218 -
iris.orcid.lastModifiedDate 2024/04/04 14:16:21 *
iris.orcid.lastModifiedMillisecond 1712232981070 *
iris.sitodocente.maxattempts 4 -
Appare nelle tipologie: 08.04 Rapporto tecnico
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/316211
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact