This report documenting the activities under the Operating Agreement on the development of software functions for the recovery of Archives Textual ILC texts and conversion to a format of XML/TEI representation, stipulated in the Agreement Scientific Collaboration ILC-CNR - Accademia della Crusca. In particular, this report focuses on the following object of the Operating Agreement: "Development of conversion procedures from DBT format to XML / TEI format, according to the indications contained in the Report on the Phase 1 and verification of the results by parsing XML consists of the corpus 800 and '900 of extract text from Heritage Textual ILC, the Its composition has been agreed upon with Accademia della Crusca. Many of the solutions adopted for that type of texts has been chosen to be used in texts lemmatized, as in the case of works by Italian authors of the nineteenth and twentieth centuries. The general structure of the TEI XML document header and body and the definition of the main TAG used is shared by both the text of this Corpus that those lemmatized Periodici Milanesi, where we started because they were significantly more cases of encodings and simultaneously a format earliest time origin. It is indeed formats and storage media prior to the era of personal computers and who have already undergone the transformation from EBCDIC to ASCII.

Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, questo rapporto si focalizza sul seguente oggetto della Convenzione Operativa: "sviluppo di procedure di conversione dal formato DBT al formato XML/TEI, secondo le indicazioni contenute nel Report relativo alla Fase 1 e verifica dei risultati mediante parsing XML costituito dal corpus dell'800 e '900 di testi estratto dal Patrimonio Testuale ILC, la cui composizione è stata concordata con l'Accademia della Crusca". Buona parte delle soluzioni adottate per quella tipologia di testi è stata scelta per essere utilizzata anche in testi non lemmatizzati, come nel caso di opere di autori italiani dell'Ottocento e del Novecento. La strutturazione generale del documento XML TEI in header e body e la definizione dei principali TAG utilizzati è condivisa sia dai testi di questo Corpus che da quelli lemmatizzati dei Periodici Milanesi, da cui siamo partiti perché presentavano una maggiore casistica di codifiche e contemporaneamente un formato di origine più lontano nel tempo. Si tratta infatti di formati e supporti di memorizzazione che precedono l'era del Personal Computer e che hanno già subito la trasformazione da EBCDIC ad ASCII.

Sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell' ILC e conversione in un formato di rappresentazione XML/TEI Fase 2

Cucurullo Sebastiana
2015

Abstract

Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, questo rapporto si focalizza sul seguente oggetto della Convenzione Operativa: "sviluppo di procedure di conversione dal formato DBT al formato XML/TEI, secondo le indicazioni contenute nel Report relativo alla Fase 1 e verifica dei risultati mediante parsing XML costituito dal corpus dell'800 e '900 di testi estratto dal Patrimonio Testuale ILC, la cui composizione è stata concordata con l'Accademia della Crusca". Buona parte delle soluzioni adottate per quella tipologia di testi è stata scelta per essere utilizzata anche in testi non lemmatizzati, come nel caso di opere di autori italiani dell'Ottocento e del Novecento. La strutturazione generale del documento XML TEI in header e body e la definizione dei principali TAG utilizzati è condivisa sia dai testi di questo Corpus che da quelli lemmatizzati dei Periodici Milanesi, da cui siamo partiti perché presentavano una maggiore casistica di codifiche e contemporaneamente un formato di origine più lontano nel tempo. Si tratta infatti di formati e supporti di memorizzazione che precedono l'era del Personal Computer e che hanno già subito la trasformazione da EBCDIC ad ASCII.
2015
Istituto di linguistica computazionale "Antonio Zampolli" - ILC
This report documenting the activities under the Operating Agreement on the development of software functions for the recovery of Archives Textual ILC texts and conversion to a format of XML/TEI representation, stipulated in the Agreement Scientific Collaboration ILC-CNR - Accademia della Crusca. In particular, this report focuses on the following object of the Operating Agreement: "Development of conversion procedures from DBT format to XML / TEI format, according to the indications contained in the Report on the Phase 1 and verification of the results by parsing XML consists of the corpus 800 and '900 of extract text from Heritage Textual ILC, the Its composition has been agreed upon with Accademia della Crusca. Many of the solutions adopted for that type of texts has been chosen to be used in texts lemmatized, as in the case of works by Italian authors of the nineteenth and twentieth centuries. The general structure of the TEI XML document header and body and the definition of the main TAG used is shared by both the text of this Corpus that those lemmatized Periodici Milanesi, where we started because they were significantly more cases of encodings and simultaneously a format earliest time origin. It is indeed formats and storage media prior to the era of personal computers and who have already undergone the transformation from EBCDIC to ASCII.
Archivi Testuali
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/316211
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact