Annotated corpora, provided that they adopt international standards and expose data in open format, have many more chances to be easily exploited and reused for different objectives than traditional, analogue corpora. This paper aims at presenting the results of the early adhesion to best practices and principles afterward codified as Open Science and FAIR principles in the frame of projects concerned with digital textual corpora, in a niche area of research such as the pre-Islamic Arabian epigraphy. The case study analysed in this paper is the Digital Archive for the Study of pre-Islamic Arabian inscriptions - DASI, an online annotated corpus of the textual sources from Ancient Arabia, which also exposes its records in standard formats (oai_dc, EpiDoc, EDM) in an OAI-PMH repository. The initiatives of reuse of DASI open data in the frame of the recently ANR-funded project Maparabia (CNRS-CNR) are discussed in the paper, focusing on the exploitation of DASI's onomastic and geographic data in a new reference tool, the Gazetteer of Ancient Arabia. After introducing DASI and Maparabia projects and highlighting the objectives of the Gazetteer, the paper describes the conceptual model of its database and the module importing data from DASI. The population of the Gazetteer, implying also a data entry and manipulation phase, is exemplified by the case-study of the Ancient South Arabian place 'Bar?qish/Yathill'. Based on the above experience, limitations and opportunities of data reuse and synchronisation issues between systems are discussed.

I corpora annotati, a condizione che adottino standard internazionali ed espongano i dati in formato aperto, hanno molte più possibilità, rispetto ai corpora tradizionali e analogici, di essere riutilizzati per obiettivi diversi da quelli per cui sono stati concepiti. Il presente articolo intende presentare i risultati di una precoce adesione alle buone pratiche e ai principi successivamente codificati come Open Science e FAIR nell'ambito di progetti di corpora testuali digitali, specificamente in un campo di ricerca che possiamo definire di nicchia, ovvero l'epigrafia dell'Arabia preislamica. Il caso di studio analizzato in questo articolo è il Digital Archive for the Study of pre-Islamic Arabian inscriptions - DASI, un corpus online annotato delle fonti testuali dell'Arabia antica, che espone i suoi record anche in formati standard (oai_dc, EpiDoc, EDM) in un repository OAI-PMH. L'articolo presenta le iniziative di riuso dei dati onomastici e geografici di DASI in un nuovo strumento di reference, il Gazetteer of Ancient Arabia, sviluppato nel quadro del progetto Maparabia (CNRS-CNR) recentemente finanziato dall'ANR. Dopo un'introduzione ai progetti DASI e Maparabia, in cui sono esposti gli obiettivi del Gazetteer, l'articolo descrive il modello concettuale del suo database e il funzionamento del modulo di importazione dei dati da DASI. Il popolamento del Gazetteer, che implica anche una fase di inserimento e manipolazione dei dati, è esemplificato dal caso di studio del sito sudarabico di 'Bar?qish/Yathill'. Tale esperienza offre un'occasione per discutere delle limitazioni e delle opportunità di riutilizzo di dati e metadati testuali, e delle questioni relative alla sincronizzazione fra sistemi.

The digital Gazetteer of Ancient Arabia: An example of reuse and exploitation of annotated textual corpora

Rossi I;
2021

Abstract

Annotated corpora, provided that they adopt international standards and expose data in open format, have many more chances to be easily exploited and reused for different objectives than traditional, analogue corpora. This paper aims at presenting the results of the early adhesion to best practices and principles afterward codified as Open Science and FAIR principles in the frame of projects concerned with digital textual corpora, in a niche area of research such as the pre-Islamic Arabian epigraphy. The case study analysed in this paper is the Digital Archive for the Study of pre-Islamic Arabian inscriptions - DASI, an online annotated corpus of the textual sources from Ancient Arabia, which also exposes its records in standard formats (oai_dc, EpiDoc, EDM) in an OAI-PMH repository. The initiatives of reuse of DASI open data in the frame of the recently ANR-funded project Maparabia (CNRS-CNR) are discussed in the paper, focusing on the exploitation of DASI's onomastic and geographic data in a new reference tool, the Gazetteer of Ancient Arabia. After introducing DASI and Maparabia projects and highlighting the objectives of the Gazetteer, the paper describes the conceptual model of its database and the module importing data from DASI. The population of the Gazetteer, implying also a data entry and manipulation phase, is exemplified by the case-study of the Ancient South Arabian place 'Bar?qish/Yathill'. Based on the above experience, limitations and opportunities of data reuse and synchronisation issues between systems are discussed.
2021
Istituto di Scienze del Patrimonio Culturale - ISPC
I corpora annotati, a condizione che adottino standard internazionali ed espongano i dati in formato aperto, hanno molte più possibilità, rispetto ai corpora tradizionali e analogici, di essere riutilizzati per obiettivi diversi da quelli per cui sono stati concepiti. Il presente articolo intende presentare i risultati di una precoce adesione alle buone pratiche e ai principi successivamente codificati come Open Science e FAIR nell'ambito di progetti di corpora testuali digitali, specificamente in un campo di ricerca che possiamo definire di nicchia, ovvero l'epigrafia dell'Arabia preislamica. Il caso di studio analizzato in questo articolo è il Digital Archive for the Study of pre-Islamic Arabian inscriptions - DASI, un corpus online annotato delle fonti testuali dell'Arabia antica, che espone i suoi record anche in formati standard (oai_dc, EpiDoc, EDM) in un repository OAI-PMH. L'articolo presenta le iniziative di riuso dei dati onomastici e geografici di DASI in un nuovo strumento di reference, il Gazetteer of Ancient Arabia, sviluppato nel quadro del progetto Maparabia (CNRS-CNR) recentemente finanziato dall'ANR. Dopo un'introduzione ai progetti DASI e Maparabia, in cui sono esposti gli obiettivi del Gazetteer, l'articolo descrive il modello concettuale del suo database e il funzionamento del modulo di importazione dei dati da DASI. Il popolamento del Gazetteer, che implica anche una fase di inserimento e manipolazione dei dati, è esemplificato dal caso di studio del sito sudarabico di 'Bar?qish/Yathill'. Tale esperienza offre un'occasione per discutere delle limitazioni e delle opportunità di riutilizzo di dati e metadati testuali, e delle questioni relative alla sincronizzazione fra sistemi.
Ancient Arabia
annotated textual corpora
digital epigraphy
digital gazetteers
digital reference tools
open data
data reuse
semantic web
File in questo prodotto:
File Dimensione Formato  
prod_463218-doc_181350.pdf

accesso aperto

Descrizione: The digital Gazetteer of Ancient Arabia: an example of reuse and exploitation of annotated textual corpora
Tipologia: Versione Editoriale (PDF)
Dimensione 867.49 kB
Formato Adobe PDF
867.49 kB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/445319
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus 0
  • ???jsp.display-item.citation.isi??? ND
social impact