Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés -- dont un correcteur orthographique intégré --, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.

This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.

Large-Scale Optical Character Recognition of Ancient Greek

2017

Abstract

This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.
2017
Istituto di linguistica computazionale "Antonio Zampolli" - ILC
Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés -- dont un correcteur orthographique intégré --, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.
OCR
Ancient Greek
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/340936
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact