In questo technical report è descritta una tecnica atta a facilitare l'annotazione di un corpus specifico per il training di sistemi di intelligenza artificiale supervisionati per l'estrazione di entità di dominio (Named Entity Recognition - NER) da testi non strutturati e scritti in linguaggio naturale. Tale tecnica è basata sull'utilizzo congiunto di una rete neurale di tipo Deep Learning, di Word Embeddings di dominio, di strumenti NLP e di basi di conoscenza di dominio ed ha lo scopo di facilitare e supportare il compito di un esperto nel complicato e lungo task di annotazione di un corpus, riducendone i tempi e l'effort richiesti. La tecnica proposta è stata applicata nel caso del dominio biomedicale e, in particolare, su cartelle cliniche elettroniche (Electronic Health Records - EHR). In tale ambito applicativo, infatti, la necessità di sistemi intelligenti per l'estrazione di informazioni si scontra con la mancanza di corpora annotati, soprattutto in lingue dif erenti dall'inglese, richiedendo, quindi, lo sviluppo di metodologie del tipo di quella proposta di seguito. I risultati ottenuti mostrano l'utilità della metodologia descritta, la quale può essere anche facilmente declinata in ulteriori domini, oltre che in dif erenti lingue.

Tecnica per l'annotazione di un corpus per l'addestramento di un sistema deep learning per biomedical named entity recognition

Francesco Gargiulo;Stefano Silvestri;Mario Ciampi
2019

Abstract

In questo technical report è descritta una tecnica atta a facilitare l'annotazione di un corpus specifico per il training di sistemi di intelligenza artificiale supervisionati per l'estrazione di entità di dominio (Named Entity Recognition - NER) da testi non strutturati e scritti in linguaggio naturale. Tale tecnica è basata sull'utilizzo congiunto di una rete neurale di tipo Deep Learning, di Word Embeddings di dominio, di strumenti NLP e di basi di conoscenza di dominio ed ha lo scopo di facilitare e supportare il compito di un esperto nel complicato e lungo task di annotazione di un corpus, riducendone i tempi e l'effort richiesti. La tecnica proposta è stata applicata nel caso del dominio biomedicale e, in particolare, su cartelle cliniche elettroniche (Electronic Health Records - EHR). In tale ambito applicativo, infatti, la necessità di sistemi intelligenti per l'estrazione di informazioni si scontra con la mancanza di corpora annotati, soprattutto in lingue dif erenti dall'inglese, richiedendo, quindi, lo sviluppo di metodologie del tipo di quella proposta di seguito. I risultati ottenuti mostrano l'utilità della metodologia descritta, la quale può essere anche facilmente declinata in ulteriori domini, oltre che in dif erenti lingue.
2019
Istituto di Calcolo e Reti ad Alte Prestazioni - ICAR
Named Entity Recognition
Deep Learning
Annotated Biomedical Corpus
Italian Language
Class Imbalance
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/360741
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact