In questo technical report è descritta una tecnica atta a facilitare l'annotazione di un corpus specifico per il training di sistemi di intelligenza artificiale supervisionati per l'estrazione di entità di dominio (Named Entity Recognition - NER) da testi non strutturati e scritti in linguaggio naturale. Tale tecnica è basata sull'utilizzo congiunto di una rete neurale di tipo Deep Learning, di Word Embeddings di dominio, di strumenti NLP e di basi di conoscenza di dominio ed ha lo scopo di facilitare e supportare il compito di un esperto nel complicato e lungo task di annotazione di un corpus, riducendone i tempi e l'effort richiesti. La tecnica proposta è stata applicata nel caso del dominio biomedicale e, in particolare, su cartelle cliniche elettroniche (Electronic Health Records - EHR). In tale ambito applicativo, infatti, la necessità di sistemi intelligenti per l'estrazione di informazioni si scontra con la mancanza di corpora annotati, soprattutto in lingue dif erenti dall'inglese, richiedendo, quindi, lo sviluppo di metodologie del tipo di quella proposta di seguito. I risultati ottenuti mostrano l'utilità della metodologia descritta, la quale può essere anche facilmente declinata in ulteriori domini, oltre che in dif erenti lingue.
Tecnica per l'annotazione di un corpus per l'addestramento di un sistema deep learning per biomedical named entity recognition
Francesco Gargiulo;Stefano Silvestri;Mario Ciampi
2019
Abstract
In questo technical report è descritta una tecnica atta a facilitare l'annotazione di un corpus specifico per il training di sistemi di intelligenza artificiale supervisionati per l'estrazione di entità di dominio (Named Entity Recognition - NER) da testi non strutturati e scritti in linguaggio naturale. Tale tecnica è basata sull'utilizzo congiunto di una rete neurale di tipo Deep Learning, di Word Embeddings di dominio, di strumenti NLP e di basi di conoscenza di dominio ed ha lo scopo di facilitare e supportare il compito di un esperto nel complicato e lungo task di annotazione di un corpus, riducendone i tempi e l'effort richiesti. La tecnica proposta è stata applicata nel caso del dominio biomedicale e, in particolare, su cartelle cliniche elettroniche (Electronic Health Records - EHR). In tale ambito applicativo, infatti, la necessità di sistemi intelligenti per l'estrazione di informazioni si scontra con la mancanza di corpora annotati, soprattutto in lingue dif erenti dall'inglese, richiedendo, quindi, lo sviluppo di metodologie del tipo di quella proposta di seguito. I risultati ottenuti mostrano l'utilità della metodologia descritta, la quale può essere anche facilmente declinata in ulteriori domini, oltre che in dif erenti lingue.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


