CNR Institutional Research Information System

In questo technical report è descritta una tecnica atta a facilitare l'annotazione di un corpus specifico per il training di sistemi di intelligenza artificiale supervisionati per l'estrazione di entità di dominio (Named Entity Recognition - NER) da testi non strutturati e scritti in linguaggio naturale. Tale tecnica è basata sull'utilizzo congiunto di una rete neurale di tipo Deep Learning, di Word Embeddings di dominio, di strumenti NLP e di basi di conoscenza di dominio ed ha lo scopo di facilitare e supportare il compito di un esperto nel complicato e lungo task di annotazione di un corpus, riducendone i tempi e l'effort richiesti. La tecnica proposta è stata applicata nel caso del dominio biomedicale e, in particolare, su cartelle cliniche elettroniche (Electronic Health Records - EHR). In tale ambito applicativo, infatti, la necessità di sistemi intelligenti per l'estrazione di informazioni si scontra con la mancanza di corpora annotati, soprattutto in lingue dif erenti dall'inglese, richiedendo, quindi, lo sviluppo di metodologie del tipo di quella proposta di seguito. I risultati ottenuti mostrano l'utilità della metodologia descritta, la quale può essere anche facilmente declinata in ulteriori domini, oltre che in dif erenti lingue.

Tecnica per l'annotazione di un corpus per l'addestramento di un sistema deep learning per biomedical named entity recognition

Francesco Gargiulo;Stefano Silvestri;Mario Ciampi

2019

Abstract

In questo technical report è descritta una tecnica atta a facilitare l'annotazione di un corpus specifico per il training di sistemi di intelligenza artificiale supervisionati per l'estrazione di entità di dominio (Named Entity Recognition - NER) da testi non strutturati e scritti in linguaggio naturale. Tale tecnica è basata sull'utilizzo congiunto di una rete neurale di tipo Deep Learning, di Word Embeddings di dominio, di strumenti NLP e di basi di conoscenza di dominio ed ha lo scopo di facilitare e supportare il compito di un esperto nel complicato e lungo task di annotazione di un corpus, riducendone i tempi e l'effort richiesti. La tecnica proposta è stata applicata nel caso del dominio biomedicale e, in particolare, su cartelle cliniche elettroniche (Electronic Health Records - EHR). In tale ambito applicativo, infatti, la necessità di sistemi intelligenti per l'estrazione di informazioni si scontra con la mancanza di corpora annotati, soprattutto in lingue dif erenti dall'inglese, richiedendo, quindi, lo sviluppo di metodologie del tipo di quella proposta di seguito. I risultati ottenuti mostrano l'utilità della metodologia descritta, la quale può essere anche facilmente declinata in ulteriori domini, oltre che in dif erenti lingue.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2019
			
	Strutture organizzative
	
				Istituto di Calcolo e Reti ad Alte Prestazioni - ICAR
			
	Parole chiave
	
				Named Entity Recognition
Deep Learning
Annotated Biomedical Corpus
Italian Language
Class Imbalance
			
	Appare nelle tipologie:
	
				08.04 Rapporto tecnico

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/360741

Citazioni

ND

ND

ND

social impact