Semi-automated text classification

Berardi, G

There is currently a high demand for information systems that automatically analyze textual data, since many organizations, both private and public, need to process large amounts of such data as part of their daily routine, an activity that cannot be performed by means of human work only. One of the answers to this need is text classification (TC), the task of automatically labelling textual documents from a domain D with thematic categories from a predefined set C. Modern text classification systems have reached high efficiency standards, but cannot always guarantee the labelling accuracy that applications demand. When the level of accuracy that can be obtained is insufficient, one may revert to processes in which classification is performed via a combination of automated activity and human effort. One such process is semi-automated text classification (SATC), which we define as the task of ranking a set D of automatically labelled textual documents in such a way that, if a human annotator validates (i.e., inspects and corrects where appropriate) the documents in a top-ranked portion of D with the goal of increasing the overall labelling accuracy of D, the expected such increase is maximized. An obvious strategy is to rank D so that the documents that the classifier has labelled with the lowest confidence are top-ranked. In this dissertation we show that this strategy is suboptimal. We develop new utility-theoretic ranking methods based on the notion of validation gain, defined as the improvement in classification effectiveness that would derive by validating a given automatically labelled document. We also propose new effectiveness measures for SATC-oriented ranking methods, based on the expected reduction in classification error brought about by partially validating a ranked list generated by a given ranking method. We report the results of experiments showing that, with respect to the baseline method above, and according to the proposed measures, our utility-theoretic ranking methods can achieve substantially higher expected reductions in classification error. We therefore explore the task of SATC and the potential of our methods, in multiple text classification contexts. This dissertation is, to the best of our knowledge, the first to systematically address the task of semi-automated text classification.

Al giorno d'oggi esiste una forte domanda di sistemi informatici per l'analisi automatica dei dati testuali. Le grandi industrie e organizzazioni hanno bisogno di elaborare enormi quantita di dati testuali, un'attività che non può essere eseguita con il solo lavoro umano. Una delle risposte a questa necessità è la Text Classification (TC), l'attività di etichettare automaticamente i documenti testuali di un insieme D con le categorie tematiche di un insieme predefinito C. I moderni sistemi di text classification hanno raggiunto alti standard di efficienza, ma non possono sempre garantire l'accuratezza di etichettatura che le applicazioni richiedono. Quando il livello di accuratezza che può essere ottenuto è insufficiente, si possono cambiare i processi con cui la classificazione è eseguita, combinando i sistemi automatici con il lavoro umano. Un esempio in tal senso è la Semi-Automated Text Classification (SATC), che consiste nell'attività di ordinare un insieme di documenti testuali etichettati automaticamente D in modo che, se un annotatore umano validasse (i.e., ispezionasse e correggesse dove appropriato) una porzione dei primi documenti dell'ordinamento con l'obiettivo di incrementare l'accuratezza dell'etichettatura di D, l'incremento atteso venga massimizzato. Una strategia ovvia è quella di ordinare D in modo che i documenti che il classificatore ha etichettato con confidenza più bassa siano i primi dell'ordinamento. In questa tesi dimostriamo che questa strategia è subottimale. Sviluppiamo nuovi metodi di ordinamento basati sulla teoria dell'utilità e sul concetto di guadagno della validazione, definito come il miglioramento dell'efficacia di classificazione che deriverebbe validando un dato documento etichettato automaticamente. Proponiamo inoltre nuove misure di efficacia per i metodi di ordinamento orientati alla SATC, basati sulla riduzione attesa dell'errore di classificazione, riduzione ottenuta dalla validazione di parte della lista di documenti generata da un dato metodo di ordinamento. Riportiamo i risultati degli esperimenti i quali dimostrano che, in confronto al metodo di base di cui sopra, e secondo le misure proposte, i nostri metodi di ordinamento basati sulla teoria dell'utilità sono in grado di ottenere una riduzione attesa dell'errore di classificazione sostanzialmente maggiore. Esploriamo quindi l'attività della SATC e il potenziale dei nostri metodi, in molteplici contesti della text classification. Questa tesi è, al meglio delle nostre conoscenze, la prima ad affrontare l'attività della semi-automated text classification.

Semi-automated text classification / Berardi G.. - (10/11/2014).