Il crescente interesse verso i social network, le smart cities e l'Industria 4.0 sta incentivando lo sviluppo di tecniche per processare, comprendere e organizzare enormi quantità di dati. I recenti sviluppi nell'ambito dell'Intelligenza Artificiale hanno dato vita al Deep Learning, una branca del Machine Learning che riconosce autonomamente i pattern più rilevanti nei dati in input, senza dover dipendere da una selezione guidata da un esperto umano. Il Deep Learning ha rivoluzionato importanti campi applicativi, come la Computer Vision e il Natural Language Processing; nonostante ciò, soffre ancora di importanti limitazioni. Sebbene siano stati raggiunti risultati straordinari in molti campi applicativi, le reti neurali hanno ancora difficoltà nel comprendere la relazione tra elementi semanticamente collegati tra loro ma distanti, in riferimento sia alla dimensione spazio-temporale ma anche più genericamente alla loro forma (un testo è in sua essenza diverso da un'immagine, anche se può perfettamente descriverla). Questa mancanza ha ripercussioni negative sulla ricerca di interconnessioni tra oggetti multimediali aventi natura differente o sulla ricerca di relazioni tra oggetti spazialmente distanti in un'immagine. In questa tesi abbiamo affrontato il problema della comprensione relazionale nelle reti neurali profonde, prendendo come riferimento tre task differenti ma strettamente correlati tra loro. In primo luogo, abbiamo introdotto il Relational Content-Based Image Retrieval (R-CBIR) - un'estensione al task di CBIR classico - il cui scopo è quello di cercare tutte le immagini che condividano una similarità tra le relazioni che insistono tra gli oggetti in esse contenuti. Abbiamo affrontato il Relational CBIR definendo alcune architetture capaci di estrarre dei descrittori relazionali ed estendendo il dataset sintetico CLEVR per ottenere un ground-truth adatto alla valutazione di questo nuovo task. Il passo successivo ha riguardato l'ampliamento di questi risultati preliminari verso l'utilizzo di immagini reali nel contesto di ricerce cross-modali, dove descrizioni in linguaggio naturale vengono usate come query per cercare in grossi database di immagini (e viceversa). Abbiamo utilizzato l'architettura Transformer per correlare elementi visuali e testuali, ponendoci come obiettivo finale la ricerca su larga scala. Dopo aver effettuato l'integrazione di queste reti in uno strumento per la ricerca interattiva di video su larga scala (VISIONE), abbiamo osservato come i descrittori ottenuti siano capaci di codificare elementi altamente semantici, raggiungendo risultati eccellenti sul task di Semantic CBIR. Abbiamo infine utilizzato queste stesse tecnologie per risolvere un problema estremamente importante nei social network: la rilevazione di tecniche di persuasione nelle campagne di disinformazione. L'ultima parte della ricerca si è focalizzata sullo studio delle architetture convoluzionali su semplici problemi di ragionamento visivo, che richiedono confronti tra forme distanti nello spazio. In questo contesto abbiamo proposto un'architettura ibrida CNN-Transformer che ha ottenuto ottimi risultati, rimanendo comunque meno complessa e più efficiente rispetto alle reti concorrenti. Lo scopo primario di questa tesi è stato quello di esplorare nuovi modelli neurali per la comprensione semantica e relazionale di immagini e testi, con applicazioni su larga scala e con immediate estensioni a ulteriori modalità quali audio e/o video.

The increasing interest in social networks, smart cities, and Industry 4.0 is encouraging the development of techniques for processing, understanding, and organizing vast amounts of data. Recent important advances in Artificial Intelligence brought to life a subfield of Machine Learning called Deep Learning, which can automatically learn common patterns from raw data directly, without relying on manual feature selection. This framework overturned many computer science fields, like Computer Vision and Natural Language Processing, obtaining astonishing results. Nevertheless, many challenges are still open. Although deep neural networks obtained impressive results on many tasks, they cannot perform non-local processing by explicitly relating potentially interconnected visual or textual entities. This relational aspect is fundamental for capturing high-level semantic interconnections in multimedia data or understanding the relationships between spatially distant objects in an image. This thesis tackles the relational understanding problem in Deep Neural Networks, considering three different yet related tasks: Relational Content-based Image Retrieval (R-CBIR), Visual-Textual Retrieval, and the Same-Different tasks. We use state-of-the-art deep learning methods for relational learning, such as the Relation Networks and the Transformer Networks for relating the different entities in an image or in a text.

Relational Learning in computer vision / Messina N.. - (03/05/2022).

Relational Learning in computer vision

Messina N
2022

Abstract

The increasing interest in social networks, smart cities, and Industry 4.0 is encouraging the development of techniques for processing, understanding, and organizing vast amounts of data. Recent important advances in Artificial Intelligence brought to life a subfield of Machine Learning called Deep Learning, which can automatically learn common patterns from raw data directly, without relying on manual feature selection. This framework overturned many computer science fields, like Computer Vision and Natural Language Processing, obtaining astonishing results. Nevertheless, many challenges are still open. Although deep neural networks obtained impressive results on many tasks, they cannot perform non-local processing by explicitly relating potentially interconnected visual or textual entities. This relational aspect is fundamental for capturing high-level semantic interconnections in multimedia data or understanding the relationships between spatially distant objects in an image. This thesis tackles the relational understanding problem in Deep Neural Networks, considering three different yet related tasks: Relational Content-based Image Retrieval (R-CBIR), Visual-Textual Retrieval, and the Same-Different tasks. We use state-of-the-art deep learning methods for relational learning, such as the Relation Networks and the Transformer Networks for relating the different entities in an image or in a text.
3
Istituto di Scienza e Tecnologie dell'Informazione "Alessandro Faedo" - ISTI
Il crescente interesse verso i social network, le smart cities e l'Industria 4.0 sta incentivando lo sviluppo di tecniche per processare, comprendere e organizzare enormi quantità di dati. I recenti sviluppi nell'ambito dell'Intelligenza Artificiale hanno dato vita al Deep Learning, una branca del Machine Learning che riconosce autonomamente i pattern più rilevanti nei dati in input, senza dover dipendere da una selezione guidata da un esperto umano. Il Deep Learning ha rivoluzionato importanti campi applicativi, come la Computer Vision e il Natural Language Processing; nonostante ciò, soffre ancora di importanti limitazioni. Sebbene siano stati raggiunti risultati straordinari in molti campi applicativi, le reti neurali hanno ancora difficoltà nel comprendere la relazione tra elementi semanticamente collegati tra loro ma distanti, in riferimento sia alla dimensione spazio-temporale ma anche più genericamente alla loro forma (un testo è in sua essenza diverso da un'immagine, anche se può perfettamente descriverla). Questa mancanza ha ripercussioni negative sulla ricerca di interconnessioni tra oggetti multimediali aventi natura differente o sulla ricerca di relazioni tra oggetti spazialmente distanti in un'immagine. In questa tesi abbiamo affrontato il problema della comprensione relazionale nelle reti neurali profonde, prendendo come riferimento tre task differenti ma strettamente correlati tra loro. In primo luogo, abbiamo introdotto il Relational Content-Based Image Retrieval (R-CBIR) - un'estensione al task di CBIR classico - il cui scopo è quello di cercare tutte le immagini che condividano una similarità tra le relazioni che insistono tra gli oggetti in esse contenuti. Abbiamo affrontato il Relational CBIR definendo alcune architetture capaci di estrarre dei descrittori relazionali ed estendendo il dataset sintetico CLEVR per ottenere un ground-truth adatto alla valutazione di questo nuovo task. Il passo successivo ha riguardato l'ampliamento di questi risultati preliminari verso l'utilizzo di immagini reali nel contesto di ricerce cross-modali, dove descrizioni in linguaggio naturale vengono usate come query per cercare in grossi database di immagini (e viceversa). Abbiamo utilizzato l'architettura Transformer per correlare elementi visuali e testuali, ponendoci come obiettivo finale la ricerca su larga scala. Dopo aver effettuato l'integrazione di queste reti in uno strumento per la ricerca interattiva di video su larga scala (VISIONE), abbiamo osservato come i descrittori ottenuti siano capaci di codificare elementi altamente semantici, raggiungendo risultati eccellenti sul task di Semantic CBIR. Abbiamo infine utilizzato queste stesse tecnologie per risolvere un problema estremamente importante nei social network: la rilevazione di tecniche di persuasione nelle campagne di disinformazione. L'ultima parte della ricerca si è focalizzata sullo studio delle architetture convoluzionali su semplici problemi di ragionamento visivo, che richiedono confronti tra forme distanti nello spazio. In questo contesto abbiamo proposto un'architettura ibrida CNN-Transformer che ha ottenuto ottimi risultati, rimanendo comunque meno complessa e più efficiente rispetto alle reti concorrenti. Lo scopo primario di questa tesi è stato quello di esplorare nuovi modelli neurali per la comprensione semantica e relazionale di immagini e testi, con applicazioni su larga scala e con immediate estensioni a ulteriori modalità quali audio e/o video.
Deep Learning
Relational learning
Information Retrieval
Computer vision
Natural Language Processing
Abstract reasoning
Dr. Fabrizio Falchi, Dr. Giuseppe Amato, Prof. Marco Avvenuti
File in questo prodotto:
File Dimensione Formato  
prod_466811-doc_183608.pdf

accesso aperto

Descrizione: Relational Learning in computer vision
Dimensione 17.3 MB
Formato Adobe PDF
17.3 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/445032
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact