In this thesis, I investigated and enhanced Deep Learning (DL)-based techniques for the visual counting task, which automatically estimates the number of objects, such as people or vehicles, present in images and videos. Specifically, I tackled the problem related to the lack of data needed for training current DL-based solutions by exploiting synthetic data gathered from video games, employing Domain Adaptation strategies between different data distributions, and taking advantage of the redundant information characterizing datasets labeled by multiple annotators. Furthermore, I addressed the engineering challenges coming out of the adoption of DL-based techniques in environments with limited power resources, mainly due to the high computational budget the AI-based algorithms require.

La recente diffusione del Deep Learning ha ulteriormente accelerato il già rapido sviluppo della Computer Vision, fino al punto che molte applicazioni riguardanti questa disciplina fanno ormai parte della nostra quotidianità. La classificazione di immagini, la stilizzazione di foto, o il riconoscimento facciale, sono applicazioni diventate pervasive, come dimostrato dal fatto che sono sempre più spesso integrate nei dispositivi mobili, quali ad esempio gli smartphone. In questa tesi, è stato considerato il conteggio visivo, che ha lo scopo di stimare automaticamente il numero di oggetti afferenti ad una determinata categoria presenti in immagini statiche o frame estratti da video. Recentemente questo argomento ha ricevuto una notevole attenzione da parte della comunità scientifica, la quale ha proposto numerosi soluzioni principalmente basate sulle reti neurali convoluzionali. Queste ultime sono particolari reti neurali artificiali che, ispirandosi alla corteccia visiva celebrale degli animali, sono in grado di apprendere automaticamente delle rappresentazioni numeriche efficaci per le immagini, partendo dai dati visivi grezzi (pixel); esse sono state appunto impiegate con successo anche per contrastare le principali difficoltà caratterizzanti il conteggio visivo, come ad esempio la bassa qualità delle immagini analizzate, le differenti illuminazioni e la variazione di grandezza degli oggetti. Oltre a questi ostacoli, in questa tesi sono stati identificati ulteriori limiti nell'adozione di questi algoritmi, proponendo soluzioni generali che sono state valutate sperimentalmente nel contesto del conteggio visivo, particolarmente afflitto da queste problematiche. In particolare, è stato affrontato il problema derivante dalla scarsità di dati necessari per la fase di addestramento supervisionato di questi approcci. Posto che il budget per l'annotazione dei dati è limitato, la loro carenza rimane tutt'ora un problema irrisolto che limita la scalabilità delle soluzioni esistenti, e che è responsabile di un significativo degrado delle prestazioni quando questi algoritmi vengono impiegati in nuovi scenari. Questa problematica è particolarmente riscontrabile nelle applicazioni quali il conteggio visivo, che richiede l'annotazione manuale di centinaia, se non di migliaia, di oggetti per ogni singola immagine, facendo aumentare in maniera significativa lo sforzo umano necessario per sopperire a questa procedura. In questa tesi sono state proposte varie strategie che contrastano questo problema da diverse direzioni complementari. Sono stati introdotti dataset sintetici acquisiti da mondi virtuali che simulano il mondo reale, e dove le annotazioni necessarie per la fase di addestramento degli algoritmi basati sull' Intelligenza Artificiale sono collezionate automaticamente. Sono state proposte delle tecniche di Domain Adaptation, sia supervisionate che non supervisionate, aventi lo scopo di mitigare il gap esistente tra le distribuzioni dei dati utilizzati per la fase di addestramento e quella di test. E' stata presentata una strategia di conteggio visivo in un contesto in cui le annotazioni presentavano errori, ovvero una notevole discrepanza fra molteplici annotatori, traendo vantaggio dalle informazioni derivanti dalle differenze di giudizio di questi ultimi. Inoltre, è stato anche affrontato il non banale problema ingegneristico dovuto all'utilizzo delle reti neurali convoluzionali in contesti caratterizzati da scarse capacità computazionali. A questo proposito, sono state introdotte soluzioni per il conteggio visivo di veicoli effettuato direttamente all'interno di sistemi aventi ridotte capacità di calcolo, ma in grado di catturare ed elaborare immagini. Infine, è stato progettato e presentato un sistema modulare basato sulla Intelligenza Artificiale capace di espletare diversi compiti aventi lo scopo di aiutare a controllare il rispetto di regole nella sfera della sicurezza umana individuale e collettiva, come ad esempio monitorare il numero di persone presenti in una determinata zona di interesse.

Deep Learning techniques for visual counting / Ciampi L.. - (03/05/2022).

Deep Learning techniques for visual counting

Ciampi L
2022

Abstract

In this thesis, I investigated and enhanced Deep Learning (DL)-based techniques for the visual counting task, which automatically estimates the number of objects, such as people or vehicles, present in images and videos. Specifically, I tackled the problem related to the lack of data needed for training current DL-based solutions by exploiting synthetic data gathered from video games, employing Domain Adaptation strategies between different data distributions, and taking advantage of the redundant information characterizing datasets labeled by multiple annotators. Furthermore, I addressed the engineering challenges coming out of the adoption of DL-based techniques in environments with limited power resources, mainly due to the high computational budget the AI-based algorithms require.
3
Istituto di Scienza e Tecnologie dell'Informazione "Alessandro Faedo" - ISTI
La recente diffusione del Deep Learning ha ulteriormente accelerato il già rapido sviluppo della Computer Vision, fino al punto che molte applicazioni riguardanti questa disciplina fanno ormai parte della nostra quotidianità. La classificazione di immagini, la stilizzazione di foto, o il riconoscimento facciale, sono applicazioni diventate pervasive, come dimostrato dal fatto che sono sempre più spesso integrate nei dispositivi mobili, quali ad esempio gli smartphone. In questa tesi, è stato considerato il conteggio visivo, che ha lo scopo di stimare automaticamente il numero di oggetti afferenti ad una determinata categoria presenti in immagini statiche o frame estratti da video. Recentemente questo argomento ha ricevuto una notevole attenzione da parte della comunità scientifica, la quale ha proposto numerosi soluzioni principalmente basate sulle reti neurali convoluzionali. Queste ultime sono particolari reti neurali artificiali che, ispirandosi alla corteccia visiva celebrale degli animali, sono in grado di apprendere automaticamente delle rappresentazioni numeriche efficaci per le immagini, partendo dai dati visivi grezzi (pixel); esse sono state appunto impiegate con successo anche per contrastare le principali difficoltà caratterizzanti il conteggio visivo, come ad esempio la bassa qualità delle immagini analizzate, le differenti illuminazioni e la variazione di grandezza degli oggetti. Oltre a questi ostacoli, in questa tesi sono stati identificati ulteriori limiti nell'adozione di questi algoritmi, proponendo soluzioni generali che sono state valutate sperimentalmente nel contesto del conteggio visivo, particolarmente afflitto da queste problematiche. In particolare, è stato affrontato il problema derivante dalla scarsità di dati necessari per la fase di addestramento supervisionato di questi approcci. Posto che il budget per l'annotazione dei dati è limitato, la loro carenza rimane tutt'ora un problema irrisolto che limita la scalabilità delle soluzioni esistenti, e che è responsabile di un significativo degrado delle prestazioni quando questi algoritmi vengono impiegati in nuovi scenari. Questa problematica è particolarmente riscontrabile nelle applicazioni quali il conteggio visivo, che richiede l'annotazione manuale di centinaia, se non di migliaia, di oggetti per ogni singola immagine, facendo aumentare in maniera significativa lo sforzo umano necessario per sopperire a questa procedura. In questa tesi sono state proposte varie strategie che contrastano questo problema da diverse direzioni complementari. Sono stati introdotti dataset sintetici acquisiti da mondi virtuali che simulano il mondo reale, e dove le annotazioni necessarie per la fase di addestramento degli algoritmi basati sull' Intelligenza Artificiale sono collezionate automaticamente. Sono state proposte delle tecniche di Domain Adaptation, sia supervisionate che non supervisionate, aventi lo scopo di mitigare il gap esistente tra le distribuzioni dei dati utilizzati per la fase di addestramento e quella di test. E' stata presentata una strategia di conteggio visivo in un contesto in cui le annotazioni presentavano errori, ovvero una notevole discrepanza fra molteplici annotatori, traendo vantaggio dalle informazioni derivanti dalle differenze di giudizio di questi ultimi. Inoltre, è stato anche affrontato il non banale problema ingegneristico dovuto all'utilizzo delle reti neurali convoluzionali in contesti caratterizzati da scarse capacità computazionali. A questo proposito, sono state introdotte soluzioni per il conteggio visivo di veicoli effettuato direttamente all'interno di sistemi aventi ridotte capacità di calcolo, ma in grado di catturare ed elaborare immagini. Infine, è stato progettato e presentato un sistema modulare basato sulla Intelligenza Artificiale capace di espletare diversi compiti aventi lo scopo di aiutare a controllare il rispetto di regole nella sfera della sicurezza umana individuale e collettiva, come ad esempio monitorare il numero di persone presenti in una determinata zona di interesse.
Counting objects in images
Visual counting
Domain adaptation
Deep Learning
Synthetic data
Deep Learning with scarce data
Image analysis
Medical image analysis
Dr. Giuseppe Amato, Prof. Marco Avvenuti, Dr. Claudio Gennaro
File in questo prodotto:
File Dimensione Formato  
prod_466964-doc_183708.pdf

accesso aperto

Descrizione: Deep Learning techniques for visual counting
Dimensione 8.52 MB
Formato Adobe PDF
8.52 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/448980
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact