Il sistema utilizza una tecnica incrementale per la ricerca di duplicati. In pratica, viene costruito un indice basato su chiavi hash che permette di associare tupla ad un bucket. La particolarità è che la chiave hash utilizzata permette di associare duplicati nello stesso bucket. Di conseguenza, la scansione dell’indice permette di identificare i duplicati. Il sistema è scritto in Java ed implementa una tecnica di hashing gerarchica basata sulla nozione di minwise independent permutation.

Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Giuseppe Manco
2006

Abstract

Il sistema utilizza una tecnica incrementale per la ricerca di duplicati. In pratica, viene costruito un indice basato su chiavi hash che permette di associare tupla ad un bucket. La particolarità è che la chiave hash utilizzata permette di associare duplicati nello stesso bucket. Di conseguenza, la scansione dell’indice permette di identificare i duplicati. Il sistema è scritto in Java ed implementa una tecnica di hashing gerarchica basata sulla nozione di minwise independent permutation.
2006
Istituto di Calcolo e Reti ad Alte Prestazioni - ICAR
deduplication
clustering
locally sensitive hashing
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/455642
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact