Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Folino, Francesco; Manco, Giuseppe

Il sistema utilizza una tecnica incrementale per la ricerca di duplicati. In pratica, viene costruito un indice basato su chiavi hash che permette di associare tupla ad un bucket. La particolarità è che la chiave hash utilizzata permette di associare duplicati nello stesso bucket. Di conseguenza, la scansione dellindice permette di identificare i duplicati. Il sistema è scritto in Java ed implementa una tecnica di hashing gerarchica basata sulla nozione di minwise independent permutation.

Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Francesco Folino;Giuseppe Manco

2006

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2006
			
	Strutture organizzative
	
				Istituto di Calcolo e Reti ad Alte Prestazioni - ICAR
			
	Parole chiave
	
				deduplication
clustering
locally sensitive hashing
			
	Appare nelle tipologie:
	
				05.12 Altro

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/455642

CNR Institutional Research Information System

Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Francesco Folino;Giuseppe Manco

2006

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

Citazioni

social impact

CNR Institutional Research Information System

Un sistema per la ricerca di duplicati in basi di dati anagrafiche

Francesco Folino;Giuseppe Manco

2006

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Citazioni

social impact

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)