Huge DBMSs storing genomic information are being created and engineerized for doing large-scale, comprehensive and in-depth analysis of human beings and their diseases. This paves the way for significant new approaches in medicine, but also poses major challenges for storing, processing and transmitting such big amounts of data in compliance with recent regulations concerning user privacy. We designed and implemented ER-index, a new full-text index in minute space which was optimized for pattern-search on compressed and encrypted genomic data using a reference sequence, and that complements a previous index for reference-free genomics. Thanks to a multi-user and multiple-keys encryption model, a single ER-index can store the sequences related to a large population of individuals so that users may perform search operations directly on compressed data and only on the sequences to which they were granted access. Tests performed of three different computing platforms show that the ER-index get very good compression ratios and search times, outperforming in many cases a reference tool that was proved nearly-optimal in time and space and does not implement encryption. The ER-index C++ source code plus scripts and data to assess the tool performance are available at: https://github.com/EncryptedIndexes/erindex.

Enormi banche dati che immagazzinano informazioni genomiche vengono creati e ingegnerizzati per fare analisi complete, approfondite e su larga scala degli esseri umani e delle loro malattie. Ciò apre la strada a nuovi approcci significativi in medicina, ma pone anche grandi sfide per l'archiviazione, l'elaborazione e la trasmissione di quantità così elevate di dati in conformità con le recenti normative in materia di privacy degli utenti. Questo lavoro concerne la progettazione e implementazione di ER-index, un nuovo indice full-text in minute space che è stato ottimizzato per la ricerca di pattern su dati genomici compressi e cifrati utilizzando una sequenza di riferimento, che integra un indice precedente per la genomica senza riferimenti. Grazie a un modello di crittografia multiutente e multi-chiavi, un singolo ER-index può memorizzare le sequenze relative a una vasta popolazione di individui in modo che gli utenti possano eseguire operazioni di ricerca direttamente sui dati compressi e solo sulle sequenze a cui è stato loro concesso accesso. I test eseguiti su tre diverse piattaforme informatiche mostrano che l'indice ER ottiene rapporti di compressione e tempi di ricerca molto buoni, superando in molti casi uno strumento di riferimento che si è dimostrato quasi ottimale in termini di tempi di elaborazione e spazio di memorizzazione richiesti, e che non implementa la crittografia. Il codice sorgente C ++ di ER-index, oltre a script e dati per poterne valutare le prestazioni, sono disponibili su: https://github.com/EncryptedIndexes/erindex.

ER-index: A referential index for encrypted genomic databases

2020

Abstract

Huge DBMSs storing genomic information are being created and engineerized for doing large-scale, comprehensive and in-depth analysis of human beings and their diseases. This paves the way for significant new approaches in medicine, but also poses major challenges for storing, processing and transmitting such big amounts of data in compliance with recent regulations concerning user privacy. We designed and implemented ER-index, a new full-text index in minute space which was optimized for pattern-search on compressed and encrypted genomic data using a reference sequence, and that complements a previous index for reference-free genomics. Thanks to a multi-user and multiple-keys encryption model, a single ER-index can store the sequences related to a large population of individuals so that users may perform search operations directly on compressed data and only on the sequences to which they were granted access. Tests performed of three different computing platforms show that the ER-index get very good compression ratios and search times, outperforming in many cases a reference tool that was proved nearly-optimal in time and space and does not implement encryption. The ER-index C++ source code plus scripts and data to assess the tool performance are available at: https://github.com/EncryptedIndexes/erindex.
2020
Enormi banche dati che immagazzinano informazioni genomiche vengono creati e ingegnerizzati per fare analisi complete, approfondite e su larga scala degli esseri umani e delle loro malattie. Ciò apre la strada a nuovi approcci significativi in medicina, ma pone anche grandi sfide per l'archiviazione, l'elaborazione e la trasmissione di quantità così elevate di dati in conformità con le recenti normative in materia di privacy degli utenti. Questo lavoro concerne la progettazione e implementazione di ER-index, un nuovo indice full-text in minute space che è stato ottimizzato per la ricerca di pattern su dati genomici compressi e cifrati utilizzando una sequenza di riferimento, che integra un indice precedente per la genomica senza riferimenti. Grazie a un modello di crittografia multiutente e multi-chiavi, un singolo ER-index può memorizzare le sequenze relative a una vasta popolazione di individui in modo che gli utenti possano eseguire operazioni di ricerca direttamente sui dati compressi e solo sulle sequenze a cui è stato loro concesso accesso. I test eseguiti su tre diverse piattaforme informatiche mostrano che l'indice ER ottiene rapporti di compressione e tempi di ricerca molto buoni, superando in molti casi uno strumento di riferimento che si è dimostrato quasi ottimale in termini di tempi di elaborazione e spazio di memorizzazione richiesti, e che non implementa la crittografia. Il codice sorgente C ++ di ER-index, oltre a script e dati per poterne valutare le prestazioni, sono disponibili su: https://github.com/EncryptedIndexes/erindex.
Data storage and retrieval
Compressive genomics
Full-text index
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/385511
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact