In this work we are interested in clustering data whose support is "curved". For this purpose, we will follow a Bayesian nonparametric approach by considering a species sampling mixture model. Our first goal is to define a general/flexible class of distributions, such that they can model data from clusters with non standard shape. To this end, we extend the definition of principal curve given in [8] (Tibshirani 1992) into a Bayesian framework.We propose a new hierarchical model, where the data in each cluster are parametrically distributed around the Bayesian principal curve, and the prior cluster assignment is given on the latent variables at the second level of hierarchy according to a species sampling model. As an application we will consider the detection of seismic faults using data coming from Italian earthquake catalogues.

In questo lavoro siamo interessati al raggruppamento di dati il cui supporto `e "curvo". Per perseguire questo obiettivo, seguiamo un approccio bayesiano non parametrico utilizzando un modello mistura a campionamento di specie. Il nostro primo obiettivo `e quello di definire una classe generale/flessibile di distribuzioni parametriche, in modo che queste possano modellare gruppi con forme non usuali. A tal fine, estendiamo la definizione di curva principale data in [8] (Tibshirani 1992) ad un contesto bayesiano. In conclusione, in questo lavoro proponiamo un nuovo modello gerarchico, nel quale i dati in ciascun gruppo hanno distribuzione parametrica centrata su una curva. L'assegnazione a priori dei dati ai gruppi `e invece rappresentata mediante la legge di variabili latenti al secondo livello di gerarchia, le quali son distribuite secondo un processo a campionamento di specie. Come applicazione consideriamo l'individuazione di faglie sismiche per dati provenienti da un catalogo di terremoti italiano.

Bayesian principal curve clustering by species-sampling mixture models

R Argiento;
2014

Abstract

In this work we are interested in clustering data whose support is "curved". For this purpose, we will follow a Bayesian nonparametric approach by considering a species sampling mixture model. Our first goal is to define a general/flexible class of distributions, such that they can model data from clusters with non standard shape. To this end, we extend the definition of principal curve given in [8] (Tibshirani 1992) into a Bayesian framework.We propose a new hierarchical model, where the data in each cluster are parametrically distributed around the Bayesian principal curve, and the prior cluster assignment is given on the latent variables at the second level of hierarchy according to a species sampling model. As an application we will consider the detection of seismic faults using data coming from Italian earthquake catalogues.
2014
Istituto di Matematica Applicata e Tecnologie Informatiche - IMATI -
978-88-8467-874-4
In questo lavoro siamo interessati al raggruppamento di dati il cui supporto `e "curvo". Per perseguire questo obiettivo, seguiamo un approccio bayesiano non parametrico utilizzando un modello mistura a campionamento di specie. Il nostro primo obiettivo `e quello di definire una classe generale/flessibile di distribuzioni parametriche, in modo che queste possano modellare gruppi con forme non usuali. A tal fine, estendiamo la definizione di curva principale data in [8] (Tibshirani 1992) ad un contesto bayesiano. In conclusione, in questo lavoro proponiamo un nuovo modello gerarchico, nel quale i dati in ciascun gruppo hanno distribuzione parametrica centrata su una curva. L'assegnazione a priori dei dati ai gruppi `e invece rappresentata mediante la legge di variabili latenti al secondo livello di gerarchia, le quali son distribuite secondo un processo a campionamento di specie. Come applicazione consideriamo l'individuazione di faglie sismiche per dati provenienti da un catalogo di terremoti italiano.
Cluster Analysis
Mixture Models
Principal Curve
Specie Sampling Models
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/283488
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact