Datamining on distributed medical databases

Anna Szymkowiak Have

AbstractThis Ph.D. thesis focuses on clustering techniques for Knowledge Discovery in Databases. Various data mining tasks relevant for medical applications are described and discussed. A general framework which combines data projection and data mining and interpretation is presented. An overview of various data projection techniques is offered with the main stress on applied Principal Component Analysis. For clustering purposes, various Generalized Gaussian Mixture models are presented. Further the aggregated Markov model, which provides the cluster structure via the probabilistic decomposition of the Gram matrix, is proposed. Other data mining tasks, described in this thesis are outlier detection and the imputation of the missing data. The thesis presents two outlier detection methods based on the cumulative distribution and a special designated outlier cluster in connection with the Generalized Gaussian Mixture model. Two models for imputation of the missing data, namely the K-nearest neighbor and a Gaussian model are suggested. With the purpose of interpreting a cluster structure two techniques are developed. If cluster labels are available then the cluster understanding via the confusion matrix is available. If data is unlabeled, then it is possible to generate keywords (in case of textual data) or key-patterns, as an informative representation of the obtained clusters. The methods are applied on simple artificial data sets, as well as collections of textual and medical data.

In Danish:

Denne ph.d.-afhandling fokuserer på klyngeanalyseteknikker til ekstraktion af viden fra databaser. Afhandling præsenterer og diskuterer forskellige datamining problemstillinger med relevans for medicinske applikationer. Specielt præsenteres en generel struktur der kombinerer data-projektion, datamining og automatisk fortolkning. Indenfor data-projektion gennemgås en række teknikker med speciel vægt på anvendt Principal Komponent Analyse. En række generaliserede Gaussisk miksturmodeller foreslås til klyngeanalyse. Desuden foreslås en aggregatet Markov model, som estimerer klyngestrukturen via dekomposition af en sandsynlighedsbaseret Grammatrix. Herudover beskriver afhandlingen to andre datamining problemstillinger nemlig "outlier" detektion og imputering af manglende data. Afhandlinger præsenterer "outlier" detektionsmetoder. Dels baseret på akumulerede fordelinger, dels baseret på introduktion af en speciel "outlier" klynge i forbindelse med den generaliserede Gaussisk mikstur-model. Med hensyn til imputation af manglende data præsenteres to metoder baseret på a K-nærmeste-nabo eller en Gaussisk model antagelse. Der er udviklet to metoder til automatisk fortolkning af klyngestrukturen. Nå klynge annoteringer "labels" er tilgængelige vil konfusionsmatricen danne grundlaget for fortolkningen. Hvis sådanne annoteringer ikke er tilgængelige, er det muligt at generere nøgleord (i tilfælde af tekst data) eller generelt nøgle-mønstre, som således bibringer til fortolkning af klyngerne. De foreslåede metoder er testet på simple kunstige datasæt såvel som kollektioner af tekst og medicinske data.
TypePh.D. thesis [Academic thesis]
Year2003
PublisherInformatics and Mathematical Modelling, Technical University of Denmark, DTU
AddressRichard Petersens Plads, Building 321, DK-2800 Kgs. Lyngby
SeriesIMM-PHD-2003-121
NoteVejleder: Lars Kai Hansen
Electronic version(s)[pdf]
BibTeX data [bibtex]
IMM Group(s)Intelligent Signal Processing


Back  ::  IMM Publications