Jens Gramm (Uni Tübingen): Kombinatorische Fragestellungen in der Analyse von SNP-Daten

Single Nucleotide Polymorphisms (SNPs) sind, innerhalb einer Population, Unterschiede in einzelnen Positionen des Genoms inmitten einer anderweitig konservierten genomischen Sequenz. SNPs machen den Großteil der genomischen Variation beim Menschen aus und werden zum Beispiel mit genetisch bedingten Krankheiten in Zusammenhang gebracht.

Dieser Vortrag stellt überblicksartig verschiedene Problemfelder in der Analyse von SNP-Daten vor. Er präsentiert zwei Projekte aus diesem Bereich, identifiziert jeweils resultierende kombinatorische Fragestellungen und zeigt algorithmische Lösungsmöglichkeiten für diese auf.

  1. Im Bereich des Genotyping, der experimentellen Ermittlung von SNPs, beschäftigen wir uns mit der Möglichkeit des "Generischen Genotyping", bei dem die "experimentelle Hardware" unabhängig von den untersuchten SNPs ist. Es wird ein graphtheoretisches Modell vorgestellt, um zwei wichtige Ziele bei der Planung dieser Art von Genotyping-Experimenten zu erreichen: Für eine gegebene Menge von SNPs, zum einen möglichst viele der SNPs mit einem Experiment abzudecken, und zum anderen mit möglichst wenigen Experimenten alle dieser SNPs abzudecken. Es werden Approximationsansätze für diese Probleme aufgezeigt.
  2. Wir stellen eine neue Methode vor, um Assoziationen zwischen SNP-Daten und Phenotyp-Daten festzustellen. Die Methode basiert auf Support Vector Machines, einem Standardwerkzeug maschinellen Lernens. Wir wenden unseren Ansatz an, um in einem Beispieldatensatz Assoziationen zwischen Cholesterin-bezogenen Blutwerten und SNP-Daten (SNPs des Apolipoprotein-Genclusters) zu untersuchen. Kombinatorische Fragen ergeben sich hier insbesondere beim Entwurf der "Kernelfunktion", mit der die SNP-Daten der Verarbeitung durch Support Vector Machines zugänglich gemacht werden. Wir stellen Beispiele solcher Kernelfunktionen für unsere Anwendung vor.