Hugendubel.info - Die B2B Online-Buchhandlung 

Merkliste
Die Merkliste ist leer.
Bitte warten - die Druckansicht der Seite wird vorbereitet.
Der Druckdialog öffnet sich, sobald die Seite vollständig geladen wurde.
Sollte die Druckvorschau unvollständig sein, bitte schliessen und "Erneut drucken" wählen.

Bioinformatik Interaktiv

E-BookEPUB2 - DRM Adobe / EPUBE-Book
578 Seiten
Deutsch
Wiley-VCHerschienen am09.12.20132. Auflage
The second edition of this successful textbook, completely revised and largely expanded. In particular the section on the analysis of genome data is covered in much greater depth and chapters added on machine learning, Bayesian networks, protein and enzyme designs as well as the evaluation of microarrays. Furthermore an attractive website with supplementary material and problems is available: WWW.WILEY-VCH.DE/HOME/BIOINFORMATIK

Rainer Merkl leitet seit 2004 am Lehrstuhl Biochemie II der Universität Regensburg eine Arbeitsgruppe zur Analyse von Genomen und für rechnergestütztes Proteindesign. Er ist Dipl. Ing. (FH) und Dipl. Inf., wurde in Göttingen im Fach Genetik promoviert und hat sich in Regensburg im Fach Bioinformatik habilitiert. Rainer Merkl war am Max Planck Institut für Biochemie, Martinsried und der Universität Göttingen tätig. RM hat zu 35 Publikationen beigetragen. Er bildet in Regensburg Biologen und Biochemiker und an der Fernuniversität Hagen Informatiker im Fach Bioinformatik aus.

Stephan Waack ist Leiter der Forschungsgruppe Theoretische Informatik und Algorithmische Methoden des Instituts für Informatik der Universität Göttingen. Er hat an der Humboldt-Universität zu Berlin Mathematik studiert, wurde dort 1983 promoviert und hat sich 1989 habilitiert. Sein Hauptarbeitsgebiet war zunächst die Komplexitätstheorie. Seit 2001 beschäftigt er sich auch mit algorithmischen Problemen in der Angewandten Informatik, insbesondere der Bioinformatik. In dieser Zeit sind 28 Publikationen entstanden.
mehr

Produkt

KlappentextThe second edition of this successful textbook, completely revised and largely expanded. In particular the section on the analysis of genome data is covered in much greater depth and chapters added on machine learning, Bayesian networks, protein and enzyme designs as well as the evaluation of microarrays. Furthermore an attractive website with supplementary material and problems is available: WWW.WILEY-VCH.DE/HOME/BIOINFORMATIK

Rainer Merkl leitet seit 2004 am Lehrstuhl Biochemie II der Universität Regensburg eine Arbeitsgruppe zur Analyse von Genomen und für rechnergestütztes Proteindesign. Er ist Dipl. Ing. (FH) und Dipl. Inf., wurde in Göttingen im Fach Genetik promoviert und hat sich in Regensburg im Fach Bioinformatik habilitiert. Rainer Merkl war am Max Planck Institut für Biochemie, Martinsried und der Universität Göttingen tätig. RM hat zu 35 Publikationen beigetragen. Er bildet in Regensburg Biologen und Biochemiker und an der Fernuniversität Hagen Informatiker im Fach Bioinformatik aus.

Stephan Waack ist Leiter der Forschungsgruppe Theoretische Informatik und Algorithmische Methoden des Instituts für Informatik der Universität Göttingen. Er hat an der Humboldt-Universität zu Berlin Mathematik studiert, wurde dort 1983 promoviert und hat sich 1989 habilitiert. Sein Hauptarbeitsgebiet war zunächst die Komplexitätstheorie. Seit 2001 beschäftigt er sich auch mit algorithmischen Problemen in der Angewandten Informatik, insbesondere der Bioinformatik. In dieser Zeit sind 28 Publikationen entstanden.
Details
Weitere ISBN/GTIN9783527682744
ProduktartE-Book
EinbandartE-Book
FormatEPUB
Format Hinweis2 - DRM Adobe / EPUB
FormatFormat mit automatischem Seitenumbruch (reflowable)
Verlag
Erscheinungsjahr2013
Erscheinungsdatum09.12.2013
Auflage2. Auflage
Seiten578 Seiten
SpracheDeutsch
Dateigrösse10780 Kbytes
Artikel-Nr.2944552
Rubriken
Genre9201

Inhalt/Kritik

Leseprobe
1
Biologische Grundlagen

In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.

Drei wichtige Makromoleküle: DNA, RNA, Proteine

Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.

In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.
1.1 DNA

Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus

Nucleotid
einem Zucker (in der DNA: Desoxyribose),
einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und
einem Phosphatrest.

In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).

Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3-OH- und einem 5-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5-OH Ende links und das 3-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.

Reverses Komplement: Sequenz des Gegenstranges

Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nucleotide.

Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei, zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.
1.2 Genetischer Code und Genomkomposition

Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).

Basentriplett

Codon

Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.

Leseraster

ORF

Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben.

Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:

Beispiel
  Leserichtung   |.....ORF.....| Leserahmen 1 ..MetValGlyLeuSer*** 2 .TyrGlyArgProGluLeu. 3 ValTrpSerAla***Val.. DNA, GTATGGTCGGCCTGAGTTAA (Doppelstrang) CATACCAGCCGGACTCAATT Leserahmen 4 ..HisAspAlaGlnThrLeu 5 .IleThrProArgLeu***. 6 TyrProArgGlySerAsn..   Leserichtung
Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.

Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.

Informationsgehalt der Basenpositionen ist unterschiedlich

Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach...
mehr