Information

8.3: Sequenzierung des menschlichen Genoms - Biologie

8.3: Sequenzierung des menschlichen Genoms - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

4.3 Sequenzierung des menschlichen Genoms

Beim Menschen enthält jede Zelle normalerweise 23 Chromosomenpaare, also insgesamt 46. Zweiundzwanzig dieser Paare, genannt Autosomen, und sehen bei Männern und Frauen gleich aus. Bei dieser Art sind ZW-Hühner weiblich und ZZ-Hühner männlich.

Die Gesamtlänge des menschlichen Genoms beträgt über 3 Milliarden Basenpaare. Die Gesamtlänge des menschlichen Genoms beträgt über 3 Milliarden Basenpaare. Das Genom umfasst auch die mitochondriale DNA (Abbildung 4.12).

Abbildung 4.18 DNA-Karyotyp. Die 22 Autosomen sind nach Größe nummeriert. Die anderen beiden Chromosomen X und Y sind die Geschlechtschromosomen. Dieses Bild der paarweise aufgereihten menschlichen Chromosomen heißt a Karyotyp. Karyotypenwerden unter Verwendung standardisierter Färbeverfahren hergestellt, die charakteristische Strukturmerkmale für jedes Chromosom zeigen, normalerweise aus weißen Blutkörperchen.

Bild von: US-amerikanische Nationalbibliothek für Medizin


Die ersten menschlichen Genomsequenzen wurden im Februar 2001 vom Human Genome Project und der Celera Corporation in nahezu vollständiger Entwurfsform veröffentlicht. Der Abschluss der Sequenzierungsbemühungen des Humangenomprojekts wurde 2004 mit der Veröffentlichung eines Entwurfs einer Genomsequenz bekannt gegeben. Forscher, die an dem Humangenomprojekt arbeiten, haben das menschliche Genom auf drei Arten entschlüsselt: die Bestimmung der Reihenfolge oder "Sequenz" aller Basen in der DNA unseres Genoms; Erstellen von Karten, die die Lage der Gene für wichtige Abschnitte aller unserer Chromosomen zeigen; und die Erstellung sogenannter Kopplungskarten, durch die vererbte Merkmale (z. B. für genetische Erkrankungen) über Generationen hinweg verfolgt werden können.

Vor dem Erwerb der vollständigen Genomsequenz reichten die Schätzungen der Zahl der menschlichen Gene von 50.000 bis 140.000 (mit gelegentlichen Unklarheiten darüber, ob diese Schätzungen nicht-proteincodierende Gene umfassten). Als sich die Qualität der Genomsequenz und die Methoden zur Identifizierung proteinkodierender Gene verbesserten, sank die Zahl der erkannten proteinkodierenden Gene auf 19.000-20.000. Ein umfassenderes Verständnis der Rolle von Genen, die regulatorische RNAs exprimieren, die keine Proteine ​​kodieren, hat jedoch die Gesamtzahl der Gene auf mindestens 46.831 erhöht, plus weitere 2300 Mikro-RNA-Gene. Bis 2012 wurden auch funktionelle DNA-Elemente festgestellt, die weder für RNA noch für Proteine ​​kodieren. Protein-kodierende Sequenzen machen nur einen sehr kleinen Bruchteil des Genoms aus (ca. 1,5%), der Rest ist mit nicht-kodierenden RNA-Genen, regulatorischen DNA-Sequenzen, langen eingestreuten Nukleotidelementen (LINEs), kurzen eingestreuten Nukleotidelementen (SINEs .) ), Introns und Sequenzen, deren Funktion noch nicht geklärt ist.

Denken Sie daran, dass a Genist definiert als eine Sequenz von Nukleotiden in DNA oder RNA, die für ein Molekül kodiert, das eine Funktion hat. Bei der Genexpression wird die DNA zunächst in RNA kopiert. Die RNA kann direkt funktionell sein oder die Zwischenmatrize für ein Protein sein, das eine Funktion ausführt. Genstrukturist die Organisation spezialisierter Sequenzelemente innerhalb eines Gens (Abbildung 4.19). Gene enthalten die Informationen, die lebende Zellen benötigen, um zu überleben und sich zu vermehren. Die Prozesse der Transkription, die zur Produktion der RNA aus der DNA-Matrize führt, und der Translation, die Protein aus der Messenger-RNA (mRNA)-Sequenz produziert, werden durch spezifische Sequenzelemente oder Regionen innerhalb des Gens gesteuert. Jedes Gen benötigt daher mehrere Sequenzelemente, um funktionsfähig zu sein. Dies umfasst die Sequenz, die tatsächlich für das funktionelle Protein oder die ncRNA kodiert, sowie mehrere regulatorische Sequenzbereiche. Diese Regionen können nur wenige Basenpaare bis zu vielen Tausend Basenpaaren lang sein.

Ein Großteil der Genstruktur ist bei Eukaryoten und Prokaryoten weitgehend ähnlich. Diese gemeinsamen Elemente resultieren größtenteils aus der gemeinsamen Abstammung des zellulären Lebens in Organismen mit einer Evolution von etwa 3,8 Milliarden Jahren. Die wichtigsten Unterschiede in der Genstruktur zwischen Eukaryoten und Prokaryoten spiegeln ihre unterschiedliche Transkriptions- und Translationsmaschinerie wider. Das Verständnis der Genstruktur ist die Grundlage für das Verständnis von Genannotation, -expression und -funktion.

Abbildung 4.19. Der Prozess der eukaryotischen Genexpression. Oberes blaues Panel zeigt die Strukturelemente, die eukaryontischen Genen gemeinsam sind. Der Prozess der Gentranskription produziert ein Boten-RNA-Molekül (mRNA), das posttranslational modifiziert werden muss. graue Tafel, um die nicht-kodierenden Intronsequenzen zu entfernen und die 5'-CAP- und Poly-A-Tail-Abschnitte hinzuzufügen. Die reife mRNA wird vom Zellkern in das Zytoplasma transportiert, wo sie vom Ribosom in die Proteinsequenz übersetzt wird. rotes Panel.

Bild von Wikipedia


Die Strukturen sowohl von eukaryontischen als auch von prokaryontischen Genen umfassen mehrere verschachtelte Sequenzelemente. Jedes Element hat eine spezifische Funktion im mehrstufigen Prozess der Genexpression. Die Sequenzen und Längen dieser Elemente variieren, aber in den meisten Genen sind die gleichen allgemeinen Funktionen vorhanden. Obwohl DNA ein doppelsträngiges Molekül ist, kodiert typischerweise nur einer der Stränge Informationen, die die RNA-Polymerase liest, um proteinkodierende mRNA oder nicht-kodierende RNA zu produzieren. Dieser "Sinn"- oder "Kodierungsstrang" verläuft in 5' bis 3'-Richtung, wobei sich die Zahlen auf die Kohlenstoffatome des Ribose-Zuckers des Rückgrats beziehen. Die offener Leserahmen (ORF) eines Gens wird daher normalerweise als Pfeil dargestellt, der die Richtung anzeigt, in der der Sense-Strang gelesen wird.

Regulatorische Sequenzen befinden sich an den Enden von Genen. Diese Sequenzregionen können entweder neben der transkribierten Region (der Promoter) oder durch viele Kilobasen getrennt (Verstärker und Schalldämpfer). Der Promotor befindet sich am 5'-Ende des Gens und besteht aus a Kernpromotorsequenz und ein proximale Promotorsequenz. Die Kernförderermarkiert die Startstelle für die Transkription durch die Bindung von RNA-Polymerase und anderen Proteinen, die zum Kopieren von DNA in RNA erforderlich sind. Die proximaler Promotor Region bindet Transkriptionsfaktoren, die die Affinität des Kernpromotors für RNA-Polymerase modifizieren. Gene können durch mehrere Enhancer- und Silencer-Sequenzen reguliert werden, die die Aktivität von Promotoren weiter modifizieren, indem sie Aktivator- oder Repressorproteine ​​binden. Enhancer und Silencer können weit vom Gen entfernt sein, viele tausend Basenpaare entfernt. Die Bindung verschiedener Transkriptionsfaktoren reguliert daher die Rate der Transkriptionsinitiation zu verschiedenen Zeiten und in verschiedenen Zellen.

Regulatorische Elemente können sich gegenseitig überlappen, wobei ein Abschnitt der DNA in der Lage ist, mit vielen konkurrierenden Aktivatoren und Repressoren sowie mit RNA-Polymerase zu interagieren. Zum Beispiel können einige Repressorproteine ​​an den Kernpromotor binden, um eine Polymerasebindung zu verhindern. Bei Genen mit mehreren regulatorischen Sequenzen ist die Transkriptionsrate das Produkt aller kombinierten Elemente. Die Bindung von Aktivatoren und Repressoren an mehrere regulatorische Sequenzen hat einen kooperativen Effekt auf die Transkriptionsinitiation.

Eine zusätzliche Regulationsebene tritt für Protein-kodierende Gene auf, nachdem die mRNA prozessiert wurde, um sie für die Translation zum Protein vorzubereiten. Nur die Region zwischen Start- und Stoppcodon kodiert das endgültige Proteinprodukt. Die flankierenden untranslatierten Regionen (UTRs) enthalten weitere regulatorische Sequenzen. Die 3'-UTR enthält eine Terminatorsequenz, die den Endpunkt für die Transkription markiert und die RNA-Polymerase freisetzt. Die 5’-UTR bindet das Ribosom, das die proteinkodierende Region in eine Reihe von Aminosäuren übersetzt, die sich falten, um das endgültige Proteinprodukt zu bilden. Im Fall von Genen für nicht-kodierende RNAs wird die RNA nicht translatiert, sondern gefaltet, um direkt funktionsfähig zu sein.

Die Struktur eukaryotischer Gene umfasst Merkmale, die bei Prokaryonten nicht zu finden sind. Die meisten davon beziehen sich auf die posttranskriptionelle Modifikation von Prä-mRNAs, um reife mRNA zu produzieren, die für die Translation in Protein bereit ist. Eukaryontische Gene weisen im Vergleich zu Prokaryonten typischerweise mehr regulatorische Elemente zur Kontrolle der Genexpression auf. Dies gilt insbesondere für mehrzellige Eukaryoten, bei denen die Genexpression zwischen verschiedenen Geweben stark variiert.

Ein wesentliches Merkmal der Struktur eukaryotischer Gene ist, dass ihre Transkripte typischerweise unterteilt sind in exonund intronRegionen. Exon-Regionen sind der kodierende Teil der mRNA und bleiben im endgültigen reifen mRNA-Molekül erhalten, während Intron-Regionen sind nicht kodierend und werden während der posttranskriptionellen Verarbeitung herausgespleißt (ausgeschnitten). Tatsächlich können die Intronregionen eines Gens erheblich länger sein als die Exonregionen. Nach dem Zusammenspleißen bilden die Exons eine einzige kontinuierliche Protein-kodierende Region, und die Spleißgrenzen sind nicht nachweisbar. Die eukaryotische posttranskriptionelle Verarbeitung fügt auch eine 5'-Kappe an den Anfang der mRNA und einen Poly-Adenosin-Schwanz (Poly-A-Schwanz) an das Ende der mRNA an. Diese Zusätze stabilisieren die mRNA und lenken ihren Transport vom Zellkern zum Zytoplasma.

Die Gesamtorganisation prokaryotischer Gene unterscheidet sich deutlich von der der Eukaryoten. Der offensichtlichste Unterschied besteht darin, dass prokaryontische ORFs oft in einer Struktur gruppiert werden, die als a . bezeichnet wird polycistronisches Operonunter der Kontrolle eines gemeinsamen Satzes regulatorischer Sequenzen (Abbildung 4.20). Diese ORFs werden alle auf dieselbe mRNA transkribiert und werden so co-reguliert und erfüllen oft verwandte Funktionen. Jeder ORF hat typischerweise seine eigene Ribosomenbindungsstelle (RBS), so dass Ribosomen gleichzeitig die verschiedenen ORFs auf derselben mRNA translatieren. Einige Operons zeigen auch translationale Kopplung, bei der die Übersetzungsraten mehrerer ORFs innerhalb eines Operons verknüpft sind. Dies kann auftreten, wenn das Ribosom am Ende eines ORFs hängen bleibt und einfach zum nächsten transloziert, ohne dass eine neue RBS erforderlich ist. Translationale Kopplung wird auch beobachtet, wenn die Translation eines ORFs die Zugänglichkeit des nächsten RBS durch Veränderungen in der RNA-Sekundärstruktur beeinflusst. Mehrere ORFs auf einer einzigen mRNA zu haben, ist nur bei Prokaryonten möglich, weil ihre Transkription und Translation gleichzeitig und an derselben subzellulären Stelle stattfindet.

Abbildung 4.20 Der Prozess der prokaryotischen Genexpression. Oberes blaues Panel zeigt die Organisation eines typischen prokaryotischen polycistronischen Operons, wobei mehrere Gene durch gemeinsame regulatorische Elemente reguliert und als einzelne mRNA transkribiert werden. Im Gegensatz zu eukaryontischen Systemen gibt es wenig bis keine posttranslationalen Modifikationen der resultierenden mRNA und Proteintranslation. rote Tafel, erfolgt oft, bevor die Transkription abgeschlossen ist.

Bild von Wikipedia


Die Bedienersequenz neben dem Promotor ist das Hauptregulationselement in Prokaryoten. An die Operatorsequenz gebundene Repressorproteine ​​blockieren physikalisch das RNA-Polymerase-Enzym und verhindern die Transkription. Riboschalter sind eine weitere wichtige regulatorische Sequenz, die häufig in prokaryotischen UTRs vorhanden ist. Diese Sequenzen wechseln in Abhängigkeit von der Konzentration der Schlüsselmetaboliten zwischen alternativen Sekundärstrukturen in der RNA. Die Sekundärstrukturen blockieren dann entweder oder legen wichtige Sequenzbereiche wie ribosomale Bindungsstellen offen. Introns sind in Prokaryonten extrem selten und spielen daher keine signifikante Rolle bei der prokaryontischen Genregulation.


Insgesamt ist das Verpacken, Entpacken, Replizieren und Transkription von DNA ein hochdynamischer Prozess, der ständig durch Signale und Hinweise aus der Umgebung moderiert wird. Das folgende Video, das von Drew Berry für WEHI.tv erstellt wurde, bietet eine der dynamischsten Ansichten der wichtigsten Verpackung und Verarbeitung von DNA in der Zelle. In späteren Kapiteln werden wir die Prozesse der DNA-Replikation und -Transkription genauer untersuchen.

[video width="1280" height="720" mp4="https://wou.edu/chemistry/files/2020...ation-ever.mp4"][/video]

Erstellt von Drew Berry und Etsuko Uno und gesponsert vom Walter and Eliza Hall Institute of Medical Research


Sequenzierung des menschlichen Genoms

Das menschliche Genom ist der vollständige Satz genetischer Informationen, die als DNA im Zellkern von fast jeder der Billionen von Zellen im menschlichen Körper gespeichert sind. Das Genom jedes Menschen ist anders und macht einen großen Teil dessen aus, was uns zu einzigartigen Individuen macht. Der erste Versuch, das menschliche Genom, das als Sequenzentwurf betrachtet wird, zu entschlüsseln, führte zu seiner Veröffentlichung im Jahr 2001. Sechs Jahre später wurde eine qualitativ hochwertige Sequenz namens diploides Genom veröffentlicht, die alle genetischen Informationen beider Eltern enthält.


WARUM WIR SEQUENZIEREN?

Sequenzierung ist die Reihe von Methoden und biochemischen Techniken, die darauf abzielen, die Reihenfolge der Nukleotide (A, T, C und G) zu bestimmen. Sein Ziel ist es, alle Nukleotide der DNA eines Organismus in Ordnung zu bringen.

Die ersten sequenzierten Organismen waren zwei Bakterien, Haemophilus influenzae und Mycoplasma genitalium 1995. Ein Jahr später wurde das Genom eines Pilzes sequenziert (Saccharomyces cerevisiae).

Von diesem Moment an kommt das eukaryotische Sequenzierungsprojekt: 1998 Caenorhabditis elegans (Nematode) wurde im Jahr 2000 sequenziert Drosophila melanogaster (Fruchtfliege) und 2001 das menschliche Genom.

Aber warum haben wir sequenziert? Im Fall des menschlichen Genoms besteht die Notwendigkeit zu wissen, um Krankheiten zu lindern oder zu verhindern.

Einige der sequenzierten Organismen sind Modellorganismen, die Folgendes aufweisen:

  • Medizinische Bedeutung: Es gibt Krankheitserreger und wir kennen Krankheiten, die sie verursachen können.
  • Wirtschaftliche Bedeutung: Organismen, die der Mensch isst, können sie mit den molekularen Techniken verbessern.
  • Evolutionsstudie: 2007 mehr als 11 Arten von Drosophila wurden sequenziert und es wurde versucht, die evolutionäre Beziehung zwischen ihren Chromosomen zu verstehen. Es wurde auch bei Säugetieren hergestellt (ENCORE-Projekt).

Wissenschaftler sagen, dass sie endlich das gesamte menschliche Genom sequenziert haben. Ja, alles.

Vor einundzwanzig Jahren gaben Forscher den ersten &ldquodraft&rdquo der Sequenzierung des vollständigen menschlichen Genoms bekannt. Es war eine monumentale Leistung, aber der Sequenz fehlten immer noch etwa 8 Prozent des Genoms. Jetzt sagen Wissenschaftler, die auf der ganzen Welt zusammenarbeiten, dass sie diese zurückgezogenen 8 Prozent endlich ausgefüllt haben.

➡ Du denkst, Wissenschaft ist knallhart. Wir auch. Lassen Sie uns zusammen Nerds drüber machen.

Wenn ihre Arbeit einem Peer-Review standhält und sich herausstellt, dass sie es wirklich Tat das menschliche Genom in seiner Gesamtheit mit allen Lücken zu sequenzieren und zusammenzusetzen, könnte die Zukunft der Medizin verändern.

Was ist in einem Genom?

Die Sequenzierung des menschlichen Genoms ist seit langem ein riesiges Projekt mit würdigen Zielen. Wieso den? Denn wenn Menschen ihren genetischen Code besser verstehen, können sie zum Beispiel bessere, maßgeschneiderte Medikamente herstellen, einschließlich der Art von genfokussierter Medizin, die die ersten wirksamen COVID-19-Impfstoffe ermöglichte.

Der Mensch hat 46 Chromosomen in 23 Paaren, die Zehntausende einzelner Gene repräsentieren. Jedes Gen besteht aus einer bestimmten Anzahl von Basenpaaren gemacht aus Adenin (A), Thymin (T), Guanin (G) und Cytosin (C). Es gibt Milliarden von Basenpaaren im menschlichen Genom.

Im Juni 2000 haben das Human Genome Project (HGP) und das private Unternehmen Celera Genomics angekündigt dieser erste „Entwurf&rdquo des menschlichen Genoms. Dies war das Ergebnis jahrelanger Arbeit, die hat das Tempo erhöht als die Menschen weiterhin bessere Computer und Algorithmen für die Verarbeitung des Genoms entwickelten. Damals waren Wissenschaftler überrascht, dass von den über 3 Milliarden einzelnen „Buchstaben&rdquo von Basenpaaren der Mensch nur 30.000 bis 35.000 Gene hat. Heute ist diese Zahl viel niedriger, schwebt knapp über 20.000.

Drei Jahre später beendete HGP seine Mission, das gesamte menschliche Genom zu kartieren und definierte seine Begriffe auf diese Weise:

&ldquoDie aktuelle Technologie&rdquo leistet hier viel Schwerstarbeit. Damals HGP einen Prozess verwendet genannt bakterielles künstliches Chromosom (BAC), bei dem Wissenschaftler ein Bakterium verwendeten, um jedes Stück des Genoms zu klonen und sie dann in kleineren Gruppen zu untersuchen. Eine vollständige &ldquoBAC-Bibliothek&rdquo besteht aus 20.000 sorgfältig präparierten Bakterien mit geklonten Genen im Inneren.

Aber dieser BAC-Prozess übersieht von Natur aus einige Teile des gesamten Genoms. Der Grund dafür ist ein großartiger Einstieg in das, was das neue Wissenschaftlerteam erreicht hat.

Ein Durchbruch in der Sequenzierung

Was lauert in den geheimen 8 Prozent des Genoms, das der 2000-Entwurf des Genoms unberührt gelassen hat? Die Basenpaare in diesem Abschnitt bestehen aus vielen, vielen sich wiederholenden Mustern, die es einfach zu unhandlich gemacht haben, mit der Bakterienklonierungsmethode zu studieren.

BAC und andere Ansätze waren genau richtig für die Wiederholungs-lastigen verbleibenden 8 Prozent des Genoms. &bdquoDie aktuellen DNA-Sequenzer, die von Illumina hergestellt werden, nehmen kleine DNA-Fragmente, entschlüsseln sie und setzen das resultierende Puzzle wieder zusammen&ldquo Statistik&rsquos Matthew Herper Berichte. &ldquoDies funktioniert für den größten Teil des Genoms gut, aber nicht in Bereichen, in denen der DNA-Code das Ergebnis langer, sich wiederholender Muster ist.&ldquo

Das macht intuitiv Sinn. Stellen Sie sich vor, Sie würden von 1 bis 50 zählen, anstatt einfach 1, 2, 1, 2, . . . wieder und wieder. Ein Teil dessen, was die BAC-Methode erfolgreich gemacht hat, ist, dass die Wissenschaftler darauf geachtet haben, die Überlappungen zu minimieren und abzugleichen, die in dem wiederholten unerforschten Teil des Genoms fast unmöglich wurden.

Was ist also anders an den neuen Ansätzen? Schauen wir uns zuerst an, was sie sind. Pacific Biosciences (PacBio) mit Sitz in Kalifornien und Oxford Nanopore mit Sitz in Großbritannien haben unterschiedliche Technologien, rennen aber auf das gleiche Ziel zu.

PacBio verwendet ein System namens HiFi, wo Basenpaare buchstäblich als Kreise zirkulieren, bis sie vollständig und in hoher Genauigkeit gelesen werden, daher der Name. Das System ist erst ein paar Jahre alt und stellt einen großen Schritt nach vorn sowohl in Bezug auf Länge als auch Genauigkeit für diese längeren Sequenzen dar.

Oxford Nanopore hingegen verwendet in seinen proprietären Geräten elektrischen Strom. Stränge von Basenpaaren werden durch eine mikroskopische Nanopore gepresst – nur ein Molekül nach dem anderen – wo ein Strom sie zerreißt, um zu beobachten, um was für ein Molekül es sich handelt. Durch das Zappen jedes Moleküls können Wissenschaftler den vollständigen Strang identifizieren.

In der neuen Studie, die auf dem Biologie-Preprint-Server bioRxiv veröffentlicht wurde, hat ein internationales Konsortium von etwa 100 Wissenschaftlern sowohl die PacBio- als auch die Oxford-Nanopore-Technologie verwendet, um einige der verbleibenden unbekannten Abschnitte des menschlichen Genoms aufzuspüren.

Die Menge an Boden, die das Konsortium abgedeckt hat, ist atemberaubend. &bdquoDas Konsortium sagte, es habe die Zahl der DNA-Basen von 2,92 Milliarden auf 3,05 Milliarden erhöht, was einem Anstieg von 4,5 [Prozent] entspricht. Aber die Zahl der Gene stieg nur um 0,4 [Prozent] auf 19.969,&rdquo Statistik berichtet. Dies zeigt, wie groß die sich stark wiederholenden Basenpaarsequenzen in dieser Zone im Vergleich zu den Genen sind, die sie repräsentieren.

Die fehlenden Links

Sequencing Pate Georgskirche, ein Biologe an der Harvard University, erzählte Statistik Wenn diese Arbeit die Peer-Review erfolgreich durchläuft, wird es das erste Mal sein irgendein Das Genom von Wirbeltieren wurde vollständig kartiert. Und der Grund scheint einfach darin zu liegen, dass beide neuen Technologien das gleichzeitige Lesen sehr langer Basenpaarketten ermöglichen.

Warum sind die fehlenden Geninformationen so wichtig? Nun, die Erforschung von Genen erfährt viel Bevorzugung, wobei eine Handvoll der beliebtesten Gene den Großteil des Forschungsinteresses und der Finanzierung ausmacht. Die übersehenen Gene halten viele Schlüsselmechanismen die zum Beispiel Krankheiten verursachen.

Es gibt einen kleinen Haken, obwohl es auch ein Haken für die Ankündigung des ersten Entwurfs des Genoms im Jahr 2000 war. Beide Projekte untersuchten Zellen, die nur 23 statt der vollen 46 Chromosomen hatten. Das liegt daran, dass sie Zellen aus dem Fortpflanzungssystem verwenden, in denen Eier und Spermien jeweils die Hälfte einer vollen Chromosomenladung tragen.

Die Zelle stammt von einem Blasenmole, einer Art Fortpflanzungswachstum, das eine extrem frühe, nicht lebensfähige Verbindung zwischen einem Spermium und einer kernlosen Eizelle darstellt. Die Wahl dieser Art von Zelle, die als &ldquocell line&rdquo für Forschungszwecke gehalten und kultiviert wurde, halbiert den enormen Sequenzierungsaufwand.

Im nächsten Schritt soll die Studie in einer peer-reviewed Publikation erscheinen. Danach versuchen jedoch sowohl PacBio als auch Oxford, das gesamte menschliche Genom mit 46 Chromosomen zu sequenzieren. Aber vielleicht warten wir noch eine Weile.


Diskussion

Wir präsentierten eine neuartige Methode SMOOTH-seq für die Einzelzell-Genomanalyse basierend auf der SMRT-Sequenzierungstechnologie, die eine genaue SV-Detektion ermöglicht, indem sie die Vorteile langer High-Fidelity-Reads nutzt. Wie bei anderen scWGS-Methoden können wir die CNV- und SNV-Informationen von einer einzelnen Zelle erhalten. Idealerweise ist es besser, einzelne Zellen so tief zu sequenzieren, dass eine umfassende Bewertung einer Methode möglich ist. Aufgrund des hohen Preises der SMRT-Sequenzierung im Vergleich zu NGS im gegenwärtigen Stadium ist es jedoch unrealistisch, eine Zelle nach SMOOTH-seq in der angemessenen Tiefe zu sequenzieren, wie dies bei NGS der Fall ist. In dieser Studie haben wir etwa 16 Zellen in einer Sequenzierungsbibliothek zusammengefasst, die pro Lauf etwa 400 GB Daten von der Pacbio Sequel II-Plattform generieren konnte. Dies sind zwar nur etwa 15 Gb CCS-Daten, was 1 Gb für jede einzelne Zelle entspricht. Trotzdem betrugen die Gesamtkosten für eine einzelne Zelle

260 US-Dollar, was es für eine große Anzahl von Zellen sehr teuer machte.

Frühere Anwendungen verwendeten eine Tn5-Transposition, die zwei Adapter mit unterschiedlichen Sequenzen enthielt, um eine Fragment-Selbstschleife zu verhindern. Allerdings wird nur die Hälfte der DNA-Fragmente an beiden Enden von verschiedenen Adaptern markiert, was zu einem Verlust von 50% der ursprünglichen DNA-Fragmente während der Sequenzierung führt. In SMOOTH-seq haben wir nur eine Tn5-Adaptersequenz verwendet, um den Verlust der ursprünglichen DNA-Fragmente zu vermeiden. Unterdessen verringern die langen Fragmente, die durch niedrig konzentrierte Tn5-Transposase erzeugt werden, die Wahrscheinlichkeit einer Selbstschleife. Es ist sehr unwahrscheinlich, dass die gleichen genomischen Stellen auf verschiedenen Allelen zufällig durch die Transposasen identisch geschnitten werden, daher können wir doppelte Reads aus der Überamplifikation desselben gDNA-Fragments leicht entfernen, wie dies bei der vorherigen transpositionsbasierten WGS-Methode der Fall war [8]. Als Kostenfaktor erhielten wir jedoch eine begrenzte genomische Abdeckung (durchschnittlich 19% des Genoms) und Sequenzierungstiefe (durchschnittlich 0,4 × Tiefe) jeder einzelnen Zelle. Aus dem gleichen Grund sollten auch die Sensitivität und Genauigkeit beim Aufrufen von CNVs und SNVs durch mehr Sequenzierungsdaten für jede Zelle verbessert werden. Dies wäre kein Problem, wenn die Kosten der TGS-Sequenzierung in Zukunft auf das gleiche Niveau wie die der NGS sinken.

Es besteht kein Zweifel, dass SMOOTH-seq eine gute Leistung beim Nachweis von SV zeigte, insbesondere bei Insertions-, Translokations- und Duplikationsereignissen in Zelllinien und in vivo-Krebszellen. Wir können die kompletten Variantenstrukturen direkt erfassen, anstatt sie durch Read-Assembly abzuleiten. Dies hat zusätzliche Vorteile bei Wiederholungen innerhalb der Variantenstrukturen. Wir schließen daraus, dass wir deshalb viele Duplikationsereignisse beobachtet haben, die das Telomer des Chromosoms flankieren [34], während andere NGS-basierte Methoden solche SV-Ereignisse nur schwer nachweisen können. PCR-Chimärenartefakte [24, 35, 36] konnten nicht von SVs wie Translokationsereignissen unterschieden werden, während diese zufälligen Ereignisse ausgeschlossen werden konnten, indem die SVs in mehreren einzelnen Zellproben identifiziert werden mussten.

Wir freuen uns, dass SMOOTH-seq eine Möglichkeit bietet, ecDNAs auf Einzelzellebene zu untersuchen, eine neue Art von SVs, die kürzlich identifiziert wurde. Ein einzelnes Transpositionsereignis auf einem einzelnen ecDNA-Molekül machte es möglich, die ecDNA voller Länge einzufangen. Und wenn die ecDNA relativ kurz ist (im Allgemeinen nicht mehr als 10 kb), könnte ein Einzelsequenz-Read die vollständige Sequenz wiedergewinnen. Längere Kandidaten-ecDNAs können jedoch nur durch die Zirkularisierungsstellen nachgewiesen werden, die schwer von den großen Duplikationsereignissen zu unterscheiden sind. Und derzeit kann kein effektiver Weg ecDNAs und Duplikationsereignisse unterscheiden. In dieser Analyse haben wir durch Entfernen der Kandidaten, die sich mit Duplizierungsereignissen überlappen, die Störung durch Duplikationsereignisse bis zu einem gewissen Grad eliminiert. Es ist erwähnenswert, dass wir die ecDNAs mit den einfachsten Sequenzstrukturen vermuteten und erfassten, ecDNAs mit komplexeren Strukturen könnten wahrscheinlich gefunden werden, wenn es geeignetere Analysepipelines für lange Sequenzierungslesevorgänge gibt. Insgesamt gelang SMOOTH-seq ein Durchbruch bei der scWGS-Analyse, die insbesondere den Nachweis von Einzelzell-SV und ecDNA erleichtert.


Forscher behaupten, das gesamte menschliche Genom sequenziert zu haben

Kredit: CC0 Public Domain

Ein großes internationales Forscherteam behauptet, endlich das gesamte menschliche Genom sequenziert zu haben. Zusammen ist das Team als Telomere-to-Telomere (T2T) Consortium bekannt, und sie haben ein Papier verfasst, in dem ihre Bemühungen beschrieben und auf den bioRxiv-Preprint-Server hochgeladen wurden.

Bereits im Jahr 2000 gab ein Team des Human Genome Project in Zusammenarbeit mit der Biotech-Firma Celera Genomics bekannt, dass sie den ersten Entwurf einer Sequenzierung des menschlichen Genoms abgeschlossen haben. In diesem ersten Entwurf fehlten ungefähr 15% des Genoms. Die Arbeit seit dieser Zeit hat den Prozentsatz auf nur 8 % gesenkt. Und jetzt behauptet das T2T-Konsortium, es auf Null reduziert zu haben – obwohl es immer noch einige Vorbehalte gibt. Die Gruppe räumt ein, dass sie mit etwa 0,3% des Genoms Probleme hatten und es hier und da ein paar Fehler geben könnte – aber keine Lücken, weshalb sich die Gruppe selbst als Telomere-to-Telomere-Konsortium bezeichnet hat. Im Rahmen ihrer Arbeit entdeckte das Team etwa 115 neue Gene, die für Proteine ​​kodieren, was einer neuen Gesamtzahl von 19.969 entspricht.

Die Forscher vermuten, dass ihre Arbeit nur möglich war, weil sie eine von Oxford Nanopore und Pacific Biosciences entwickelte neue Technologie nutzten – die neue Technologie ermöglichte eine Sequenzierung, ohne die DNA in Stücke zu schneiden. Stattdessen ließ es die DNA durch ein nanoskopisches Loch laufen, wobei Laser die Sequenzen wiederholt lasen, um Fehler zu reduzieren. Sie behaupten auch, dass die Zahl der bekannten Basen inzwischen von 2,92 Milliarden auf 3,05 Milliarden gestiegen ist und die Zahl der bekannten Gene um 0,4% gestiegen ist.

Die Forscher stellen auch fest, dass das Genom, das sie sequenzierten, nicht von einer Person stammte, sondern von einer Blasenfalte, einer Geschwulst, die sich in seltenen Fällen im Inneren der Gebärmutter einer Frau bildet. Solche Wucherungen treten auf, wenn es einem Spermium gelingt, eine Eizelle zu befruchten, die keinen Kern hat, daher hat sie nur 23 Chromosomen und nicht die normalen 46, die in den meisten menschlichen Zellen vorkommen. Die Forscher entschieden sich für die Sequenzierung der Blasenfalten, weil dies ihre Berechnungen erleichterte.

Die Ergebnisse müssen noch von Experten begutachtet werden, weshalb sich die Genomik-Community mit Kommentaren zurückhält – in der Zwischenzeit plant das T2T-Team, seine Arbeit durch die Sequenzierung mehrerer Personen aus der ganzen Welt voranzutreiben.


Verweise

Collins, F. S. et al. Wissenschaft 300, 286–290 (2003).

H3Afrika-Konsortium. Wissenschaft 344, 1346–1348 (2014).

Stein, L. D. et al. Natur 523, 149–150 (2015).

Knoppers, B.M. HUGO J. 8, 3 (2014).

Collins, F.S. &amp. Varmus, H. N. Engl. J. Med. 372, 293–295 (2015).

Insel, T.R. et al. Wissenschaft 340, 687–688 (2013).

McEwen, J. E. et al. Annu. Rev. Genomik Hum. Genet. 15, 481–505 (2014).

Grün, E. D. in Die metabolischen und molekularen Grundlagen von Erbkrankheiten 8. Edn (Hrsg. Scriver, C. R. et al.) 259–298 (McGraw-Hill, 2001).


Zeitleiste der Kosten

Wie viel hat es gekostet, im Rahmen des Human Genome Project die erste Sequenz des menschlichen Genoms zu generieren?

Das HGP generierte eine "Referenz"-Sequenz des menschlichen Genoms - insbesondere sequenzierte es eine repräsentative Version aller Teile jedes menschlichen Chromosoms (insgesamt

3 Milliarden Basen). Am Ende war die Qualität der "fertigen" Sequenz sehr hoch, mit einer geschätzten Fehlerrate von <1 in 100.000 Basen ist dies viel höher als eine heute produzierte typische menschliche Genomsequenz. Die generierte Sequenz stammt nicht aus dem Genom einer Person und ist eine "Referenz"-Sequenz von

3 Milliarden Basen, spiegelt wirklich die Hälfte dessen wider, was generiert wird, wenn eine einzelne Person

Das 6-Milliarden-Basen-Genom wird sequenziert (siehe unten).

Das HGP umfasste zunächst die Kartierung und dann die Sequenzierung des menschlichen Genoms. Ersteres war damals erforderlich, weil es sonst keinen „Rahmen“ gab, um die eigentliche Sequenzierung bzw. die resultierenden Sequenzdaten zu organisieren. Die Karten des menschlichen Genoms dienten als "Gerüste", auf denen einzelne Segmente der zusammengesetzten DNA-Sequenz verbunden wurden. Diese Genom-Mapping-Bemühungen waren recht kostspielig, aber damals für die Generierung einer genauen Genomsequenz unerlässlich. Es ist schwierig, die Kosten im Zusammenhang mit der „Mapping-Phase des menschlichen Genoms“ des HGP abzuschätzen, aber es waren sicherlich viele Dutzend Millionen Dollar (und wahrscheinlich Hunderte Millionen Dollar).

Nachdem eine signifikante Sequenzierung des menschlichen Genoms für das HGP begann, wurde über einen Zeitraum von 15 Monaten (von April 1999 bis Juni 2000) ein "Entwurf" einer menschlichen Genomsequenz (wie oben beschrieben) hergestellt. Die geschätzten Kosten für die Generierung dieses ersten „Entwurfs“ der menschlichen Genomsequenz betragen

300 Millionen US-Dollar weltweit, von denen NIH etwa 50-60% bereitstellte.

Das HGP verfeinerte dann den „Entwurf“ und produzierte eine „fertige“ menschliche Genomsequenz (wie oben beschrieben), was bis 2003 erreicht wurde. Die geschätzten Kosten für die Weiterentwicklung des „Entwurfs“ der menschlichen Genomsequenz zur „fertigen“ Sequenz betragen

150 Millionen US-Dollar weltweit. Bemerkenswert ist, dass die Generierung der endgültigen Sequenz des menschlichen Genoms durch das HGP auch auf den Sequenzen kleiner Zielregionen des menschlichen Genoms beruhte, die vor der Hauptproduktionssequenzierungsphase des HGP generiert wurden. Sequenzierungsbemühungen, aber sie belaufen sich wahrscheinlich auf mehrere zehn Millionen Dollar.

Die obige Erklärung veranschaulicht die Schwierigkeit, eine einzige, genaue Zahl für die Kosten der Generierung dieser ersten menschlichen Genomsequenz als Teil des HGP zu finden. Eine solche Berechnung erfordert eine klare Abgrenzung darüber, was in der Schätzung weiter „gezählt“ wird und was nicht, die meisten Kostenschätzungen für einzelne Komponenten können nur als Bandbreiten angegeben werden. An der unteren Grenze scheint diese Kostenzahl mindestens 500 Millionen US-Dollar zu betragen, an der oberen Grenze könnte diese Kostenzahl bis zu 1 Milliarde US-Dollar betragen. Die Wahrheit liegt wahrscheinlich irgendwo dazwischen.

Die oben geschätzten Kosten für die Generierung der ersten menschlichen Genomsequenz durch das HGP sollten nicht mit den Gesamtkosten des HGP verwechselt werden. Die ursprünglich veranschlagten Kosten für den US-Beitrag zum HGP betrugen tatsächlich 3 Milliarden US-Dollar, das Projekt dauerte am Ende weniger Zeit (

15 Jahre) und weniger Förderbedarf -

2,7 Milliarden Dollar. Letztere Zahl stellt jedoch die gesamte US-Finanzierung für eine breite Palette von wissenschaftlichen Aktivitäten unter dem Dach des HGP dar, die über die Sequenzierung des menschlichen Genoms hinausgehen, einschließlich Technologieentwicklung, physikalische und genetische Kartierung, Genomkartierung und -sequenzierung von Modellorganismen, Bioethikforschung und Programmmanagement. Darüber hinaus spiegelt dieser Betrag nicht die zusätzlichen Mittel für eine sich überschneidende Reihe von Aktivitäten wider, die von anderen am HGP teilnehmenden Ländern verfolgt werden.

Als sich das HGP dem Abschluss näherte, hatten sich die Genomsequenzierungspipelines so weit stabilisiert, dass das NHGRI in der Lage war, ziemlich zuverlässige Kosteninformationen von den vom Institut finanzierten großen Sequenzierungszentren zu sammeln. Basierend auf diesen Daten schätzte NHGRI die hypothetischen Kosten für 2003, um eine „zweite“ menschliche Referenzgenomsequenz unter Verwendung der damals verfügbaren Ansätze und Technologien zu generieren, auf etwa 50 Millionen US-Dollar.

Wie viel kostete die Sequenzierung eines menschlichen Genoms im Jahr 2006 (also vor etwa einem Jahrzehnt)?

Since the completion of the HGP and the generation of the first 'reference' human genome sequence, efforts have increasingly shifted to the generation of human genome sequences from individual people. Sequencing an individual's 'personal' genome actually involves establishing the identity and order of

6 billion bases of DNA (rather than a

3-billion-base 'reference' sequence see above). Thus, the generation of a person's genome sequence is a notably different endeavor than what the HGP did.

Within a few years following the end of the HGP (e.g., in 2006), the landscape of genome sequencing was beginning to change. While revolutionary new DNA sequencing technologies, such as those in use today, were not quite implemented at that time, genomics groups continued to refine the basic methodologies used during the HGP and continued lowering the costs for genome sequencing. Considerable efforts were being made to the sequencing of nonhuman genomes (much more so than human genomes), but the cost-accounting data collected at that time can be used to estimate the approximate cost that would have been associated with human genome sequencing at that time.

Based on data collected by NHGRI from the Institute's funded genome-sequencing groups, the cost to generate a high-quality 'draft' human genome sequence had dropped to

$14 million by 2006. Hypothetically, it would have likely cost upwards of $20-25 million to generate a 'finished' human genome sequence - expensive, but still considerably less so than for generating the first reference human genome sequence.

How much does it cost to sequence a human genome in 2016 (i.e., today)?

The decade following the HGP brought revolutionary advances in DNA sequencing technologies that are fundamentally changing the nature of genomics. So-called 'next-generation' DNA sequencing methods arrived on the scene, and their effects quickly became evident in terms of lowering genome-sequencing costs note that these NHGRI-collected data are 'retroactive' in nature, and do not always accurately reflect the 'projected' costs for genome sequencing going forward).

In 2015, the most common routine for sequencing an individual's human genome involves generating a 'draft' sequence and comparing it to a reference human genome sequence, so as to catalog all sequence variants in that genome such a routine does not involve any sequence finishing. In short, nearly all human genome sequencing in 2015 yields high-quality 'draft' (but unfinished) sequence. That sequencing is typically targeted to all exons (whole-exome sequencing) or aimed at the entire

6-billion-base genome (whole-genome sequencing), as discussed above. The quality of the resulting 'draft' sequences is heavily dependent on the amount of average base redundancy provided by the generated data (with higher redundancy costing more).

Adding to the complex landscape of genome sequencing in 2015 has been the emergence of commercial enterprises offering genome-sequencing services at competitive pricing. Direct comparisons between commercial versus academic genome-sequencing operations can be particularly challenging because of the many nuances about what each includes in any cost estimates (with such details often not revealed by private companies). The cost data that NHGRI collects from its funded genome-sequencing groups includes information about a wide range of activities and components, such as: reagents, consumables, DNA-sequencing instruments, certain computer equipment, other equipment, laboratory pipeline development, laboratory information management systems, initial data processing, submission of data to public databases, project management, utilities, other indirect costs, labor, and administration. Note that such cost-accounting does not typically include activities such as quality assurance/quality control (QA/QC), alignment of generated sequence to a reference human genome, sequence assembly, genomic variant calling, or annotation. Almost certainly, companies vary in terms of which of the items in the above lists get included in any cost estimates, making direct cost comparisons with academic genome-sequencing groups difficult. It is thus important to consider these variables - along with the distinction between retrospective versus projected costs - when comparing genome-sequencing costs claimed by different groups. Anyone comparing costs for genome sequencing should also be aware of the distinction between 'price' and 'cost' - a given price may be either higher or lower than the actual cost.

Based on the data collected from NHGRI-funded genome-sequencing groups, the cost to generate a high-quality 'draft' whole human genome sequence in mid-2015 was just above $4,000 by late in 2015, that figure had fallen below $1,500. The cost to generate a whole-exome sequence was generally below $1,000. Commercial prices for whole-genome and whole-exome sequences have often (but not always) been slightly below these numbers.

How much did it cost to generate the first human genome sequence as part of the Human Genome Project?

The HGP generated a 'reference' sequence of the human genome - specifically, it sequenced one representative version of all parts of each human chromosome (totaling

3 billion bases). In the end, the quality of the 'finished' sequence was very high, with an estimated error rate of <1 in 100,000 bases note this is much higher than a typical human genome sequence produced today. The generated sequence did not come from one person's genome, and, being a 'reference' sequence of

3 billion bases, really reflects half of what is generated when an individual person's

6-billion-base genome is sequenced (see below).

The HGP involved first mapping and then sequencing the human genome. The former was required at the time because there was otherwise no 'framework' for organizing the actual sequencing or the resulting sequence data. The maps of the human genome served as 'scaffolds' on which to connect individual segments of assembled DNA sequence. These genome-mapping efforts were quite expensive, but were essential at the time for generating an accurate genome sequence. It is difficult to estimate the costs associated with the 'human genome mapping phase' of the HGP, but it was certainly in the many tens of millions of dollars (and probably hundreds of millions of dollars).

Once significant human genome sequencing began for the HGP, a 'draft' human genome sequence (as described above) was produced over a 15-month period (from April 1999 to June 2000). The estimated cost for generating that initial 'draft' human genome sequence is

$300 million worldwide, of which NIH provided roughly 50-60%.

The HGP then proceeded to refine the 'draft' and produce a 'finished' human genome sequence (as described above), which was achieved by 2003. The estimated cost for advancing the 'draft' human genome sequence to the 'finished' sequence is

$150 million worldwide. Of note, generating the final human genome sequence by the HGP also relied on the sequences of small targeted regions of the human genome that were generated before the HGP's main production-sequencing phase it is impossible to estimate the costs associated with these various other genome-sequencing efforts, but they likely total in the tens of millions of dollars.

The above explanation illustrates the difficulty in coming up with a single, accurate number for the cost of generating that first human genome sequence as part of the HGP. Such a calculation requires a clear delineation about what does and does not get 'counted' in the estimate further, most of the cost estimates for individual components can only be given as ranges. At the lower bound, it would seem that this cost figure is at least $500 million at the upper bound, this cost figure could be as high as $1 billion. The truth is likely somewhere in between.

The above estimated cost for generating the first human genome sequence by the HGP should not be confused with the total cost of the HGP. The originally projected cost for the U.S.'s contribution to the HGP was $3 billion in actuality, the Project ended up taking less time (

15 years) and requiring less funding -

$2.7 billion. But the latter number represents the total U.S. funding for a wide range of scientific activities under the HGP's umbrella beyond human genome sequencing, including technology development, physical and genetic mapping, model organism genome mapping and sequencing, bioethics research, and program management. Further, this amount does not reflect the additional funds for an overlapping set of activities pursued by other countries that participated in the HGP.

As the HGP was nearing completion, genome-sequencing pipelines had stabilized to the point that NHGRI was able to collect fairly reliable cost information from the major sequencing centers funded by the Institute. Based on these data, NHGRI estimated that the hypothetical 2003 cost to generate a 'second' reference human genome sequence using the then-available approaches and technologies was in the neighborhood of $50 million.

How much did it cost to sequence a human genome in 2006 (i.e., roughly a decade ago)?

Since the completion of the HGP and the generation of the first 'reference' human genome sequence, efforts have increasingly shifted to the generation of human genome sequences from individual people. Sequencing an individual's 'personal' genome actually involves establishing the identity and order of

6 billion bases of DNA (rather than a

3-billion-base 'reference' sequence see above). Thus, the generation of a person's genome sequence is a notably different endeavor than what the HGP did.

Within a few years following the end of the HGP (e.g., in 2006), the landscape of genome sequencing was beginning to change. While revolutionary new DNA sequencing technologies, such as those in use today, were not quite implemented at that time, genomics groups continued to refine the basic methodologies used during the HGP and continued lowering the costs for genome sequencing. Considerable efforts were being made to the sequencing of nonhuman genomes (much more so than human genomes), but the cost-accounting data collected at that time can be used to estimate the approximate cost that would have been associated with human genome sequencing at that time.

Based on data collected by NHGRI from the Institute's funded genome-sequencing groups, the cost to generate a high-quality 'draft' human genome sequence had dropped to

$14 million by 2006. Hypothetically, it would have likely cost upwards of $20-25 million to generate a 'finished' human genome sequence - expensive, but still considerably less so than for generating the first reference human genome sequence.

How much does it cost to sequence a human genome in 2016 (i.e., today)?

The decade following the HGP brought revolutionary advances in DNA sequencing technologies that are fundamentally changing the nature of genomics. So-called 'next-generation' DNA sequencing methods arrived on the scene, and their effects quickly became evident in terms of lowering genome-sequencing costs note that these NHGRI-collected data are 'retroactive' in nature, and do not always accurately reflect the 'projected' costs for genome sequencing going forward).

In 2015, the most common routine for sequencing an individual's human genome involves generating a 'draft' sequence and comparing it to a reference human genome sequence, so as to catalog all sequence variants in that genome such a routine does not involve any sequence finishing. In short, nearly all human genome sequencing in 2015 yields high-quality 'draft' (but unfinished) sequence. That sequencing is typically targeted to all exons (whole-exome sequencing) or aimed at the entire

6-billion-base genome (whole-genome sequencing), as discussed above. The quality of the resulting 'draft' sequences is heavily dependent on the amount of average base redundancy provided by the generated data (with higher redundancy costing more).

Adding to the complex landscape of genome sequencing in 2015 has been the emergence of commercial enterprises offering genome-sequencing services at competitive pricing. Direct comparisons between commercial versus academic genome-sequencing operations can be particularly challenging because of the many nuances about what each includes in any cost estimates (with such details often not revealed by private companies). The cost data that NHGRI collects from its funded genome-sequencing groups includes information about a wide range of activities and components, such as: reagents, consumables, DNA-sequencing instruments, certain computer equipment, other equipment, laboratory pipeline development, laboratory information management systems, initial data processing, submission of data to public databases, project management, utilities, other indirect costs, labor, and administration. Note that such cost-accounting does not typically include activities such as quality assurance/quality control (QA/QC), alignment of generated sequence to a reference human genome, sequence assembly, genomic variant calling, or annotation. Almost certainly, companies vary in terms of which of the items in the above lists get included in any cost estimates, making direct cost comparisons with academic genome-sequencing groups difficult. It is thus important to consider these variables - along with the distinction between retrospective versus projected costs - when comparing genome-sequencing costs claimed by different groups. Anyone comparing costs for genome sequencing should also be aware of the distinction between 'price' and 'cost' - a given price may be either higher or lower than the actual cost.

Based on the data collected from NHGRI-funded genome-sequencing groups, the cost to generate a high-quality 'draft' whole human genome sequence in mid-2015 was just above $4,000 by late in 2015, that figure had fallen below $1,500. The cost to generate a whole-exome sequence was generally below $1,000. Commercial prices for whole-genome and whole-exome sequences have often (but not always) been slightly below these numbers.


Schau das Video: Genetik u0026 Epigenetik: Genom-Sequenzierung in der modernen Biologie Vortrag (Kann 2022).