Information

E-Wert-Cutoff für RNASeq-Suche

E-Wert-Cutoff für RNASeq-Suche


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich versuche, die möglichen Suchkriterien aus einem RNASeq-Experiment einzugrenzen. Ich habe bereits die CDs-Sequenzen, also habe ich diese genommen und das Blast+-Programm verwendet, um die Daten gegen sich selbst zu sprengen, um identische Sequenzen zu finden.

Von dem, was ich gelesen habe, basiert der E-Wert auf der Datenbankgröße. Meine Datenbank enthält nur ~27.000 Sequenzen, bedeutet dies, dass nur außergewöhnlich niedrige E-Werte für mich relevant sind? Gibt es noch andere Kriterien, nach denen ich suchen sollte, bevor ich das Programm schreibe, um ähnliche Sequenzen zu eliminieren?


Wenn Sie einen E-Wert- oder Bitscore-Cutoff verwenden, erhalten Sie mögliche Homologe, aber es hört sich so an, als ob Sie redundante Sequenzen entfernen möchten. Wenn Sie ähnliche Sequenzen gruppieren und kombinieren möchten, um eine kleinere Datenbank zu erstellen, können Sie einfach die Sequenzidentität mit etwas wie CD-HIT verwenden. Dies wird beispielsweise getan, um den UniRef-Satz aus der UniProt-Datenbank zu erzeugen.


Welche Methoden gibt es, um einen Cutoff-Wert für nicht-exprimierte Gene in RNA-seq zu finden?

Ich habe eine Genexpressions-Zählmatrix, die aus Bulk-RNA-Seq-Daten erstellt wurde. Ich möchte Gene finden, die waren nicht in einer Gruppe von Proben exprimiert und in einer anderen Gruppe exprimiert wurden.

Das Problem ist natürlich, dass nicht alle effektiv nicht-exprimierte Gene haben aufgrund von Sequenzierungsfehlern oder weil sie in einer kleinen Untergruppe von Zellen exprimiert wurden, 0 Zählungen.

Ich interessiere mich für Lösungen mit R .


Hintergrund

Die Hochdurchsatz-Sequenzierungstechnologie wird schnell zur Standardmethode zur Messung der RNA-Expressionsniveaus (auch bekannt als RNA-seq) [1]. Das Aufkommen von Rapid-Sequencing-Technologien zusammen mit reduzierten Kosten hat eine detaillierte Profilierung der Genexpressionsniveaus ermöglicht, die sich auf fast alle Bereiche der Biowissenschaften ausgewirkt hat und jetzt für den klinischen Einsatz übernommen wird [2]. Die RNA-seq-Technologie ermöglicht die detaillierte Identifizierung von Genisoformen, Translokationsereignissen, Nukleotidvariationen und posttranskriptionellen Basenmodifikationen [3]. Eines der Hauptziele dieser Experimente besteht darin, die unterschiedlich exprimierten Gene unter zwei oder mehr Bedingungen zu identifizieren. Solche Gene werden basierend auf einer Kombination aus Expressionsänderungsschwelle und Score-Cutoff ausgewählt, die normalerweise auf P durch statistische Modellierung erzeugte Werte.

Das Expressionsniveau jeder RNA-Einheit wird durch die Anzahl der sequenzierten Fragmente gemessen, die auf das Transkript kartieren, von dem erwartet wird, dass es direkt mit seinem Häufigkeitsniveau korreliert. Diese Maßnahme unterscheidet sich grundlegend von gensondenbasierten Methoden wie Microarrays. Bei RNA-seq ist das Expressionssignal eines Transkripts durch die Sequenzierungstiefe begrenzt und von den Expressionsniveaus anderer Transkripte abhängig, während bei Array-basierten Verfahren die Sondenintensitäten unabhängig voneinander sind. Dies sowie andere technische Unterschiede haben die Entwicklung einer wachsenden Zahl statistischer Algorithmen motiviert, die eine Vielzahl von Ansätzen für die Normalisierung und die Erkennung von Differenzialausdrücken (DE) implementieren. Typische Ansätze verwenden Poisson- oder negative Binomialverteilungen, um die Genzahldaten und eine Vielzahl von Normalisierungsverfahren zu modellieren (siehe [4] für eine Übersicht).

In dieser Vergleichsstudie haben wir einige der am häufigsten verwendeten und frei verfügbaren Softwarepakete für Differentialausdrücke ausgewertet: Cuffdiff [5], edgeR [6], DESeq [7], PoissonSeq [8], baySeq [9] und limma [ 10] für RNA-seq-Verwendung angepasst. Wir haben zwei Benchmark-Datensätze verwendet: Der erste ist der Datensatz der Sequencing Quality Control (SEQC), der replizierte Proben der menschlichen Ganzkörper-Referenz-RNA und der menschlichen Gehirn-Referenz-RNA zusammen mit RNA-Spike-in-Kontrollen enthält. Diese Proben sind Teil der MAQC-Studie zum Benchmarking der Microarray-Technologie [11, 12] sowie der SEQC-Bemühungen zur Charakterisierung der RNA-seq-Technologie und umfassen fast 1.000 Gene, die durch TaqMan qPCR validiert wurden. Der zweite Datensatz sind RNA-seq-Daten aus biologischen Replikaten von drei Zelllinien, die im Rahmen des ENCODE-Projekts charakterisiert wurden [13]. Unsere Analyse konzentrierte sich auf eine Reihe von Maßnahmen, die für den Nachweis der differentiellen Genexpression aus RNA-seq-Daten am relevantesten sind: i) Normalisierung der Zähldaten ii) Sensitivität und Spezifität der DE-Detektion iii) Leistung bei der Untergruppe der Gene, die in eine Bedingung, aber keine nachweisbare Expression in der anderen Bedingung aufweisen, und schließlich iv) die Auswirkungen einer verringerten Sequenzierungstiefe und einer verringerten Anzahl von Replikaten auf den Nachweis einer differentiellen Expression. Wichtig ist, dass diese Bewertung nicht das verwandte und wichtige Problem des Nachweises der differentiellen Isoform-Expression und der Identifizierung neuer Transkripte anspricht. Vielmehr beschränkt sich die Auswertung auf den konkreten Fall des Nachweises von DE anhand einheitlicher Genmodelle.

Unsere Ergebnisse zeigen erhebliche Unterschiede zwischen den Methoden sowohl hinsichtlich der Spezifität als auch der Sensitivität für den Nachweis unterschiedlich exprimierter Gene. In den meisten Benchmarks schnitt Cuffdiff mit einer höheren Anzahl von falsch positiven Ergebnissen ohne Erhöhung der Empfindlichkeit weniger gut ab. Unsere Ergebnisse zeigen schlüssig, dass die Zugabe von Replikatproben eine wesentlich größere Detektionsleistung von DE liefert als eine erhöhte Sequenztiefe. Daher ist es immer vorzuziehen, mehr replizierte Proben in RNA-seq-Experimente aufzunehmen, als die Anzahl der sequenzierten Reads zu erhöhen.

Theoretischer Hintergrund

Ein bequemer Ausgangspunkt für den Vergleich verschiedener RNA-Seq-Analysemethoden ist eine einfache Zählmatrix n von n × m wo n ij ist die Anzahl der Lesevorgänge, die dem Gen zugeordnet sind ich im Sequenzierungsexperiment J (das heißt, gelesene Zählungen). Solche Matrizen können aus Alignment-Daten mit Tools wie HTSeq [15], Picard [16], BEDTools [17], featureCounts [18] oder Cufflinks [19] erstellt werden. Die hier vorgestellte Studie geht nicht auf die wichtigen Feinheiten bei der Berechnung von Genzählungen ein, insbesondere nicht, welches Genmodell verwendet werden soll, wie Reads überlappende intronische Regionen gezählt werden und die Verwendung von mehrdeutig kartierten Reads. Der Fokus liegt vielmehr auf dem Vergleich zwischen Methoden bei einer festen Ausdruckszählmatrix. Für Cuffdiff, das eine andere Quantifizierungsmethode verwendet, die mit den anderen nicht kompatibel ist, haben wir die gemeinsame Methode Cufflinks und für alle anderen Methoden HTSeq verwendet. Es ist wichtig zu erkennen, dass die Anzahl der Reads, die ein Gen überlappen ich ist kein direktes Maß für die Expression des Gens. Eher das Zählmaß, bei dem μ ij und l ich sind die erwartete Expression bzw. Genlänge. Daher besteht ein klarer Längenbias bei der Messung der Genexpression durch RNA-Seq [20]. Ein Effekt dieser Verzerrung besteht darin, dass die Fähigkeit, unterschiedliche Expressionen zwischen kürzeren Genen zu erkennen, allein aufgrund der fehlenden Abdeckung reduziert wird, da die Aussagekraft statistischer Tests mit Zähldaten mit einer geringeren Anzahl von Zählungen abnimmt [21, 22].

Die differenzielle Genexpressionsanalyse von RNA-seq-Daten besteht im Allgemeinen aus drei Komponenten: Normalisierung der Zählungen, Parameterschätzung des statistischen Modells und Tests auf differenzielle Expression. In diesem Abschnitt bieten wir einen kurzen Hintergrund zu den Ansätzen, die von den verschiedenen Algorithmen implementiert werden, die diese drei Schritte ausführen. Wir beschränken unsere Diskussion auf den häufigsten Fall der Messung der differentiellen Expression zwischen zwei zellulären Bedingungen oder Phänotypen, obwohl einige der Pakete auf Multi-Klassen-Unterschiede oder Multi-Faktor-Experimente testen können, bei denen mehrere biologische Bedingungen und unterschiedliche Sequenzierungsprotokolle enthalten sind.

Normalisierung

Die erste Schwierigkeit bei der Arbeit mit Sequenzierungsdaten sind die großen Unterschiede in der Anzahl der erzeugten Reads zwischen verschiedenen Sequenzierungsläufen sowie technische Verzerrungen, die durch Bibliotheksvorbereitungsprotokolle, Sequenzierungsplattformen und Nukleotidzusammensetzungen eingeführt werden [23]. Normalisierungsprozeduren versuchen, solche Unterschiede zu berücksichtigen, um genaue Vergleiche zwischen Probengruppen zu erleichtern. Eine intuitive Normalisierung besteht darin, die Genzahl einfach durch die Gesamtzahl der Reads in jeder Bibliothek oder kartierte Reads zu dividieren, wie zuerst von Mortazavi . eingeführt wurde et al. [1], ein Normalisierungsverfahren namens Reads per Kilobase per Million Reads (RPKM). Ein Mangel dieses Ansatzes besteht darin, dass die proportionale Repräsentation jedes Gens von den Expressionsniveaus aller anderen Gene abhängt. Oftmals macht ein kleiner Bruchteil von Genen große Anteile der sequenzierten Reads aus und kleine Expressionsänderungen in diesen stark exprimierten Genen werden die Anzahl der schwach exprimierten Gene unter diesem Schema verzerren. Dies kann zu einem fehlerhaften Differentialausdruck führen [24, 25]. Eine Variation von RPKM, die als Fragmente pro Kilobase Exon pro Million kartierter Lesevorgänge (FPKM) bezeichnet wird, wurde von Trapnell eingeführt et al. um Paired-End-Reads zu berücksichtigen [19], hat dies jedoch die gleiche Einschränkung der Kopplungsänderungen der Expressionsniveaus zwischen allen Genen. DESeq berechnet einen Skalierungsfaktor für eine gegebene Stichprobe, indem für jedes Gen der Median des Verhältnisses seiner Read-Zählung zu seinem geometrischen Mittel über alle Stichproben berechnet wird. Es verwendet dann die Annahme, dass die meisten Gene nicht DE sind, und verwendet diesen Median der Verhältnisse, um den Skalierungsfaktor zu erhalten, der dieser Probe zugeordnet ist. Cuffdiff erweitert dies, indem zuerst eine Skalierung innerhalb der Bedingungsbibliothek und dann eine zweite Skalierung zwischen Bedingungen durchgeführt wird. Cuffdiff versucht auch, Veränderungen der Isoformspiegel explizit durch eine zusätzliche transkriptspezifische Normalisierung zu berücksichtigen, die die Häufigkeit jeder Isoform schätzt.

Andere Normalisierungsverfahren versuchen, eine Untergruppe von stabil exprimierten Genen zu verwenden oder innerhalb replizierter Proben zu normalisieren, um die Bibliotheksgrößen global anzupassen. Der getrimmte Mittelwert der M-Werte (TMM) von Robinson und Oshlack [25], der in edgeR implementiert ist, berechnet einen Skalierungsfaktor zwischen zwei Experimenten, indem er den gewichteten Durchschnitt der Teilmenge von Genen verwendet, nachdem Gene ausgeschlossen wurden, die hohe durchschnittliche Lesezahlen aufweisen und Gene, die große Unterschiede in der Expression aufweisen. Ein anderer Ansatz besteht darin, Genzahlen bis zum oberen 25%-Quantil zu summieren, um die Bibliotheksgrößen zu normalisieren, wie von Bullard vorgeschlagen et al. [24] und ist die Standardnormalisierung im baySeq-Paket. Das PoissonSeq-Paket verwendet eine Schätzung der Güte der Anpassung, um einen Gensatz zu definieren, der am wenigsten zwischen zwei Bedingungen unterschieden wird, der dann verwendet wird, um Bibliotheksnormalisierungsfaktoren zu berechnen. Die Quantil-Normalisierung stellt sicher, dass die Zählungen über alle Stichproben dieselbe empirische Verteilung aufweisen, indem die Zählungen aus jeder Stichprobe sortiert und die Werte auf den Quantil-Mittelwert aller Stichproben gesetzt werden [26]. Diese Normalisierung wird häufig in Ausdrucksarrays verwendet und ist im limma-Paket implementiert. Vor kurzem wurde dem Limma-Paket eine neue Normalisierungsfunktion namens voom hinzugefügt, die speziell für RNA-Seq-Daten entwickelt wurde. Es führt eine LOWESS-Regression durch, um die Mittelwert-Varianz-Beziehung zu schätzen, und transformiert die Read-Counts in die geeignete Log-Form für die lineare Modellierung [27].

Statistische Modellierung der Genexpression

Wenn Sequenzierungsexperimente als Zufallsstichproben von Reads aus einem festen Pool von Genen betrachtet werden, dann ist eine natürliche Darstellung der Gen-Read-Zahlen die Poisson-Verteilung der Form, wobei n ist die Anzahl der Read-Counts und λ ist eine reelle Zahl, die der erwarteten Anzahl von Lesevorgängen von Transkriptfragmenten entspricht. Eine wichtige Eigenschaft der Poisson-Verteilung ist, dass die Varianz gleich dem Mittelwert ist, der gleich λ. In Wirklichkeit ist die Varianz der Genexpression über mehrere biologische Replikate jedoch größer als ihre mittleren Expressionswerte [28-30]. Um dieses Problem der Überdispersion anzugehen, verwenden Methoden wie edgeR und DESeq die zugehörige negative Binomialverteilung (NB), wobei die Beziehung zwischen der Varianz ν und gemein μ ist definiert als ν = μ + αμ 2 wo α ist der Streuungsfaktor.

Die Schätzung dieses Faktors ist einer der grundlegenden Unterschiede zwischen den Paketen edgeR und DESeq. edgeR-Schätzungen α als gewichtete Kombination aus zwei Komponenten: einem genspezifischen Streuungseffekt und einem aus allen Genen berechneten gemeinsamen Streuungseffekt. DESeq hingegen zerlegt die Varianzschätzung in eine Kombination aus der Poisson-Schätzung (d. h. der mittleren Expression des Gens) und einem zweiten Term, der die biologische Expressionsvariabilität modelliert. Cuffdiff berechnet ein separates Varianzmodell für Single-Isoform-Gene und Multi-Isoform-Gene. Die Varianz des Einzelisoform-Ausdrucks wird ähnlich wie DESeq berechnet, und die Varianz der Multi-Isoform wird durch ein Mischungsmodell negativer Binomialzahlen unter Verwendung der Beta-Verteilungsparameter als Mischungsgewichte modelliert. baySeq implementiert ein vollständiges Bayes-Modell negativer Binomialverteilungen, bei dem die vorherigen Wahrscheinlichkeitsparameter durch numerische Stichproben aus den Daten geschätzt werden. PoissonSeq modelliert die Genzählungen n ich, J als Poisson-Variable, in der der Mittelwert μ ich, J der Verteilung wird durch die log-lineare Beziehung log μ ij = log D J + log β ich + γ ich ja J wo D J stellt die normalisierte Bibliotheksgröße dar, β ich ist das Expressionsniveau des Gens ich und γ ich ist die Korrelation von Gen ich mit Bedingung ja J (beachten Sie, dass in [8] die Indizes ich und J sind Proben bzw. Gene). Wenn die Expression von Genen ich korreliert nicht mit der Stichprobe J Klasse (d. h. es gibt keinen signifikanten Unterschied im Gen ich Ausdruck zwischen zwei Bedingungen) dann γ ich ist null.

Test auf Differentialausdruck

Der Abschätzung der Parameter für das jeweilige statistische Modell folgt der Test auf differentielle Expression, die Berechnung der Signifikanz der Veränderung der Expression von Genen ich zwischen zwei Bedingungen. Sowohl edgeR als auch DESeq verwenden eine Variation des exakten Fisher-Tests, der für die NB-Verteilung angenommen wurde, daher geben sie exakt . zurück P Werte, die aus den abgeleiteten Wahrscheinlichkeiten berechnet werden. Cuffdiff verwendet die Teststatistiken T = E[Protokoll(ja)]/Var[log(ja)], wo ja ist das Verhältnis der normalisierten Zählungen zwischen zwei Bedingungen, und dieses Verhältnis folgt ungefähr einer Normalverteilung, daher wird ein t-Test verwendet, um die zu berechnen P Wert für DE. limma verwendet eine moderierte t-Statistik, um zu berechnen P Werte, bei denen sowohl der Standardfehler als auch die Freiheitsgrade modifiziert sind [10]. Der Standardfehler wird über die Gene hinweg mit einem Schrumpfungsfaktor moderiert, der effektiv Informationen von allen Genen entlehnt, um die Inferenz auf jedes einzelne Gen zu verbessern. Die Freiheitsgrade werden auch durch einen Term angepasst, der die a priori Freiheitsgrade für das Modell. Der baySeq-Ansatz schätzt zwei Modelle für jedes Gen, wobei eines keine differentielle Expression annimmt und ein zweites eine differentielle Expression unter Verwendung der beiden Probengruppen annimmt. Die Posterior-Wahrscheinlichkeit des DE-Modells wird anhand der beobachteten Daten verwendet, um differenziell exprimierte Gene zu identifizieren. Bei der PoissonSeq-Methode ist der Test auf Differentialausdruck einfach ein Test auf die Signifikanz der γ ich Begriff (d. h. Korrelation von Genen ich Ausdruck mit den beiden Bedingungen), der von der Score-Statistik ausgewertet wird. Durch Simulationsexperimente wurde gezeigt, dass diese Score-Statistiken einer Chi-Quadrat-Verteilung folgen, die zur Ableitung von P Werte für DE. Alle Methoden verwenden Standardansätze für die Korrektur mehrerer Hypothesen (z. B. Benjamini-Hochberg), mit Ausnahme von PoissonSeq, die eine neuartige Schätzung der falschen Entdeckungsrate (FDR) für Zähldaten basierend auf Permutation implementiert hat.


Auf RNA-Sequenzierung basierende Transkriptomprofile der embryonalen Linsenentwicklung für die Entdeckung von Kataraktgenen

Isolierte oder syndromale angeborene Katarakte sind heterogene Entwicklungsdefekte, die die Identifizierung der assoziierten Gene erschweren. In der Vergangenheit wurden Mikroarrays zur Expression von Mauslinsen erfolgreich in bioinformatischen Werkzeugen (z. B. iSyTE) eingesetzt, um die Entdeckung von humanen Katarakt-assoziierten Genen zu erleichtern. Um eine neue Ressource für Genetiker zu entwickeln, berichten wir über Hochdurchsatz-RNA-Sequenzierungsprofile (RNA-seq) von Mauslinsen in wichtigen embryonalen Stadien (E)10.5 (Linsengrube), E12.5 (primäre Faserzelldifferenzierung), E14.5 und E16.5 (sekundäre Faserzelldifferenzierung). Diese Stadien erfassen wichtige Ereignisse, während sich die Linse von einer einstülpenden Plakode zu einem transparenten Gewebe entwickelt. Zuvor war die in silico ganz-embryo-body (WB)-subtraktionsbasierte "linsenangereicherte" Expression wirksam bei der Priorisierung von Katarakt-gebundenen Genen. Um einen analogen Ansatz anzuwenden, generierten wir neue Maus-WB-RNA-seq-Datensätze und zeigten, dass die in silico WB-Subtraktion von Linsen-RNA-seq-Datensätzen erfolgreich Schlüsselgene basierend auf Linsen-angereicherter Expression identifiziert. Bei ≥2 Counts-per-Million-Ausdruck, ≥1,5 log2 Faltenanreicherung (p < 0,05) Cutoff, E10.5-Linse weist 1401 angereicherte Gene (17% linsenexprimierte Gene) auf, E12.5-Linse weist 1937 angereicherte Gene (22% linsenexprimierte Gene) auf, E14.5-Linse weist 2514 . auf angereicherte Gene (31% Linsen-exprimierte Gene) und E16.5 Linse weist 2745 angereicherte Gene (34% Linsen-exprimierte Gene) auf. Eine biologische Signalweganalyse identifizierte unter anderem Gene, die mit der Linsenentwicklung, der Transkriptionsregulation und den Signalwegen verbunden sind. Darüber hinaus bestätigten diese neuen RNA-seq-Daten eine hohe Expression etablierter Katarakt-verbundener Gene und identifizierten neue potenzielle Regulatoren in der Linse. Schließlich haben wir neue linsenstadienspezifische UCSC Genome Brower-Annotationsspuren entwickelt und diese über iSyTE ( https://research.bioinformatics.udel.edu/iSyTE/ ) öffentlich zugänglich gemacht, um eine benutzerfreundliche Visualisierung der Linsengenexpression/-anreicherung zu priorisieren Gene aus Hochdurchsatzdaten von Kataraktfällen.

Figuren

Abb. 1.. RNA-seq-Experimentaldesign für Maus…

Abb. 1.. RNA-seq-experimentelles Design für die Analyse des Transkriptoms der Mausembryonallinse.

Ein Flussdiagramm experimenteller…

Abb. 2.. Qualitätsanalyse von RNA-seq-Daten…

Abb. 2.. Qualitätsanalyse von RNA-seq-Daten und Wirksamkeit von in silico WB-Subtraktion.

Abb. 3.. In silico WB-Subtraktion und Ausdruck…

Abb. 3.. In silico WB-Subtraktion und Expressionsanalyse identifizieren effektiv Gene, die mit Katarakt und…

Abb. 4.. Linsenangereicherte Genexpressionsdynamik in…

Abb. 4.. Linsenangereicherte Genexpressionsdynamik in der embryonalen Entwicklung der Maus.

Linsenangereicherte Gene an verschiedenen embryonalen…

Abb. 5.. Identifizierung der Gen-Ontologie (GO),…

Abb. 5.. Identifizierung von Gen-Ontologie (GO), KEGG-Weg und Interpro-Begriffen für Linsen-angereicherte Gene.

Abb. 6.. Entwicklungs-Expressions-Cluster zeigen Dynamiken…

Abb. 6.. Entwicklungsexpressionscluster zeigen die Dynamik linsenangereicherter Gene.

Selbstorganisierender Baumalgorithmus (SOTA)-basiertes Clustering…

Abb. 7..Auf RNA-Seq-Daten basierende benutzerdefinierte Tracks…

Abb. 7.. Auf RNA-Seq-Daten basierende benutzerdefinierte Spuren für den UCSC-Browser zur Visualisierung der Linsenexpression und…


Diskussion

In diesem Bericht präsentieren wir einen RNA-Seq Atlas (Seq-Atlas) für Glycin max unter Verwendung der Illumina-Sequenzierung der nächsten Generation des Sojabohnen-Transkriptoms. Eine der offenen Fragen im Zusammenhang mit der RNA-Seq-Methode ist, was mit kurzen Lesesequenzen zu tun ist, die mehrere Stellen in einem Genom kartieren. Diese Frage ist besonders relevant im paläopolyploiden Genom von G. max., das in den letzten zwei Runden groß angelegter Duplizierungsveranstaltungen durchlaufen hat

60 My, was zu bis zu vier Syntenie-Regionen innerhalb des größten Teils des Genoms führte [6]. Frühere Studien haben gezeigt, dass die Gesamtzahl der Zählungen eines Gens möglicherweise unterrepräsentiert ist, insbesondere in eng verwandten Genfamilien [15]. Wir fanden heraus, dass, solange wir uns der potenziellen Fallstricke einer Unterrepräsentation der Genzahlen bewusst waren, allein aus den eindeutig kartierbaren Reads wertvolle Einblicke in die Genexpression und die funktionelle Verwandtschaft von Genen gewonnen werden konnten.

Angesichts unseres begrenzten Verständnisses der vollständigen Komplexität des Sojabohnen-Genoms ist es erfreulich, dass nur ein kleiner Prozentsatz (3,5 %) der eindeutig kartierten Reads außerhalb der vorhergesagten Genmodelle lokalisiert war. Dies legt nahe, dass die anfängliche Annotation der Sojabohnen-Genomsequenz den Großteil der Transkriptionsaktivität erfasst hat. Durch die zusätzlichen Informationen über transkriptionell aktive Regionen soll die Verfeinerung der bestehenden Genmodelle und die Identifizierung neuer Genmodelle verbessert werden.

Bei einer Analyse der genspezifischen Expression in mehreren Geweben besteht eine der Herausforderungen darin, den großen dynamischen Bereich der Expressionszahlen zu überwinden, der durch die Sequenzierungstechnologie der nächsten Generation erzeugt wird, um Gene mit ähnlichen Gesamtexpressionsprofilen zu identifizieren. Die hier präsentierten Daten haben einen dynamischen Bereich für die Genexpression von mehr als sechs Größenordnungen. Obwohl ein Protokoll2-Transformation kann den Dynamikbereich erheblich reduzieren, eine hierarchische Clusterung auf log2-transformierte Daten [11, 16, 17] haben das Potenzial, Gene mit sehr ähnlichen Genexpressionsprofilen, aber mit signifikant niedrigerer oder höherer Genexpression in jedem Gewebe zu übersehen. Um alle Gene mit ähnlichen Genexpressionsprofilen zu identifizieren, wurde ein exakter Fisher-Test mit einer FDR-Korrektur von 0,05 für ein bestimmtes Gen an den Rohexpressionszahlen zwischen jedem Gewebe und jedem anderen Gewebe durchgeführt, was zu einer vollständigen Beschreibung der Veränderung der Genexpression führte. Da der Fisher's Exact-Test bei der Berechnung auf Gesamtzählungen normalisiert und der Vergleich zwischen Zählungen desselben Gens und damit gleicher Genlänge erfolgte, wurden die Rohzählungen (Prä-RPKM-Normalisierung) verwendet. Eine hierarchische Gruppierung der Genexpression basierend auf der Richtung der Änderung der Expression und ob sie die Nullhypothese verfehlt oder nicht, dass die Expressionsniveaus zwischen zwei Geweben gleich sind, identifiziert alle Gene mit ähnlichen Expressionsprofilen unabhängig von den Expressionsniveaus in jedem Gewebe.

Bei der Analyse der gewebespezifischen Genexpression (Abbildung 1) stellten wir fest, dass das allgemeine Muster der Genexpression in drei Gruppen unterteilt ist (Abbildung 1): Untergrund-, Samen- und Luftgewebe. Die Ähnlichkeit zwischen diesem Clustering mit RNA-Seq und dem Clustering von transkriptionell ähnlichen Geweben in Medicago [11] unter Verwendung der Affymetrix GeneChip-Technologie bestätigt dieses Ergebnis weiter. Die Gewebe in Sojabohne sind durch eng verwandte Pflanzenstrukturen gruppiert: Knötchen sind modifizierte Wurzelrindenzellen, jedes Samenstadium ist Teil der Samenentwicklung und Schoten, Schalen und Blüten sind modifizierte Blätter [41, 42]. Darüber hinaus ähneln die Entwicklungsstadien des Samens eher oberirdischen Geweben als unterirdischen Geweben, da Samen eher Hülsen als Wurzeln ähneln.

Obwohl die Ähnlichkeit des Expressionsprofils nicht notwendigerweise eine ähnliche Funktion impliziert, kann sie Einblick in koregulierte Netzwerke von Genen geben. Gencluster, die in bestimmten Geweben oder Entwicklungsstadien ähnlich exprimiert werden, können einen Hinweis auf die funktionelle Rolle der Gene ohne bekannte molekulare Funktion geben. In dem Bemühen, die Daten in überschaubare Teile zu unterteilen, identifizierten wir zunächst Gene, die signifikant in Samen über den anderen beiden Gewebegruppen exprimiert wurden: unterirdisch und in der Luft. Dann führten wir eine hierarchische Clustering-Analyse durch, um interessante Untergruppen von Genen mit ähnlichen Expressionsprofilen in der Samenentwicklung zu identifizieren. Viele der Herausforderungen bei der Darstellung und Interpretation eines Dendrogramms (Zusatzdatei 15) wurden durch die Kombination des Dendrogramms mit log . überwunden2-basierte Boxplots jedes Gewebes (Abbildung 6) ergaben drei Kladen. Clade 1, Clade 2-1 und Clade 2-2 enthalten Gene mit signifikanter Transkriptionssteigerung, hauptsächlich in frühen, späten und mittleren Samenentwicklungsstadien. Ein exakter Fisher-Test mit einer Bonferroni-Korrektur wurde an den GOslim-Kategorien für Gene der drei Kladen durchgeführt, um zu bestimmen, welche GOslim-Kategorien im Vergleich zu den GOslim-Kategorien für alle Gene im Genom überrepräsentiert waren. Die Klade der frühen Samenentwicklung war in der Beta-Glucuronidase-Aktivität, der Galactosyltransferase-Aktivität, den strukturellen Bestandteilen der Ribosomen und der Glutamat-Dehydrogenase-Aktivität überrepräsentiert. Die Klade der mittleren Samenentwicklung (2-2) war in der Leucocyanidinoxygenase-Aktivität überrepräsentiert, während die späte Samenentwicklungsklade in der Nährstoffreservoir-Aktivität überrepräsentiert war.

Da Samenprotein negativ mit Samenölgehalt und Ertrag korreliert [43], können Gene mit einer GOslim-Funktion der Nährstoffspeicheraktivität einen Einblick in den Samenfüllprozess geben. Um das Ausmaß der Clusterbildung für Gene mit Nährstoffspeicheraktivität in der späten Samenentwicklungsklade besser zu verstehen und ihre Beziehung zur Samenfüllung zu bestimmen, identifizierten wir alle Gene (143) in G. max. mit einer molekularen GOslim-Funktion, die der Aktivität des Nährstoffreservoirs entspricht (Zusatzdatei 18). Von diesen Genen sind 83 in unserem Datensatz transkriptionell aktiv, mit einer Gesamttranskriptionszahl von mehr als zwei in allen Geweben. Von diesen transkriptionell aktiven Genen finden sich 19 in vier Unterkladen der Klade der späten Samenentwicklung (Abbildung 6a: Zahlen in Quadraten). Zwölf der Gene mit Nährstoffreservoir-Aktivität finden sich in der Unterklasse 2-1:G (Abbildung 6b). Diese Gene werden mit einer RPKM-normalisierten Gesamttranskriptionszahl in allen Geweben im Bereich von 39 bis 62.401 Zahlen stark exprimiert. Darüber hinaus sind die in Klade 2-1 identifizierten Gene mit einer molekularen Goslim-Funktion der Nährstoffreservoir-Aktivität Teil des Samenfüllprozesses, da die meisten dieser Gene Funktionen haben, die auf der vorläufigen Konsensussequenz von Dana Farber [29, 44] basieren, die Glycinin . einschließt , Beta-Conglycinin und Saccharose-bindendes Protein (Zusatzdatei 19). Da die anderen Gene in der Gruppe der späten Samenentwicklung, die oben identifiziert wurde, ähnliche Expressionsprofile wie diese 19 Gene aufweisen, ist es wahrscheinlich, dass es andere Gene in der Gruppe der späten Samenentwicklung und insbesondere Gene in der Untergruppe 2-1:G gibt, die ähnliche oder komplementäre Rollen bei der Samenfüllung. Weitere Datenanalysen sind erforderlich, um aufzuklären, wie die anderen Gene in der späten Samenentwicklungsklade mit den GOslim-identifizierten Nährstoffreservoir-Genen zusammenhängen und wie Einblicke in den Samenfüllprozess die Qualität, den Gehalt und den Ertrag von Samenprotein verbessern werden. Dieser RNA-Seq-Atlas bietet einen Ausgangspunkt für eine solche Analyse.

Als letztes Beispiel, um die Leistungsfähigkeit der Kombination eines RNA-Seq-Atlas mit der genomischen Sequenz zu demonstrieren, betrachten wir die Sojabohnen-Lipoxygenase-Gene (LOXs) [45]. Lipoxygenase-Enzyme wirken auf mehrfach ungesättigte Fettsäuren ein, um mehrfach ungesättigte Fettsäurehydroperoxide zu bilden, die in Aldehyde und Alkohole umgewandelt werden können, was zu einer geringeren Geschmacksqualität in Sojabohnen führt [46, 47]. In Gamma-Bestrahlungsexperimenten wurden Null-Genotypen identifiziert, die die drei Lipoxygenase-Gene ausschalteten: LOX1, LOX2 und LOX3, die während der Samenentwicklung exprimiert wurden [48, 49]. LOX1 und LOX2 sind verknüpft und auf Chromosom 13 zu finden, während sich LOX3 auf Chromosom 15 befindet [45]. Die G. max. Seq-atlas bestätigt, dass von den 72 Lipoxygenase-Genen (Zusatzdatei 20), die im Sojabohnen-Genom identifiziert und mit einer GOslim-Molekülfunktion der Lipoxygenase-Aktivität (GO:0016165) bezeichnet wurden, nur 3 Gene während der Samenentwicklung hoch und signifikant exprimiert werden, basierend auf a Exakter Test nach Fisher mit einer FDR-Korrektur von 0,05 während der Samenentwicklung. Die Gene sind: Glyma13g42310, Glyma13g42320 und Glyma15g03030 (Abbildung 6: Zahlen in Kreisen). Die Seq-Atlas-Daten und die neueste Genom-Veröffentlichung unterstützen die enge Verknüpfung zwischen LOX1 und LOX2 auf Chromosom 13 – nur etwa 7000 Basenpaare trennen die beiden Gene. Obwohl die Identitäten dieser Lipoxygenase-Gene vor Kenntnis der Genomsequenz und des Zugangs zur Sequenzierung der nächsten Generation bestimmt wurden [50], ist es nicht schwer vorstellbar, wie der RNA-Seq-Atlas verwendet werden könnte, um die Effizienz wissenschaftlicher Entdeckungen zu steigern.


Methoden

Zellkultur

T47D A1–2-Zellen wurden wie zuvor beschrieben 34 kultiviert, durch STR-Profiling authentifiziert und negativ auf Mykoplasmen getestet. Für Dexamethason-Behandlungen wurden die Zellen zunächst 24 Stunden lang in serumreduzierten, hormongestrippten Medien (Phenolrot-freies MEM (Gibco 51200) mit 5 % Aktivkohle/Dextran-behandeltem FBS (Atlanta S11650), 1X Penicillin/Streptomycin (Sigma P0781 .)) kultiviert ), 1% HEPES (Sigma H0887), 1X Glutamax (Gibco 35050) und 250 ug/ml G418 (Gibco 10131)). Anschließend wurde Dexamethason (Sigma D4902) dem Medium bei 100 nM für alle Behandlungszeitpunkte zugesetzt und 9,5 × 10 –4 % Ethanol wurde als Vehikelkontrolle verwendet. Für beide RNAseq-Experimente wurden Kontrollzellen 18 h mit Ethanol behandelt.

RNA-Isolierung, cDNA-Synthese, QPCR und RNAseq

Qiagen RNeasy-Kits mit On-Column-DNase-Behandlung wurden gemäß den Anweisungen des Herstellers verwendet, um die Gesamt-RNA aus A1–2-Zellen in biologischer Dreifachbestimmung zu isolieren. Thermofisher SuperScript III wurde gemäß den Anweisungen des Herstellers mit Oligo (dT) verwendet, um komplementäre DNA (cDNA) aus 1 ng Gesamt-RNA zu synthetisieren. Für die QPCR wurde BioRad ssoAdvanced Universal SYBR Green Supermix verwendet. Vor der Bulk-RNAseq wurde die RNA-Qualität auf dem Agilent Bioanalyzer 2100 mit dem RNA 6000 RNA Pico Kit bestätigt. Die gesamten RNAseq-Bibliotheken wurden im NIEHS Epigenomics Core unter Verwendung von Ribo-Zero Gold generiert und auf dem Illumina NovaSeq 6000 mit über 140 Millionen Reads pro biologischem Replikat sequenziert. Bulk-RNAseq-Daten wurden wie zuvor beschrieben 16 verarbeitet.

Einzelzell-RNAseq

Um Einzelzellsuspensionen für scRNAseq herzustellen, wurden Zellen unter Verwendung von 0,25% Trypsin-EDTA (Gibco 25200) dissoziiert. Der BioRad ddSeq Single-Cell Isolator wurde verwendet, um Einzelzellemulsionen herzustellen und das Illumina SureCell WTA 3′ Library Prep Kit wurde verwendet, um Proben zu verarbeiten und scRNAseq-Bibliotheken zu generieren. Um so viele Gene wie möglich nachzuweisen, wurden Bibliotheken auf dem Illumina Novaseq 6000 in großer Tiefe sequenziert, um >200 Millionen Rohlesevorgänge für jede Bibliothek zu erhalten. Lesevorgänge wurden auf Zellen-Barcode und UMI-Informationen analysiert, wobei Lesevorgänge gemäß den folgenden Einschränkungen herausgefiltert wurden: nein. 6-Nukleotid-Barcode-Segment ist größer als ein Hamming-Abstand von 1 von einem gültigen Barcode-Block alle Linker-Segmente sind innerhalb von 1 Nukleotid Länge des erwarteten Wertes UMI hat eine Länge von 8 Nukleotiden und nur 1 Fehlpaarung ist innerhalb der flankierenden ACG-GAC-Segmente zulässig die UMI. Reads mit Zell-Barcode-Informationen, die diese Filter passierten, wurden dann unter Verwendung von STAR v2.5.2b 35 auf das hg19-Referenzgenom ausgerichtet und mit dem umfassenden Gencode-v28lift37 annotiert. Eindeutig kartierte Reads wurden anschließend mit featureCounts v1.5.3 den Genen zugeordnet 36 . PCR-Duplikate wurden mit umi_tools 37 im Per-Gen-Modus entfernt. Der Knee-Calling-Algorithmus von umi_tools wurde verwendet, um einen geeigneten Cutoff für die Gesamtzahl der Transkripte für die Zellen in jeder Probe zu identifizieren, was insgesamt 4001 Zellen ergab. Zellen mit einem Anteil an mitochondrialen Genen von >5% wurden entfernt und die Zellzahlen wurden zwischen den Zeitpunkten durch zufälliges Untersetzen jedes Zeitpunkts auf 400 Zellen ausgeglichen. Zyklon aus dem Scan-Paket 38,39 wurde verwendet, um die Zellzyklus-Scores für alle Zellen zu bestimmen, und Seurat v3 40 wurde dann verwendet, um die Daten zu normalisieren und zu skalieren, sodass die Auswirkungen der Transkriptzahlen, der Mitochondrien-Prozentwerte und der Zellzyklus-Scores waren rückgängig gemacht. Zur Datenvisualisierung wurden Seurat und ggplot2 41 verwendet.

Statistik und Reproduzierbarkeit

Bulk-RNAseq wurde unter Verwendung unabhängiger biologischer Triplikate von A1–2-Zellen zu jedem Zeitpunkt der Dex-Behandlung durchgeführt. Für scRNAseq wurde die Datenanalyse unter Verwendung eines zufällig heruntergesampelten Satzes von 400 A1–2-Zellen für jeden Zeitpunkt durchgeführt. Die statistische Analyse wurde in R mit Seurat für scRNAseq und mit Limma-Voom für Bulk-RNAseq durchgeführt. Drei biologische Replikate wurden für RT-QPCRs und ChIP-QPCRs verwendet, die in Abb. 2f, h und dargestellt sind P-Werte wurden in Excel mit einseitiger, heteroskedastic berechnet T-Tests. Die in Abb. 5 dargestellten Pearson-Korrelationen der Genexpression wurden in R.

Berichtszusammenfassung

Weitere Informationen zum Forschungsdesign finden Sie in der zu diesem Artikel verlinkten Nature Research Reporting Summary.


Ein Leitfaden für Anfänger zur Analyse von RNA-Sequenzierungsdaten

Seit den ersten Veröffentlichungen, die den Begriff prägten RNA-seq (RNA-Sequenzierung) im Jahr 2008 erschien, ist die Zahl der Veröffentlichungen mit RNA-seq-Daten exponentiell gewachsen und erreichte 2016 mit 2.808 Veröffentlichungen ein Allzeithoch (PubMed). Bei dieser Fülle von RNA-seq-Daten, die generiert werden, ist es eine Herausforderung, die maximale Bedeutung aus diesen Datensätzen zu extrahieren, und ohne die entsprechenden Fähigkeiten und den entsprechenden Hintergrund besteht die Gefahr einer Fehlinterpretation dieser Daten. Ein allgemeines Verständnis der Prinzipien, die jedem Schritt der RNA-Seq-Datenanalyse zugrunde liegen, ermöglicht es Forschern jedoch ohne Vorkenntnisse in Programmierung und Bioinformatik, ihre eigenen Datensätze sowie veröffentlichte Daten kritisch zu analysieren. Unser Ziel in diesem Review ist es, die Schritte einer typischen RNA-seq-Analyse aufzuschlüsseln und die Fallstricke und Kontrollpunkte auf dem Weg aufzuzeigen, die für Laborwissenschaftler und biomedizinische Forscher, die Experimente mit RNA-seq durchführen, von entscheidender Bedeutung sind.

Die RNA-Sequenzierung (RNA-seq) wurde erstmals 2008 eingeführt (1–4) und hat in den letzten zehn Jahren aufgrund der sinkenden Kosten und der Popularisierung von Sequenzierungskernen mit gemeinsam genutzten Ressourcen an vielen Forschungseinrichtungen immer mehr Verbreitung gefunden. Die zunehmende Popularität von RNA-seq hat zu einem schnell wachsenden Bedarf an Bioinformatik-Know-how und Rechenressourcen geführt. Damit Laborwissenschaftler große Datensätze korrekt analysieren und verarbeiten können, müssen sie die bioinformatischen Prinzipien und Einschränkungen verstehen, die mit dem komplexen Prozess der RNA-Seq-Analyse einhergehen. Obwohl die RNA-Seq-Analyse unglaublich leistungsstark sein kann und viele aufregende neue Erkenntnisse aufdecken kann, unterscheidet sie sich von den üblichen Analysebank-Wissenschaftlern dadurch, dass sie einen sehr großen Datensatz darstellt, der ohne umfassende Analyse nicht interpretiert werden kann.

Das Protokoll von RNA-seq beginnt mit der Umwandlung von RNA, entweder total, angereichert an mRNA oder abgereichert an rRNA, in cDNA. Nach Fragmentierung, Adapterligation und Indexligation wird jedes cDNA-Fragment anschließend mit einer Hochdurchsatzplattform sequenziert oder „gelesen“. Die gelesenen Rohdaten werden dann demultiplexiert, ausgerichtet und Genen zugeordnet, um eine Rohzähltabelle zu erstellen. An diesem Punkt werden die Daten oft an den Laborforscher übergeben, um seine eigene Analyse zu starten. Es besteht noch kein wirklicher Konsens über die am besten geeignete Pipeline für die RNA-seq-Datenverarbeitung, jedoch stehen zahlreiche halbautomatische Online-Tools wie BaseSpace (Illumina), MetaCore (Thomson Reuters) oder Bluebee (Lexogen) zur Verfügung. Obwohl diese Tools ohne die Hilfe eines Bioinformatikers Plots der Hauptkomponentenanalyse (PCA) erstellen, Heatmaps anzeigen und differenzielle Genexpressionsanalysen durchführen, ermöglichen sie es den Benutzern nicht, die Qualität ihrer Daten vollständig zu beurteilen und die Genauigkeit ihrer eigenen Analyse zu bestimmen , und passen Sie die Analyse an ihre biologische Fragestellung an, was zu einer Fehlinterpretation des Datensatzes führen kann. Es ist wichtig, dass die Ermittler verstehen, wie sie an ihren Datensatz herangehen, die Eigenschaften ihres Datensatzes schätzen und auf Schwachstellen in den Daten achten, die die Fähigkeit, Schlussfolgerungen zu ziehen, einschränken können. Darüber hinaus ist es zwingend erforderlich, dass jeder Datensatz analysiert wird de novo, in dem Sinne, dass Schwellenwerte und Methoden neu angepasst werden müssen, was mit generischen Online-Apps oder -Tools nicht erreicht werden kann.

Für die Zwecke dieses Methodenpapiers haben wir einen Beispieldatensatz aus einem Experiment innerhalb unserer Forschungsgruppe verwendet, in dem naive murine alveoläre Makrophagen mit denen verglichen wurden, die 2 und 24 Stunden nach der Reperfusion aus transplantierten Lungen isoliert wurden. Wir präsentieren unsere Analyse mit diesem Datensatz, um einen benutzerfreundlichen Ansatz für die RNA-Seq-Analyse für einen Laborwissenschaftler zu beschreiben.

Männlich Cx3cr1 gfp/+ Es wurden Mäuse auf einem C57BL/6-Hintergrund und Wildtyp-BALB/c-Mäuse im Alter von 12–14 Wochen verwendet. Alle Mäuse wurden in einer speziellen pathogenfreien Einrichtung untergebracht. Alle Reagenzien wurden vom Hersteller als endotoxinfrei zertifiziert. Alle Studien wurden in Übereinstimmung mit den Richtlinien des Animal Care and Use Committee der Northwestern University durchgeführt.

Transplantationen wurden zwischen allogenen fehlgepaarten Spender-Empfänger-Paaren durchgeführt, wie zuvor beschrieben (5). Insbesondere Spenderlungen von Cx3cr1 gfp/+ Mäuse wurden als Allotransplantate verwendet und in Wildtyp-BALB/c-Empfänger implantiert. Kurz gesagt, Spendermäuse wurden heparinisiert und antegrad durch die Pulmonalarterie gespült, die Trachea wurde ligiert, nachdem die Lungen rekrutiert wurden, und dann wurde der Herz-Lungen-Block geerntet und bei 4°C für einen Zeitraum von 2 Stunden kalter Ischämie gehalten. Anastomosen für die einzelne linke Lungentransplantation wurden unter Verwendung der Manschettentechnik durch eine linke Thorakotomie durchgeführt, die Lunge wurde reperfundiert und rekrutiert und dann wurde die Thorakotomie schichtweise verschlossen. Mäuse wurden vom Beatmungsgerät entwöhnt und während der Genesung extubiert, sobald sie gehfähig waren. Zu bestimmten Zeitpunkten nach der Reperfusion wurden die Empfängermäuse getötet und das Lungenallotransplantat wurde geerntet.

Lungen wurden für Einzelzellsuspensionen wie zuvor beschrieben verarbeitet (5). Kurz gesagt wurde der rechte Ventrikel mit 10 ml eiskalter Hanks-Balance-Salzlösung gespült, dann wurden die Lungen mit einer Gewebeverdauungsmischung, die Kollagenase D (Roche) und DNase I (Roche) enthielt, infiltriert. Es wurde eine Kombination aus mechanischer Dissoziation unter Verwendung des GentleMACS (Miltenyi Biotec) und enzymatischer Verdauung bei 37 °C für 30 Minuten durchgeführt. Die Proben wurden dann vor der Antikörperfärbung mit CD45-Mikrokügelchen (Miltenyi Biotec) und dem AutoMACS-System (Miltenyi Biotec) angereichert.

Sehen Tabelle E1 in der Datenergänzung für Antikörper und Verdünnungen zur Färbung von Einzelzellsuspensionen und Abbildung E1 für die Gating-Strategie zur Sortierung von Alveolarmakrophagen. Die Zellen wurden in magnetisch aktivierten Zellsortierungspuffer bei 4 °C unter Verwendung eines BD FACSAria II SORP-Vierlaser-Durchflusszytometers (BD Biosciences) sortiert.

Frisch sortierte Zellen wurden sofort pelletiert, in 100 μl PicoPure Extraktionspuffer (Thermo Fisher Scientific) resuspendiert und dann bei –80°C gelagert. Die RNA-Isolierung wurde mit dem PicoPure RNA-Isolierungskit (Thermo Fisher Scientific) durchgeführt, und Proben mit hochwertiger RNA (RNA-Integritätszahl, >7,0), gemessen mit der 4200 TapeStation (Agilent Technologies), wurden für die Bibliotheksvorbereitung verwendet. Die mRNA wurde aus der Gesamt-RNA unter Verwendung von NEBNext Poly(A)-mRNA-Magnetisolationskits (New England BioLabs) erhalten, und cDNA-Bibliotheken wurden anschließend unter Verwendung des NEBNext Ultra DNA Library Prep Kit für Illumina (New England BioLabs) hergestellt. Bibliotheken wurden auf einer NextSeq 500-Plattform unter Verwendung eines 75-Zyklus-Single-End-High-Output-Sequenzierungskits (Illumina) sequenziert. Die Sequenzierung ergab Bibliotheken mit einer durchschnittlichen Größe von 8 Millionen Reads nach dem Alignment. Die RNA-Seq-Analyse basierte auf eindeutig ausgerichteten Reads.

Reads wurden demultiplexiert (bcl2fastq), und fastq-Dateien wurden auf das mm10-Maus-Genom (TopHat2 [6]) ausgerichtet und unter Verwendung der Ensembl-Genannotation auf Gene (HTSeq [7]) kartiert. Paarweise Vergleiche zwischen den verschiedenen Bedingungen wurden unter Verwendung eines negativen binomialen generalisierten log-linearen Modells durch die glmLRT-Anpassungsfunktion in edgeR durchgeführt (8, 9).

Die in diesem Artikel berichteten RNA-Seq-Daten wurden im Gene Expression Omnibus (GEO) des NCBI hinterlegt und sind über die Zugangsnummer GSE116583 der GEO-Serie zugänglich.

Ein wesentliches Ziel der RNA-Seq-Analyse ist es, differentiell exprimierte und koregulierte Gene zu identifizieren und daraus eine biologische Bedeutung für weitere Studien abzuleiten. Ausgangsmaterial können Zellen sein, die kultiviert werden in vitro, Ganzgewebehomogenate oder sortierte Zellen. Die Fähigkeit, Ergebnisse zu interpretieren, hängt von einem geeigneten experimentellen Design, der Implementierung von Kontrollen und einer korrekten Analyse ab. Es sollten alle Anstrengungen unternommen werden, um den Batch-Effekt zu minimieren, da kleine und unkontrollierte Veränderungen in einer Umgebung zur Identifizierung von differentiell exprimierten Genen (DEGs) führen können, die nicht mit dem entworfenen Experiment zusammenhängen. Ursachen für Batch-Effekte können während des Experiments, während der Vorbereitung der RNA-Bibliothek oder während des Sequenzierungslaufs auftreten und umfassen, sind aber nicht beschränkt auf die in Tabelle 1 aufgeführten Der Datensatz ermöglicht eine Qualitätskontrolle, gefolgt von einer unvoreingenommenen Analyse der Daten. In der vorliegenden Analyse verwenden wir einen Ansatz, der das Einstellen von Low-Count-Filtern, das Festlegen eines Rauschschwellenwerts, das Prüfen auf potenzielle Ausreißer, die Durchführung geeigneter statistischer Tests zur Identifizierung von DEGs, das Clustern von Genen nach Expressionsmustern und das Testen auf Genontologie (GO)-Anreicherung umfasst . Für jede dieser Analysekomponenten möchten wir wichtige Kontrollpunkte und Qualitätskontrollen hervorheben, die die Datenanalyse rationalisieren und stärken, Verzerrungen vermeiden und es den Ermittlern ermöglichen, ihre Datensätze maximal zu nutzen.

Tabelle 1. Ursachen von Batch-Effekten und vorgeschlagene Strategien zu deren Abschwächung

Für dieses Tutorial verwenden wir einen Datensatz, der drei Gruppen von alveolären Makrophagen umfasst, die in einem Mausmodell der Lungentransplantation während der ersten 24 Stunden der Reperfusion untersucht wurden. Dieser Ansatz (von dem wir keinen Anspruch auf Originalität erheben und den Leser auf eine ausgezeichnete Übersicht von Conesa und Kollegen [10] verweisen, die die wichtigsten Schritte der RNA-Seq-Datenanalyse skizziert) ermöglicht es dem Prüfer, die Daten auf unvoreingenommene Weise und in unvoreingenommener Weise zu untersuchen Bemühungen, Transkriptionssignaturen zu identifizieren und weitere nachgelagerte Analysen zu ermöglichen.

Bei der Bewertung der Variabilität innerhalb des Datensatzes ist es vorzuziehen, dass die Variabilität zwischen den Gruppen, die Unterschiede zwischen experimentellen Bedingungen im Vergleich zu Kontrollbedingungen darstellt, größer ist als die Variabilität innerhalb der Gruppe, die die technische oder biologische Variabilität darstellt. Ein globaler Überblick über die Daten ermöglicht die Charakterisierung der Variation zwischen den Replikaten und ob die vom Prüfer definierten experimentellen Gruppen tatsächliche Unterschiede zwischen den Gruppen aufweisen (eine Gruppe ist eine Gruppe von Replikaten derselben Bedingung oder des gleichen Zelltyps). Eine Möglichkeit, die Variation in einem Datensatz zu visualisieren, ist die PCA (11). PCA nimmt einen großen Datensatz als Eingabe und reduziert die Anzahl der Gen-„Dimensionen“ auf einen minimalen Satz von linear transformierten Dimensionen, die die Gesamtvariation des Datensatzes widerspiegeln. Die Ergebnisse werden üblicherweise als zweidimensionales Diagramm dargestellt, in dem die Daten entlang von Achsen visualisiert werden, die die Variation innerhalb des Datensatzes beschreiben, bekannt als Hauptkomponenten (Stck). PC1 beschreibt die größte Variation innerhalb der Daten, PC2 die zweithäufigste und so weiter. Die von jedem PC dargestellte Variation kann als Prozentsatz der Gesamtvarianz berechnet und durch einen Scree-Plot visualisiert werden. Wenn die ersten beiden PCs nicht den Großteil der Varianz erfassen, kann es hilfreich sein, zusätzliche zweidimensionale PCA-Plots zu erstellen, die andere PCs anzeigen. Auf diese Weise kann ein PCA-Plot helfen, die Gruppierung zwischen Replikaten zu visualisieren und technische oder biologische Ausreißer zu identifizieren.

Ein anderer Ansatz zur Bestimmung der Variabilität zwischen und innerhalb von Gruppen besteht darin, die Distanz zu berechnen, die durch die Korrelation zwischen den Stichproben dargestellt wird. Zwei häufig verwendete Korrelationsmaße sind der Pearson-Koeffizient und der Spearman-Rangkorrelationskoeffizient (12–14), die die Richtung und Stärke der Beziehung zwischen zwei Variablen beschreiben. Die Korrelation nach Pearson spiegelt die lineare Beziehung zwischen zwei Variablen wider, die Unterschiede in ihrem Mittelwert und der Standardabweichung berücksichtigen, während die Rangkorrelation nach Spearman ein nichtparametrisches Maß ist, das die Rangwerte der beiden Variablen verwendet. Je ähnlicher die Expressionsprofile für alle Transkripte zwischen zwei Proben sind, desto höher ist der Korrelationskoeffizient. Diese Korrelationskoeffizienten werden zwischen allen Proben berechnet und können entweder als Tabelle oder als Heatmap visualisiert werden, sodass der Untersucher beurteilen kann, ob Replikate (technisch oder biologisch) zusammen gruppieren. Neben der Bewertung der Variabilität können sowohl die PCA- als auch die Stichprobenkorrelationsanalyse helfen, Ausreißer zu identifizieren, die in vorgelagerten Schritten wie dem Alignment nicht ausgeschlossen wurden. Beispielsweise kann eine Probe, die gut ausgerichtet ist und eine gute Lesetiefe aufweist, bis zu diesem Schritt der Pipeline gelangen, eine PCA- oder Korrelationsanalyse kann diese Bibliothek jedoch als falsch markierte oder kontaminierte Probe identifizieren, wodurch der Ausreißer innerhalb einer anderen Gruppe gruppiert wird. Es ist auch möglich, dass eine korrekt markierte Probe als biologischer Ausreißer herausfällt, beispielsweise wenn sie von einem Tier stammt, von dem angenommen wird, dass es eine Herausforderung erhalten hat, aber keine Symptome zeigte. Zusammenfassend bieten diese Analysen einen globalen Überblick über alle Proben, ermöglichen die Bestimmung von Ausreißern und präsentieren die Daten in einem leicht verständlichen Format für den Untersucher und den Leser.

Unter Verwendung unseres alveolären Makrophagen-Datensatzes zeigen wir einen PCA-Plot und eine Heatmap von Pearsons Korrelation über alveoläre Makrophagenproben: Probengruppen naiv, Transplantation 2 Stunden nach Reperfusion und Transplantation 24 Stunden nach Reperfusion (Abbildung 1A). Sowohl der PCA-Plot als auch die Korrelations-Heatmap nach Pearson wurden unter Verwendung von normalisierten Reads pro Kilobasen Transkript pro 1 Million Mapped Reads (RPKM)-Zählungen erstellt (sehen Feld "N ormalisierte Zählungen"). Die PCA zeigte die erwartete Gruppierung zwischen Replikaten innerhalb der Proben und Probengruppen, die über die beiden PCs verteilt waren. PC1 macht 68,1 % der Varianz aus und PC2 macht weitere 20,3 % aus. Der Screeplot (Abbildung E2) bestätigte, dass der Großteil der Varianz innerhalb des Datensatzes von den ersten beiden PCs beschrieben wurde. Obwohl das PCA-Diagramm die Variabilität zwischen den Gruppen betont, bietet die Korrelationsanalyse nach Pearson ( Abbildung 1B ) einen Überblick über alle Variationen zwischen den Stichproben mit einem Korrelationswert von R > 0,9 (Tabelle 2), im Einklang mit jeder Gruppe, die zum gleichen Zelltyp gehört.

Abbildung 1. Bewertung der Variabilität zwischen und innerhalb der Gruppe. (EIN) Hauptkomponentenanalyse-Plot (PC) mit allen 12 Proben entlang PC1 und PC2, die 68,1% bzw. 20,3% der Variabilität innerhalb des Expressionsdatensatzes beschreiben. Die PC-Analyse wurde auf normalisierte (Reads pro Kilobasen Transkript pro 1 Million abgebildete Reads) und log-transformierte Zähldaten angewendet. (B) Korrelationsdiagramm nach Pearson, das die Korrelation visualisiert (R) Werte zwischen den Proben. Der Maßstabsbalken repräsentiert den Bereich der Korrelationskoeffizienten (R) angezeigt.


Schritt 6. Berechnen Sie einen Zellzyklus-Score für jede Zelle

Dies kann verwendet werden, um zu bestimmen, ob Heterogenität in der Zellzyklusphase das tSNE/UMAP-Layout und/oder die Clusterbildung antreibt. Dies kann je nach Ihren Analysezielen und der Art der Daten das Signal, das Ihnen wichtig ist, verdecken oder nicht. (Bei Bedarf kann es in einem späteren Schritt entfernt werden.) Es ist auch nützlich, um festzustellen, ob bestimmte Zellpopulationen proliferativer sind als andere. Die Liste der Zellzyklusgene und das Bewertungsverfahren wurden von Tirosh I, et al. (2016).


Hintergrund

Die Genomanalyse einzelner Zellen hat es ermöglicht, die zelluläre Heterogenität zu verstehen [1]. Fortschritte in der Einzelzell-Genomforschung haben auch beispiellose Möglichkeiten in der biomedizinischen Forschung eröffnet, wo es wichtig ist, verschiedene Zelltypen zu identifizieren, die für Alterung und zelluläre Malignität relevant sind. Derzeit ist die vollständige Eliminierung von Krebs durch molekular zielgerichtete Therapien für viele bösartige Erkrankungen noch ein fernes Ziel. Daher bietet die Untersuchung seltener therapieresistenter Krebsstammzellen und die Untersuchung der intratumoralen Heterogenität mit unterschiedlichen Arzneimittelreaktionen in unterschiedlichen Zellsubpopulationen eine Grundlage, um dieses Ziel zu erreichen [2]. In den letzten 5 Jahren Einzelzellstudien, die auf den Umfang und die Präzision der genomweiten Profilierung von DNA [3], RNA [4], Protein [5], Epigenetik [6], Chromatinzugänglichkeit [7] und . abzielten andere molekulare Ereignisse [8] haben Zehntausende von Zellen für die massiv parallele Einzelzell-RNA-Sequenzierung [9] und Millionen von Zellen für massenzytometrische Signaturproteinmessungen erreicht [10]. Neuere und bessere Methoden zur Durchführung von Einzelzellanalysen können die Heterogenität der Zellpopulation, einschließlich der heterogenen Natur von Krebs, erfassen und die Entdeckung der zugrunde liegenden molekularen Mechanismen erleichtern.

Obwohl die Datenanalyse der Einzelzell-RNA-Sequenzierung (scRNA-seq) uns die Möglichkeit bietet, die Heterogenität von Zellen und den Genen zu untersuchen, die unter biologischen Bedingungen unterschiedlich exprimiert werden, ist die Durchführung der Analyse ein anspruchsvoller Prozess. Mit der schnellen Zunahme der scRNA-seq-Daten müssen Computermethoden Herausforderungen meistern, die vom Umgang mit technischem Rauschen über die Konstruktion und Charakterisierung von Zellidentitäten bis hin zur Zellstammbaumanalyse durch Berechnung hochdimensionaler dünn besetzter Matrizen reichen. Daher sind innovative, effiziente, robuste und skalierbare computergestützte Analysemethoden für diese neue Grenze unerlässlich.

Derzeit liegt das Haupthindernis bei der Analyse von scRNA-seq-Daten in der geringen Einfangeffizienz und der stochastischen Genexpression, die Gen-Dropout-Ereignisse in genomweiten scRNA-seq-Daten erhöht. Wir bezeichnen diese Dropout-Ereignisse als die fehlenden Datenereignisse von Einzelzelldaten. Frühere Studien weisen darauf hin, dass die Gesamtfehlraten in einigen Einzelzelldaten durchweg hoch sind. Beispielsweise kann in einer Mausembryozelle die fehlende Rate sogar nach Rauschunterdrückung fast 30 % erreichen [11] Bei einem hohen Anteil an fehlenden Daten kann das direkte Löschen der fehlenden Daten zu einem Verlust wertvoller Informationen führen [12] . Um eine bessere Trennung verschiedener Zelltypen zu erzielen und neue biologisch bedeutsame Subpopulationen aufzudecken, haben mehrere Veröffentlichungen die fehlenden Daten als zensierte Daten und falsch negative Fehler berichtet [13,14,15]. Alle diese Methoden gehen von der Verteilung der fehlenden Daten aus, jedoch ist die Ableitung adäquater Wahrscheinlichkeitsverteilungen ein schwieriges Problem [12]. Im Jahr 2016 haben Regev et al. stellten fest, dass fehlende Daten (falsche negative), falsch positive und Datenknappheit die Schätzungen der Zellheterogenität stark beeinflussen können, sodass neue Methoden sowie die effektive Anpassung bestehender Algorithmen erforderlich sind [1]. Darüber hinaus wird bei der traditionellen Imputation fehlender Daten, wie der nutzerbasierten und itembasierten gemeinsamen Filterung, häufig davon ausgegangen, dass die fehlenden Positionen in der Matrix bereits bekannt sind [16]. Dennoch gibt es noch immer wichtige Fragen zu scRNA-seq-Expressionsmatrizen, die beantwortet werden müssen. Ohne die fehlenden Positionsinformationen können die oben genannten Datenimputationsverfahren nicht verwendet werden.

Um die Schlüsselprobleme bei der Imputation von fehlenden Werten zu lösen, haben wir ein neues Modell mit einer datengesteuerten maschinellen Lernmethode vorgeschlagen, nämlich die fehlende Imputation auf Einzelzell-RNA-Seq (MISC). Das MISC wurde entwickelt, um drei Probleme anzugehen: Wo sind die fehlenden Daten? Wie viele Daten fehlen? und was sind ihre Werte?. Seine Initiierung beinhaltet die Modellierung des Problems, um die Imputation fehlender Daten in zwei maschinelle Lernprobleme zur Erkennung und Imputation der fehlenden Datenereignisse umzuwandeln. Dann haben wir ein Modell vorgeschlagen, das auf Klassifikations- und Regressionsmethoden basiert, um die oben genannten Probleme zu lösen. Schließlich haben wir die fehlende Imputationsmethode an zwei realen Datensätzen für Studien zur Zelldifferenzierung und Zelltyperkennung ausgewertet.


Ergebnisse

Transkriptom-Sequenzierung und de-novo Montage

Normalisierte cDNA-Bibliothek, hergestellt aus der Gesamt-RNA von R. coreanus Miquel-Frucht (20 DAF) wurde einem Pair-End-Read mit der Illumina-Plattform unterzogen. Nach der Entfernung von Adaptersequenzen, mehrdeutigen Reads und minderwertigen Reads (Q20㰠) wurden 54,08 Millionen Reads mit insgesamt 4.867.515.000 Nukleotiden (Ϥ.86 Gb) für den Zusammenbau erhalten (Tabelle 1). Das Trinity-Programm [32] wurde verwendet, um alle qualitativ hochwertigen Reads zu insgesamt 44.619 Contigs mit einer durchschnittlichen Länge von 755 bp zusammenzusetzen, wobei die Hälfte der gesamten Assemblylänge in Contigs ϡ.1 kb (N50 =&# x0200a1,155 bp). 23.393 Contigs (46,57% der Contigs) waren mindestens 500 bp lang und 22,97% der Contigs waren länger als 1.000 bp (Abbildung S2A). Die Contigs wurden dann zu 43.723 Unigenen mit einer durchschnittlichen Länge von 754 bp und einer N50 von 1.153 bp unter Verwendung des TIGR-Genindizes-Clustering-Tools verbunden (Tabelle 1). Die Unigenes-Verteilung folgte eng der Contigs-Verteilung (Abbildung S2B). Die Sequenzerhaltungs- und Ähnlichkeitsanalyse ist sehr nützlich, um Wissen von Modellpflanzen auf Nicht-Modellpflanzen zu übertragen [38]. Der Transkriptsatz von KB wurde auf Ähnlichkeit mit den Proteomdatensätzen für 12 Pflanzen analysiert, einschließlich Arabidopsis, Reis, Gurke und Traube mithilfe der BLASTX-Suche (E-Wert-Grenzwert von �-05). Wie in Abbildung 1 gezeigt, zeigte KB-Transkriptom 68,9 % Ähnlichkeit mit Erdbeere (Fragaria umgekehrt) gefolgt von 65% mit Weinrebe (Vitis vinifera). Wie vorhergesagt, zeigte eine geringere Anzahl von KB-Transkripten Ähnlichkeit mit monokotylen Proteomen (53,7-56%) im Vergleich zu dikotylen (59,4�,9%). Die phylogenetische Baumanalyse der bekannten Rosengewächse Familienmitgliedern basierend auf DNA-Sequenzdaten von Kern- und Chloroplasten-Genomregionen hat vorgeschlagen, dass Fragaria und Rubus sind Mitglieder der Unterfamilie Rosoideae, die die gleiche basale Chromosomenzahl von x =𠂧 haben [1], [39]. Somit deutet die signifikante Homologie zwischen Erdbeerproteinen und KB-Transkriptom auf eine evolutionäre Beziehung zwischen ihnen hin, und sie könnten auch konservierte Funktionen haben.

Die KB-Transkripte (Abdeckung�%) wurden gegen Proteomsequenzen unter Verwendung des BLASTX-Programms zur Analyse der Sequenzähnlichkeit durchsucht. Der Prozentsatz der Transkripte, die eine signifikante Ähnlichkeit (E-Wert㰐 𢄥 ) in der BLASTx-Suche aufweisen, wird durch ein Balkendiagramm dargestellt.

Tabelle 1

Koreanische schwarze Himbeere
Gesamtzahl der Lesevorgänge54,083,500
Gesamtnukleotide (nt)4,867,515,000
GC-Prozentsatz47.61
Q20-Prozentsatz96.11
Schrittweise Montage
Dreieinigkeit
 Gesamtzahl der Dreieinigkeit44,619
 Länge aller Dreieinigkeit (nt)33,708,690
𠀽urchschnittliche Sequenzgröße der Trinität (nt)755
 Trinity N50 (nt)1,155
Unigene
 Gesamtzahl der Unigenes43,723
 Länge aller Unigenes (nt)32,956,464
𠀽urchschnittliche Sequenzgröße von Unigenen (nt)754
ȃUnigenes N50 (nt)1,153

Funktionale Annotation des Transkriptoms der koreanischen schwarzen Himbeere

Für die Annotation von assemblierten Unigenen wurden verschiedene Gensequenzen unter Verwendung von BLASTX gegen die nicht redundante (NR) NCBI-Datenbank mit einem Cut-off-E-Wert von 10 𢄥 durchsucht. Von allen 43.723 KB-Unigenen hatten 29.955 (68,51% aller Unigene) BLAST-Treffer auf bekannte Proteine ​​in der NR-Datenbank (Tabellen 2 und S2). Darüber hinaus wurden alle Unigene mit der öffentlichen Proteindatenbank einschließlich Swiss-Prot, Kyoto Encyclopedia of Genes and Genomes (KEGG), Cluster of Orthologous Groups (COG) und Genontologie (GO) von BLASTX abgeglichen (Cut-off-E-Wert von 10 𢄥 ). Wie in Tabelle 2 zusammengefasst, wurden insgesamt 30.178 Unigene (69,02 %) auf diese Weise annotiert, während der Rest aufgrund der Sequenzkontamination und Einschränkung der Genom- und EST-Informationen nicht mit bekannten Genen abgeglichen werden konnte Rubus. Die Kontamination menschlicher, bakterieller und viraler Sequenzen wurde mit der webbasierten Version von DeconSeq (http://deconseq.sourceforge.net/) [40] mit einer Abfrageabdeckung und einem Schwellenwert für die Sequenzidentität von 90 % untersucht. Unter den KB-Sequenzierungslesevorgängen fanden wir eine geringe Kontamination (etwa 1,11% der Gesamtlesevorgänge), was darauf hindeutet, dass die meisten Unigene, die nicht mit bekannten Genen übereinstimmten, spezifische Gene für sein könnten Rubus Gattung und Rosengewächse Familie.

Tabelle 2

Öffentliche ProteindatenbankAnzahl der Unigene-TrefferProzentsatz
NR29,95568.51
KEGG15,97736.54
ZAHN10,48023.97
Swiss-Prot21,96450.23
GEHEN11,25325.74
Gesamt30,17869.02

Bei der genfunktionellen Klassifikation wurden insgesamt 11.253 (25,74 %) Unigene mit mindestens einem GO-Term versehen. Interessanterweise wurden 18.989 Unigene mindestens einem GO-Term in der biologischen Kategorie zugeordnet, 21.786 Unigene in der Kategorie der zellulären Komponenten und 11.193 Unigene in der Kategorie der molekularen Funktionen (Abbildung S3). Um die Vollständigkeit der KB-Transkriptombibliothek weiter zu bewerten, wurden die zusammengesetzten Unigene gegen COG durchsucht. Von 29.955 NR-Treffern wurden 10.480 der zusammengestellten Sequenzen der COG-Klassifikation zugeordnet (Tabelle 2).Unter den 25 funktionellen Kategorien sind die fünf Hauptkategorien mit maximaler Unigen-Abdeckung wie folgt: “Nur allgemeine Funktionsvorhersage” (3.437 Unigene) in Verbindung mit grundlegenden physiologischen und metabolischen Funktionen, “Transkription” (2.013 Unigene), “Replikation, Rekombination und Reparatur” (1.780 Unigene), “Posttranslationale Modifikation, Proteinumsatz, Chaperone” (1.525 Unigene) und “Signaltransduktionsmechanismen” (1.381 Unigene), während nur wenige Unigene den 𠇎xtrazellulären Strukturen zugeordnet wurden. x0201d und “ Kernstruktur” (Abbildung S4). Darüber hinaus wurden 534 Unigene in die Gruppe der “Sekundärmetaboliten Biosynthese, Transport und Katabolismus” eingeordnet. Zusammengenommen legen diese Ergebnisse nahe, dass die de-novo assemblierte Unigene von KB haben eine breite Transkriptomabdeckung und stellen eine wertvolle Ressource dar, um die Entdeckung neuer Gene zu erleichtern, die an den spezifischen physiologischen und Entwicklungsprozessen beteiligt sind.

Metabolitenprofilierung von koreanischen schwarzen Himbeerfrüchten in verschiedenen Reifestadien

Massenspektrometrie-basiertes Metaboliten-Profiling von KB in drei Reifestadien, 15 Tage nach der Blüte (DPA) (Stufe 1, häufig in der traditionellen Kräutermedizin verwendet), 20 DPA (Stufe 2) und 25 DPA (Stufe 3, verwendet als frisches Obst und für .) Verarbeitung) wurde durchgeführt, um die Veränderungen der metabolischen Zusammensetzung zu untersuchen (Tabelle S3 und S4). Um die Mustererkennung der metabolischen Unterschiede in KB-Proben gemäß den verschiedenen Reifungsstadien zu unterstützen, wurden die Datensätze durch die Hauptkomponentenanalyse (PCA) und die Partial-Least-Square-Diskriminanzanalyse (PLS-DA) statistisch analysiert. Wie in 2 gezeigt, weisen die PLS-DA-Score-Plots aus beiden Datensätzen auf ein unterschiedliches Metabolitenprofil zwischen Proben hin, die in verschiedenen Stadien geerntet wurden. Ähnliche Muster wurden in der PCA gezeigt (Abbildung S5). In der GC-IT-MS-Analyse wurden Früchte der Stufe 1 (positive PLS1-Dimension) entlang PLS1 (21,0 %) deutlich von Stufe 3 (negative PLS1-Dimension) getrennt, während Früchte der Stufe 2 entlang PLS2 (12,9 %) von Stufe 1 und 3 getrennt wurden. ), (Abbildung 2A). Insgesamt wurden fünfzehn Metaboliten als Differenzvariablen unter Verwendung des VIP-Werts (Variable Bedeutung in der Projektion) (VIPϠ.7) und . ausgewählt P Wert (Pπ.05) aus dem PLS-DA-Datensatz (Tabelle 3). Es wurde festgestellt, dass primäre Metaboliten, einschließlich organischer Säuren, Zucker, Fettsäuren und Aminosäuren, die Clusterbildung von GC-IT-MS-Profilen beeinflussen. Die Heatmap repräsentiert die unterschiedliche Verteilung von Metaboliten während der Reifung von Früchten (Abbildung 3). Im Vergleich zur Fruchtexpansion ist der Fortschritt der Fruchtreife durch eine Abnahme von Saccharose, organischen Säuren und GABA gekennzeichnet [41]. In ähnlicher Weise zeigte unser Befund die Abnahme von Saccharose, den meisten Aminosäuren, organischen Säuren und Fettsäuren, während die relative Konzentration von Fructose und Glucose während der Fruchtreifung zunahm, was darauf hindeutet, dass KB während der Fruchtreife größere Veränderungen im Kohlenstoff-Stickstoff-Stoffwechsel durchmachte.

Die mit GC-IT-MS (A) und UPLC-Q-TOF-MS (B) erhaltenen Datensätze wurden mit PLS-DA analysiert.

23 Metaboliten, die während des Reifeprozesses statistisch signifikante Veränderungen zeigen (VIPϠ.7 und Pπ.05) wurden durch Heatmap dargestellt, wobei die relativen Intensitäten durch die Hitzeskala angegeben wurden.

Tisch 3

Nein.RT (min) 1 VIP-WertIdentifiziertes Ion (m/z) 2 Mutmaßliche Metaboliten 3 Derivatisiert 4 P-WertID 5
14.411.21147Oxalsäure(TMS)20.005Geschlechtskrankheiten
26.081.15299Phosphorsäure(TMS)30.003Geschlechtskrankheiten
38.911.09147Äpfelsäure(TMS)30.021Geschlechtskrankheiten
49.320.95147, 232L-Asparaginsäure(TMS)30.023Geschlechtskrankheiten
59.421.33156Pyroglutaminsäure(TMS)20.005Geschlechtskrankheiten
69.461.17174γ-Aminobuttersäure (GABA)(TMS)30.002Geschlechtskrankheiten
712.661.46273Zitronensäure(TMS)40.005Geschlechtskrankheiten
813.161.33217D-FruktoseMeOX (TMS)50.034Geschlechtskrankheiten
913.421.70148, 217D-GlukoseMeOX (TMS)50.000Geschlechtskrankheit
1014.061.24281Gallussäure(TMS)40.000Geschlechtskrankheit
1115.021.07313PalmitinsäureTMS0.013Geschlechtskrankheiten
1216.571.49339ÖlsäureTMS0.001Geschlechtskrankheit
1316.781.63117,341StearinsäureTMS0.000Geschlechtskrankheit
1419.721.16361Saccharose(TMS)80.004Geschlechtskrankheiten
1523.651.44237α-TocopherolTMS0.000Geschlechtskrankheiten

Das resultierende Score-Plot aus PLS-DA der UPLC-Q-TOF-MS-Analyse zeigte, dass Früchte aus verschiedenen Reifestadien durch die Kombination von PLS1 (27,4%) und PLS2 (10,3%) klar unterschieden wurden (Abbildung 2B). Acht von Flavonoiden abgeleitete sekundäre Metaboliten, einschließlich Flavanole, Flavonole, Proanthocyanidine und Anthocyane, waren signifikante Metaboliten für die relative Analyse unter drei Reifestadien von Früchten (Tabelle 4). Die Menge an Flavanolen (Catechin und Epicatechin) und B-Typ-Proanthocyanidin-Dimeren wurde verringert, während Flavonole (Quercetin 3-Ö-Rutinosid und Quercetin-Glucuronid) und Anthocyane (Cyanidin 3-Ö-Xylosylrutinosid und Cyanidin 3-Ö-Rutinosid) wurden während des Reifeprozesses erhöht ( 3 ). Insbesondere wurde festgestellt, dass das Hauptanthocyan in der reifenden KB Cyanidin-Derivate sind, die in dunkelroten Früchten stark akkumuliert wurden (Stadium 3).

Tabelle 4

UPLC-Q-TOF-MSLC-IT-MS/MS
Nein.RT 1 VIP-WertExperimentelle Masse [M-H]−FormelΔppm[M-H] − [M+H] +MS n Fragmentionen (m/z)UV(nm)Vorläufig Metaboliten 2 P-WertID 3
13.061.71725.1926C32h37Ö19𢄠.4725727727𾊇𾈓276, 519Cyanidin 3-O-xylosylrutinosid0.000DB
23.131.72593.1504C27h29Ö15𢄠.3593595595𾊇𾈓278, 518Cyanidin 3-O-rutinosid0.000Geschlechtskrankheiten
33.161.67577.1336C30h25Ö12𢄡.7577579577𾊉𾆈248, 314Proanthocyanidin B1 Dimer0.000DB
43.281.60289.0712C15h13Ö60.0289291291𾄣274, 306Katechin0.000Geschlechtskrankheiten
53.381.62577.1348C30h25Ö120.3577579577𾊉𾆈242, 301Proanthocyanidin B2 Dimer0.000DB
63.571.32289.0711C15h14Ö6𢄠.3289291291𾄣272, 300Epicatechin0.000Geschlechtskrankheiten
73.901.65609.1461C27h29Ö160.8609611609𾌁𾅑275, 351Quercetin 3-O-rutinosid0.000Geschlechtskrankheit
84.180.95477.0679C21h17Ö132.1477479477𾌁𾅹269,358Quercetin-Glucuronid0.002DB

Identifizierung von Kandidatenenzymen, die an der Anthocyan-Biosynthese beteiligt sind

Die Akkumulation von Cyanidin-Derivaten während des Reifungsprozesses veranlasste uns zu untersuchen, ob dieses Phänomen durch eine veränderte Expression von Flavonoid-Stoffwechselweg-Genen vermittelt wird. Der detaillierte Biosyntheseweg von Anthocyanen ist in Abbildung 4A dargestellt [42]. Der Biosyntheseweg von Anthocyanen wird normalerweise in zwei Abschnitte unterteilt, den frühen und den späteren Abschnitt. Gemäß unserer Vorhersage, basierend auf der KEGG-Weg-Zuordnung, fanden wir 28 Unigene, die 23 mutmaßliche Enzyme kodieren, die an der Anthocyanin-Biosynthese aus der KB-Transkriptombibliothek beteiligt sind (Tabelle 5). Obwohl die meisten von ihnen partielle Nukleotidsequenzen aufwiesen, konnten wir ihr Expressionsmuster während des Reifungsprozesses mit qRT-PCR analysieren. Wie in Abbildung 4B dargestellt, stieg das Expressionsniveau der meisten Unigene wie Chalcon-Synthasen (CHSs), Chalcon-Flavanon-Isomerasen (CHIs) und Flavanon-3-Hydroxylasen (F3Hs), die die Dihydrokaempferol-Biosynthese regulieren, signifikant an, wenn die Früchte dunkelrot wurden (Stufe 3) . In ähnlicher Weise ist der erhöhte Transkriptspiegel von DFRs (Dihydroflavonol-4-Reduktasen), LDOXs (Leukoanthocyanidindioxygenasen) und 3GTs (Anthocyanidin 3-O-Glucosyltransferasen) unigenes wurde ebenfalls festgestellt, was zur Bildung von Anthocyanen führt. Außerdem ist der Ausdruck von F3′H1 (Flavonoid 3′-Hydroxylase1) zeigte einen dramatischen Anstieg während des Reifeprozesses. Auf der anderen Seite, F3𠌥′H (Flavonoid 3𠌥′-Hydroxylase)-Unigen wurde von 15 DPA auf 25 DPA herunterreguliert. Dies stimmt mit der Akkumulation von Cyanidin-Derivaten, aber nicht von Delphinidin-Derivaten überein ( 4C ). Eine Spekulation ist, dass das erhöhte Niveau von F3′H1 aufgrund der enzymatischen Konkurrenz um das Dihydrokaempferol-Substrat möglicherweise Cyanidin-Derivate als Haupt-Anthocyan-Verbindungen angesammelt haben.

(A) Biosyntheseweg von Anthocyanen. Enzymnamen wurden wie folgt abgekürzt: Chalcon-Synthase (CHS), Chalcon-Isomerase (CHI), Flavanon-3-Hydroxylase (F3H), Flavonoid 3′-Hydroxilase (F3′H), Flavonoid 3𠌥′-Hydroxylase (F3&# x020325′H), Dihydroflavonol-4-Reduktase (DFR), Leucoanthocyanidindioxygenase (LDOX) und Anthocyanidin-3-O-Glucosyltransferase (3GT). (B) Expressionsmuster von Genen, die am Anthocyanin-Biosyntheseweg beteiligt sind. Expressionsniveaus von Genen aus Reifestadium 2 und 3 wurden mit Stadium 1 verglichen. Die Mittelwerte und Standardfehler wurden aus drei unabhängigen Messungen berechnet. Schüler-t-Test im Vergleich zu Stufe 1, * Pπ.05, ** Pπ.01 und *** Pπ.001. (C) Anthocyangehalte bestimmt durch UPLC-Q-TOF-MS wurden durch Box-Whisker-Plots dargestellt. Metaboliten wurden durch ihre m/z-Peakflächen mit dem Instrument und der Datenverarbeitung relativ quantifiziert. Die Fehlerbalken sind die Standardabweichungen von drei unabhängigen Messungen.

Tabelle 5

Rubus coreanus
GenEG-NummerGenname 1 NUMNPUNGSN Fragaria vesca 2
Chalkon-SynthaseEG:2.3.1.74CHS22-FV7G02590
FV7G02600
Chalkon-IsomeraseEG: 5.5.1.6CHI44-FV7G31110
FV7G25290
FV2G25040
FV3G19830
Flavanon-3-HydroxylaseEG:1.14.11.9F3H22 <"type":"entrez-nucleotide","attrs":<"text":"EU078685","term_id":"158578344">> EU078685FV1G13680
<"type":"entrez-nucleotide","attrs":<"text":"EU255776","term_id":"166208404">> EU255776FV6G51040
Dihydroflavonol-4-reduktaseEG:1.1.1.219DFR54-FV2G34030
FV7G11200
FV3G23500
FV2G50610
Flavonoid 3′-HydroxylaseEG:1.14.13.21F3′H53-FV5G12250
FV1G10430
FV0G15960
Flavonoid 3′,5′-HydroxylaseEG:1.14.13.88F3𠌥′H11-FV5G00680
LeucoanthocyanidindioxygenaseEG:1.14.11.19LDOX33-FV5G01390
FV5G18660
FV7G29560
Anthocyanidin-3-O-GlucosyltransferaseEG:2.4.1.1153GT64-FV7G33970
FV7G06650
FV5G37930
FV3G11420
Gesamt 28232

Um eine Flusskarte der Anthocyan-Biosynthese während des Reifungsprozesses zu erstellen, wurde die Analyse des metabolischen Flusses mit dem YANA-Tool durchgeführt [43]. Die Verschiebung der Anthocyanin-Biosynthese aufgrund der unterschiedlichen Genexpressionen während des Reifungsprozesses ist in Abbildung S6 gezeigt, was darauf hindeutet, dass DFR4 und LDOX1 Hauptenzyme für die Biosynthese von Cyanidin-Derivaten sind.

Funktionelle Charakterisierung der Chalkonisomerase in R. coreanus Miquel-Transkriptom

Die Verteilung von CHI in höheren Pflanzen führt zu phänotypischen Farbänderungen [44]–[46]. Darüber hinaus wurde vermutet, dass eine wesentliche Einschränkung des Flavonoid-Biosynthesewegs in Tomatenfrüchten das Fehlen von CHI Expression [47], [48], was auf die Bedeutung dieses Enzyms für den Fluss des Flavonoidweges einschließlich der Anthocyanin-Biosynthese hinweist. Aus der KB-Transkriptombibliothek fanden wir ein CHI-Unigen in voller Länge (RcMCHI2, Unigene18325), zusammen mit drei Fragmentsequenzen, die verschiedene CHI-Proteine ​​kodieren. CHI werden hauptsächlich in zwei Typen eingeteilt, Typ-I-CHI und Typ-II-CHI [49]. Typ-I-CHIs isomerisieren nur Naringenin-Chalcon, um Naringenin zu produzieren, während Typ-II-CHIs sowohl Naringenin-Chalcon als auch Isoliquiritigenin zu Naringenin bzw. Liquiritigenin katalysieren können [49]. Ein phylogenetischer Baum, der durch die Neighbor-Joining-Methode basierend auf den Aminosäuresequenzen erstellt wurde, zeigte, dass RcMCHI2 evolutionär mit der Typ-I-CHI-Gruppe verwandt ist (Abbildung S7). Die Arabidopsis transparent testa 5-1 (tt5-1)-Mutante, der CHI-Aktivität fehlt, wurde ausgewählt, um RcMCHI2 funktionell zu charakterisieren. RcMCHI2 tragenden Myc-Tag wurde unter die Kontrolle des 35S-Promotors gestellt und in das . transformiert Arabidopsis tt5-1 Mutant. Die Transgenexpression wurde durch Western-Blotting mit Anti-myc-Tag-Antikörper bestätigt, und vier unabhängige Linien wurden für Phänotypuntersuchungen ausgewählt ( 5A ). Die von ausgewählten transgenen Linien gesammelten Samen zeigten eine für den Wildtyp charakteristische Pigmentierung Arabidopsis, während Samen der Arabidopsis tt5-1 Mutante hatten eine gelbe Farbe ( 5B ). Getrocknete Samen von Arabidopsis tt5-1 Mutante zeigte bei Anregung mit UV-A eine grünlich-blaue Fluoreszenz, die durch die Expression von RcMCHI2. Darüber hinaus zeigten diese transgenen Pflanzen Anthocyanpigmente im Keimblatt und in den Hypokotylen, wenn sie unter Stickstoffmangelbedingungen kultiviert wurden, im Gegensatz zu Arabidopsis tt5-1 Sämlinge (Abbildung 5B). Auch der ektopische Ausdruck von RcMCHI2 in Arabidopsis tt5-1 Linien akkumulieren ähnliche Mengen an Delphinidin 3-Ö-Rutinosid und Cyanidin 3-Ö-Rutinosid im Vergleich zum Wildtyp Arabidopsis Sämlinge (Abbildung 5C Tabelle S5). Diese Ergebnisse deuten stark darauf hin, dass RcMCHI2 kodiert ein funktionelles CHI-Enzym, was stark dafür spricht, dass unsere KB-Transkriptom-Bibliothek eine solide Grundlage für die weitere funktionelle und genomische Forschung bietet.

(A) Die Expression von MYC-RcMCHI2 wurde durch Western-Blotting mit Anti-myc-Tag-Antikörper in zwei Wochen alten T1-Pflanzen bestätigt. (B) Wiederherstellung der Anthocyanpigmentierung und der Samenhüllenfarbe in der transgenen Arabidopsis tt5-1 Mutanten exprimieren RcMCHI2. Sämlinge wurden in einem Medium mit niedrigem Stickstoffgehalt gezüchtet, um eine Anthocyanakkumulation zu induzieren. Die reifen getrockneten Samen wurden UV ausgesetzt. (C) Die Analyse von Anthocyanen in Extrakten von RcMCHI2 transgen Arabidopsis tt5-1 Linien. Die relative Fläche von Anthocyanen in 1 Woche alten T2-Keimlingen wurde mit der MassLynx-Software berechnet. Die Fehlerbalken sind die Standardabweichungen von drei unabhängigen Messungen. Schüler-t-Test im Vergleich zu tt5 Mutante, *** Pπ.001.


DISKUSSION

Wir haben hier einen einfachen und intuitiven Ansatz, AssociVar, entwickelt, um (a) Bona Fide Mutationen aus der MinION-Populationssequenzierung, und (b) folgern den Satz von Haplotypen (Stämmen), die in einer Population vorhanden sind. Unser Ansatz basiert auf der Vorstellung, dass Sequenzierungsfehler zufällig entlang der Reads verteilt werden, während echte Mutationen dazu neigen, mit bestimmten genetischen Hintergründen zu assoziieren. Bei hohen technischen Fehlerquoten (wie bei MinION) kann man sich so auf die echte genetische Vielfalt konzentrieren, die sich in der Vielzahl technischer Fehler, die durch diese Methode erzeugt werden, verbirgt. Insbesondere ist unser Ansatz allgemein genug, dass er für jede Art von Long-Read-Sequenzierung verwendet werden kann.

Wir haben AssociVar auf Sequenzierungsdaten einer entwickelten Population von Phagen angewendet, bei denen eine Illumina-Sequenzierung verfügbar war, was es uns ermöglichte, zu bestätigen, ob Mutationen, die wir allein aufgrund der Analyse der MinION-Daten gefunden haben, tatsächlich echt waren. Auffallenderweise wurden alle bis auf eine der in den p15A- und p15B-Daten (>10%) beobachteten hochfrequenten Mutationen mit AssociVar erfasst, obwohl das 99. Perzentil für technische Fehler sogar 43% betrug (Tabelle 1). Tatsächlich identifizierte AssociVar trotz der sehr hohen Deletionsrate genau die eine echte Deletionsmutation, die in unseren Populationen vorhanden war, was auf eine sehr hohe Sensitivität der Methode hinweist. Unser Ansatz zeigt auch eine hohe Spezifität mit einer falsch-positiven Rate von weniger als 0,1 %. Schließlich haben wir gezeigt, dass die Verwendung eines naiven Ansatzes, der auf einer Frequenzschwelle als Cutoff basiert, um echte Mutationen von Fehlern zu trennen, zu extrem hohen falsch-positiven Raten führt, was den Wert unseres Ansatzes demonstriert.

Ursprünglich schien man bei der Betrachtung der Daten in Abbildung 1 in erster Näherung wahrscheinlich davon auszugehen, dass Mutationen mit ähnlicher Häufigkeit Mutationen sind, die auf denselben Genomen geteilt werden. Dementsprechend hatten wir die Hypothese aufgestellt, dass mindestens zwei Mutationscluster in Linie B (T1764-/G3114A/A1664G und A1611G/A1744G/T1440C/G1906A/A535G) auf denselben Genomen vorhanden sein würden. Dies erwies sich nur teilweise als richtig: Mutationen mit ähnlicher Häufigkeit befanden sich zwar manchmal auf den gleichen Genomen (z. B. T1764-/G3114A), manchmal aber auch nicht (die ersteren beiden und A1664G) (Tabelle 2). Diese Ergebnisse veranschaulichen die Nützlichkeit von MinION, um die Beziehungen zwischen Mutationen aufzulösen, und seinen Vorteil für die Unterscheidung von Varianten mit Mutationen, die ähnliche Häufigkeiten aufweisen.

Wir verwendeten weiterhin unseren Ansatz, um die umgekehrte Analyse durchzuführen: Bei der Analyse der mRNA der Hefe-Genenolase deutete unsere Analyse darauf hin, dass die sequenzierte mRNA-Population nicht homogen war. Dies wurde dann durch Illumina-Sequenzierung derselben Population genau verifiziert. Bemerkenswerterweise zeigt diese Analyse, dass (a) AssociVar verwendet werden kann, um verschiedene Arten von Daten zu analysieren, die von Virusgenomen bis hin zu mRNA eines beliebigen Organismus reichen, und (b) AssociVar verwendet werden kann, ohne eine Kontrollsequenz zu sequenzieren. Wir weisen darauf hin, dass dies mehr Vorsicht erfordert, da unsere Analyse von MS2 gezeigt hat, dass durch den Sequenzierungsprozess selbst künstliche Assoziationen zwischen Mutationen erzeugt werden können. Die Verwendung von AssociVar ohne eine Kontrollsequenz erfordert, dass der Benutzer den Schwellenwert der normalisierten Chi-Quadrat-Statistik angibt. Wie bei allen Methoden geht die Spezifität von AssociVar auf Kosten der Sensitivität und umgekehrt (Abbildung 6). Dennoch scheint es, dass die beste Strategie, die wir vorschlagen können, darin besteht, einen sehr hohen Schwellenwert zu verwenden, der für Varianten mit einer Häufigkeit von mehr als 5 oder 10 % äußerst effektiv ist.

Es ist wichtig, die Grenzen unseres Ansatzes aufzuzeigen. Wir stellen fest, dass wir Haplotypen/Stämme, die sich nur an einer Position unterscheiden, nicht unterscheiden können, da unsere Methode auf der Assoziation zwischen zwei Positionen beruht, die echte Mutationen enthalten. Wenn sich zwei Stämme an sehr proximalen Loci unterscheiden, schlägt auch AssociVar fehl, da wir Assoziationen zwischen Mutationen herausfiltern, die <15 Basenpaare voneinander entfernt sind. Wir postulieren, dass die vermutlich artefaktischen Assoziationen, die wir zwischen proximalen Loci beobachtet haben, durch die RNA (oder DNA) induziert werden, die durch die Pore des Sequenzers passiert. Schließlich haben wir auch spezifische Mutationsmuster festgestellt, die zwischen unserer Kontrollsequenz und den beiden entwickelten MS2-Populationen reproduziert wurden. Dies legt zwei Möglichkeiten nahe: Erstens induzieren möglicherweise Sequenzkontext und/oder RNA-Sekundärstruktur spezifische Fehler in MinION, und zweitens ist es möglich, dass MS2-Genome RNA-Modifikationen erfahren und diese die Ursache für diese spezifischen Fehler sind. Die direkte RNA-Sequenzierung von MinION zeichnet das rohe elektrische Signal auf, das von der RNA erzeugt wird, die durch die Poren geht, und dies bietet möglicherweise die Möglichkeit, RNA-Modifikationen mit einem neu entwickelten Tool namens Tombo (Version 1.5) von Oxford Nanopore (https://nanoporetech.github) zu identifizieren .io/tombo/). Leider konnten wir das Vorhandensein oder die Wirkung von RNA-Modifikationen und ihre Beziehung zu assoziierten Mutationen nicht schlüssig bestimmen. Unsere Ergebnisse legen nahe, dass Tombo immer noch an einer hohen Falsch-Positiv-Rate leidet, während die Richtig-Positiv-Rate der Methode noch nicht bestimmt wurde (38).Ersteres wurde hier durch eine große Anzahl von vermutlich modifizierten Stellen im Enolase-Hefe-Gen demonstriert, obwohl dieses Gen synthetisch in vitro erzeugt wurde, wo Modifikationen wahrscheinlich nicht auftreten würden. Wir analysierten dennoch unsere MS2-Proben und fanden ein ähnliches Muster von mutmaßlichen Modifikationen unter den drei MS2-Proben, jedoch gab es keine Korrelation zwischen Stellen mit einer hohen Änderungsrate und Stellen mit hohen normalisierten Chi-Werten durch AssociVar (siehe Ergänzungstext, ergänzende Abbildungen S7 –S10 ). Obwohl wir nicht ausschließen können, dass RNA-Modifikationen für das Fehlermuster in MinION verantwortlich sind, schließen wir, dass weitere Forschung erforderlich ist, um festzustellen, welche Faktoren diese Fehler verursachen.

Obwohl unsere Methode ideal für die direkte RNA- oder direkte DNA-Sequenzierung ist, haben wir im Fall der Zika-Virus-Analyse (30) auch die Methode für cDNA verwendet, die aus RNA amplifiziert wurde (Ergänzende Abbildung S4). Als wir versuchten, die in dieser Probe vorhandenen bekannten Haplotypen zu rekonstruieren, gelang es unserer Methode nicht, die Haplotypen zu rekapitulieren (Daten nicht gezeigt). Eine mögliche Erklärung hierfür ist, dass während des Amplifikationsschrittes entweder chimäre Sequenzen beider Stämme erzeugt wurden oder eine PCR-Rekombination stattfand, die einen Teil der Verknüpfung zwischen den Stellen auflöste. In solchen Fällen ist die Verwendung von AssociVar nur auf den Nachweis von Mutationen beschränkt, was weiter darauf hindeutet, dass eine direkte RNA/DNA-Sequenzierung vorzuziehen ist.

Zusammenfassend gehen wir davon aus, dass die direkte Long-Read-Sequenzierung mit MinION aufgrund ihrer Benutzerfreundlichkeit und der oben aufgeführten Vorteile im Bereich der Virusgenetik und in weiteren vielfältigen Bereichen wie Transkriptomstudien, Krebsgenetik und Mikrobiologie zunehmend wertvoller sein wird. Der hier vorgeschlagene AssociVar-Ansatz ist einfach und auf jeden Organismus anwendbar, und als solcher hoffen wir, dass er eine nützliche Ergänzung des Genomik-Werkzeugkastens in mehreren Bereichen darstellt.


Schau das Video: How to analyze RNA-Seq data? Find differentially expressed genes in your research. (Kann 2022).