Information

Was ist die Mindestprobengröße, um zuverlässige Ergebnisse bei Haplotyp- und Nukleotidschätzungen zu erhalten?

Was ist die Mindestprobengröße, um zuverlässige Ergebnisse bei Haplotyp- und Nukleotidschätzungen zu erhalten?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Unterschiedliche Software hat unterschiedliche Methoden zum Schätzen der Diversität, und jede Methode hat Annahmen über die Datenmenge, die erforderlich ist, um ein zuverlässiges Ergebnis zu erzielen. Ich schätze den Haplotyp und die Nukleotiddiversität durch das DnaSP6-Programm von Sanger-Sequenzen. Ich möchte, was die minimale Stichprobengröße ist, die erforderlich ist, um zuverlässige Ergebnisse zu erhalten.

Danke im Voraus.


Mir ist noch etwas unklar, wie die Analyse aussieht, aber ich gehe für diese Antwort davon aus, dass es sich um einen einzelnen Locus handelt, der über mehrere Populationen hinweg sequenziert ist, mit einer gewissen Anzahl von Individuen pro Population, und das die Sorge ist, dass einige dieser Populationen nur von wenigen Individuen repräsentiert werden. Ich gehe auch davon aus, dass die Individuen diploid sind, sodass Sie tatsächlich etwas mehr Daten haben, als es den Anschein hat.

Trotzdem weist dieses Papier darauf hin, dass n<5 Individuen in einer Population führt zu ziemlich verrauschten Schätzungen von $pi$ und $h$ (Abschnitt „Der Einfluss der Stichprobengröße auf Haplotyp- und Nukleotid-Diversitäten“). Dies ist natürlich spezifisch für eine bestimmte ~500bp-Region, für die sie Sequenzen gesammelt haben. Das bedeutet nicht, dass Sie diese Metriken nicht berechnen können, nur dass sie möglicherweise nicht sehr zuverlässig sind.

Als Referenz berechnen die frühen Neandertaler-Genom-Papiere einige Messungen, die nur auf den beiden Kopien basieren, die in ihren diploiden Genomen vorhanden sind – natürlich werden sie durch eine große Menge moderner Humandaten unterstützt, um Vergleiche anzustellen. Wenn Sie unterstützende Daten von anderen Populationen haben, können Sie möglicherweise immer noch etwas über die Populationen mit wenigen Individuen sagen. Aber Sie müssen wahrscheinlich andere Maßnahmen anwenden als $pi$ und $h$ dies zu tun.

Einige andere Tools, mit denen Sie Informationen von anderen Personen außerhalb dieser Gruppen "ausleihen" können, sind Ordinationsanalysen wie PCA oder Clustering-Tools wie STRUCTURE. Eine Möglichkeit, dies zu bedenken, besteht darin, dass Sie Ihre Populationen mit wenigen Individuen in die Populationsstruktur Ihres gesamten Datasets "einbetten". Auf diese Weise können Sie von diesen Populationen lernen, auch wenn die Anzahl der Individuen gering ist. Die Neandertaler-Papiere implementieren Versionen davon, jedoch mit einem viel ausgefeilteren statistischen Rahmen, für ein ganzes Genom und nicht nur für ein einzelnes Gen.

Ich bin mir nicht sicher, ob DnaSP diese Analysen durchführen kann, aber es gibt viele Tools, die ähnliche Dinge tun, ein Tutorial hier. Natürlich ist ein Blick in das DnaSP-Handbuch wahrscheinlich eine gute Idee, um zu sehen, was Sie mit Ihrem aktuellen Tool tun können.

Abhängig von Ihren Zielen kann es auch interessant sein, F-Statistiken für Ihre Populationen zu berechnen, dies wird von den meisten Populationsgenetik-Tool-Suiten durchgeführt. Ich habe GenePop vor vielen Jahren dazu verwendet, es scheint immer noch zu funktionieren, obwohl ich sicher bin, dass es jetzt bessere Alternativen gibt.

Ein wichtiger Hinweis ist, dass die meisten dieser Maßnahmen rein deskriptiv und nicht schlussfolgernd sind. Eine niedrige Stichprobengröße macht deskriptive Statistiken verrauscht, macht sie jedoch nicht ungültig. Inferenzstatistiken sind etwas gefährlicher.


Schau das Video: BITCOIN vs ALTY I CO MÁ NYNÍ VĚTŠÍ POTENCIÁL? (Kann 2022).