Information

Verwirrt über die Berechnung der BLOSUM-Matrix

Verwirrt über die Berechnung der BLOSUM-Matrix


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich versuche zu verstehen, wie die BLOSUM-Matrix berechnet wird.

Ein sehr schönes Tutorial habe ich hier gefunden: http://www.cs.columbia.edu/4761/assignments/assignment1/reference1.pdf

Außerdem habe ich den Wikipedia-Artikel gelesen und ein Buch "Understanding bioinformatics" von Marketa Zvelebim und Jeremy O. Baum

Nachdem ich dachte, dass ich die Methode verstehe, habe ich mich mit dieser "Ausrichtung" versucht (ich werde auf die Variable verweisen, wie sie sich unter dem von mir bereitgestellten Link befindet).

Q Q S

Es hat also nur eine Spalte und 2 Arten von Aminosäuren.

Die Zählpaarfrequenzen (C) für die Q -> Q-Substitution sind 1 (2*1/2) und für Q -> S sollte sie 2 (2*1) sein.

Um es zu normalisieren T = 3 als 3*2/2

Die q-Werte scheinen dann q(Q->Q) = 1/3, q(Q->S) = 2/3

p(Q) ist dann 1/3 + 2/3/2 = 4/6

p(S) ist 2/3+1/3/2 = 2/6

Das e(Q->Q) = (4/6)^2 = 4/9

e(Q->S) = 4/6*2/6*2 = 4/9

Daher

S(Q->Q) = rund(log2((1/3)/(4/9)) = -1

S(Q->S) = rund(log2((2/3)/(4/9)) = 1

Aus dieser Ausrichtung ist es also wahrscheinlicher, ein Q durch ein S zu ersetzen, anstatt Q durch Q? Das macht für mich keinen Sinn.

Was vermisse ich?


Ok, ich werde versuchen, es selbst durchzugehen und zu sehen, was passiert.

Zuerst erhalten wir die Paarzahlen: $$ c_{ij}=egin{cases} displaystyleinom{n_i}{2} & i=j n_i n_j & i e j end{cases} ; ;;;;impliziert;;;;; c_{11}=1, c_{12}=2, c_{22}=0 $$ Offensichtlich ist der Normalisierer nur $T=sum_{igeq j} c_{ij}=3$ und $c_{ ij}equiv c_{ij}^{(1)}$ da es nur eine Spalte gibt. Dann lautet unsere Paarverteilung: $$ q_{ij} = frac{c_{ij}}{T} ;;;;;implies;;;;; q_{11}=frac{1}{3},;q_{12}=frac{2}{3},; q_{22}= 0 $$ Daraus folgt die Auftrittswahrscheinlichkeit pro Rest: $$ p_i = q_{ii} + sum_{i e j} frac{q_{ij}}{2} ;;; ;;impliziert;;;;; p_1 = frac{2}{3},;p_2=frac{1}{3} $$ und die erwartete Paarhäufigkeit: $$ e_{ij} = egin{cases} p_i^2 & i=j 2p_ip_j & i e j end{cases};;;;;implies;;;;; e_{11}=e_{12}=frac{4}{9},; e_{22}=frac{1}{9} $$ Nun können wir endlich die Odds Ratios berechnen: $$ r_{ij} = frac{q_{ij}}{e_{ij}} ;; ;;;impliziert;;;;; r_{11}=frac{3}{4},; r_{12}=frac{3}{2}, r_{22}=0 $$ Die Berechnung der Log-Odds $s_{ij} = log_2( r_{ij} )$ liefert die gleichen Werte wie Sie erhalten.

Warum ist also $r_{11} > r_{12}$? Beachten Sie, dass sie denselben Normalisierer haben, d. h. $e_{11}=e_{12}$. Der Unterschied liegt also darin, dass $ q_{11} > q_{12} $ die empirische Paarverteilung ist. Aufgrund der Art und Weise, wie wir $q_{ij}$ berechnet haben, betrachten wir im Wesentlichen nur ein PaarQQaber zwei paarQS. Ich möchte auch anmerken, dass die Ergebnisse für sehr kleine Stichproben manchmal ein wenig unintuitiv sind (Datenknappheit wirft die Statistiken im Wesentlichen auf).


Vergleich der Aminosäuresubstitutionsmatrizen PAM und BLOSUM

Die Wahl eines Bewertungssystems einschließlich Bewertungen für Übereinstimmungen, Fehlpaarungen, Substitutionen, Insertionen und Deletionen beeinflusst das Alignment sowohl von DNA- als auch Proteinsequenzen. Um Übereinstimmungen und Fehlpaarungen in Alignments von Proteinen zu bewerten, ist es notwendig zu wissen, wie oft eine Aminosäure in verwandten Proteinen durch eine andere ersetzt wird. Percent Accepted Mutation (PAM)-Matrizen listen die Wahrscheinlichkeit der Veränderung von einer Aminosäure zur anderen in homologen Proteinsequenzen während der Evolution auf und konzentrieren sich daher auf die Verfolgung der evolutionären Ursprünge von Proteinen. Im Gegensatz dazu basieren die Block-Aminosäure-Substitutions-Matrizen (BLOSUM) auf der Bewertung von Substitutionen, die über eine Reihe von Evolutionsperioden gefunden wurden. Es gibt wichtige Unterschiede in der Art und Weise, wie die Bewertungsmatrizen PAM und BLOSUM abgeleitet wurden. Diese Unterschiede, die in diesem Artikel diskutiert werden, sollten bei der Interpretation der Ergebnisse von Proteinsequenz-Alignments, die mit diesen Matrices erhalten wurden, berücksichtigt werden.


Algorithmen, Anwendungen und Herausforderungen der Ausrichtung der Proteinstruktur

2.5 Substitutionsmatrix für strukturelles Alphabet

Um unser Strukturalphabet direkt für den Strukturvergleich zu verwenden, ist eine Score-Matrix ähnlich BLOSUM für AAs erwünscht. Unter Verwendung der Alignments für repräsentative Strukturen in der Datenbank FSSP (Holm &. Sander, 1994), die 2860 Sequenzfamilien enthält, die 27181 Proteinstrukturen repräsentieren, haben wir eine Substitutionsmatrix namens CLESUM für die CLEs konstruiert. Nach unserem besten Wissen ist CLESUM die erste Substitutionsmatrix, die direkt aus Strukturausrichtungen für ein strukturelles Alphabet abgeleitet wird (Zheng & Liu, 2005). Insbesondere werden die Strukturen der repräsentativen Menge in ihre CLE-Sequenzen umgewandelt. Alle Paarausrichtungen von FSSP für die Proteine ​​mit einer ausreichenden Ähnlichkeit in dem repräsentativen Satz werden gesammelt, um ausgerichtete Paare von CLEs zu zählen. Die Gesamtzahl der Buchstabenpaare beträgt 1.284.750. Ein Eintrag der Matrix ist das logarithmische Verhältnis der beobachteten Frequenz des ausgerichteten entsprechenden Paares zu der erwarteten Frequenz aus einer zufälligen Ausrichtung einfach zufällig. Die analog zu BLOSUM abgeleitete Substitutionsmatrix (CLESUM) ist in Tabelle 5.3 dargestellt. Für die Substitutionsmatrix des anderen strukturellen Alphabets siehe Tung et al. (2007) und Tyagi et al. (2008).

Tabelle 5.3. CLESUM: Die Konformationsbuchstaben-Ersetzungsmatrix (in Einheiten von 0,5 Bit)

ichJhKFECDEINBgLmnÖPQ
ich2222− 9− 11− 6− 11− 3− 7− 3− 40− 1− 3− 5− 6
J2411− 7− 9− 4− 9− 2− 6− 2− 320− 2− 3− 4
h2121− 11− 13− 8− 12− 5− 10− 5− 60− 3− 6− 6− 9
K2115− 7− 8− 3− 8− 2− 5− 10131− 4− 2
F− 9− 7− 11− 75322− 21− 1− 2− 3− 3− 300
E− 11− 9− 13− 83402− 32− 2− 2− 5− 4− 5− 1− 1
C− 6− 4− 8− 320521100− 1− 1003
D− 11− 9− 12− 82225− 21− 3− 2− 5− 4− 4− 11
EIN− 3− 2− 5− 2− 2− 31− 272− 1− 101342
B− 7− 6− 10− 51211251− 1− 1− 1− 141
g− 3− 2− 5− 1− 1− 20− 3− 11732− 1011
L− 4− 3− 60− 2− 20− 2− 1− 137110− 13
m0201− 3− 5− 1− 50− 1216111− 1
n− 10− 33− 3− 4− 1− 41− 1− 1119203
Ö− 3− 2− 61− 3− 50− 43− 10012100− 1
P− 5− 3− 6− 40− 10− 1441− 110071
Q− 6− 4− 9− 20− 1312113− 13− 119

Um die Beziehung zwischen Sequenz und Struktur aufzudecken, ist es interessant, sowohl AA als auch SA in einem gemeinsamen Raum zu betrachten. Ein solcher Raum hat jedoch zu viele Parameter, so dass die Reduzierung von AA notwendig ist, um die Parameternummern zu verringern. Als Ergebnis haben wir einen einfachen, aber effektiven Ansatz namens entropisches Clustering entwickelt, der auf der Auswahl der besten gegenseitigen Informationen zwischen einer gegebenen Reduktion von AAs und SAs basiert. Die optimierte Reduktion von AA in zwei Gruppen führt zu hydrophob und hydrophil. In Kombination mit unserem CLE von 17 Alphabeten erhalten wir ein gemeinsames Alphabet namens Hydropathie-Konformationsbuchstaben. Eine gemeinsame Substitutionsmatrix mit (17 × 2) × (17 × 2) Indizes wird abgeleitet ( Wang, 2010 ).


Bewertungsmatrix

Das Ziel eines Sequenz-Alignments besteht darin, "die ähnlichsten Elemente" von zwei Sequenzen zu finden. Diese Ähnlichkeit muss irgendwie bewertet werden. Betrachten Sie beispielsweise die folgenden zwei Ausrichtungen:

Sie scheinen ziemlich ähnlich zu sein: Beide enthalten ein "Indel" und eine Substitution, nur an unterschiedlichen Positionen. Wenn wir uns die Buchstaben jedoch eher als Aminosäurereste als als Elemente von Strings vorstellen, ist die Ausrichtung (a) die bessere, da Isoleucin (I) und Leucin (L) ähnliche Seitenketten sind, während Tryptophan (W) eine sehr unterschiedliche Struktur hat Struktur. Dies ist ein physikalisch-chemisches Maß, das wir heutzutage vorziehen könnten, um zu sagen, dass Leucin einfach häufiger Isoleucin ersetzt - ohne einen zugrunde liegenden "Grund" für diese Beobachtung zu nennen.

Wie auch immer wir es erklären, es ist viel wahrscheinlicher, dass eine Mutation I in L verwandelte und W verloren ging, wie in (a), als dass W in L umgewandelt wurde und I verloren ging. Wir würden erwarten, dass ein Wechsel von I zu L die Funktion nicht so stark beeinflusst wie eine Mutation von W zu L – aber dies verdient ein eigenes Thema.

Um die durch ein Alignment erreichte Ähnlichkeit zu quantifizieren, Bewertungsmatrizen verwendet werden: Sie enthalten einen Wert für jede mögliche Substitution, und die Ausrichtungspunktzahl ist die Summe der Einträge der Matrix für jedes ausgerichtete Aminosäurepaar. Für Lücken (Indels), ein Special Lückenstand ist notwendig --- eine sehr einfache Möglichkeit besteht darin, für jeden Indel eine konstante Strafpunktzahl hinzuzufügen. Die optimale Ausrichtung ist derjenige, der die Ausrichtungsbewertung maximiert.

PAM Matrizen sind eine gemeinsame Familie von Score-Matrizen. PAM steht für Percent EINakzeptiert mutationen, wobei "akzeptiert" bedeutet, dass die Mutation von der fraglichen Sequenz übernommen wurde. So bedeutet die Verwendung der PAM 250-Bewertungsmatrix, dass etwa 250 Mutationen pro 100 Aminosäuren aufgetreten sein können, während bei PAM 10 nur 10 Mutationen pro 100 Aminosäuren angenommen werden, so dass nur sehr ähnliche Sequenzen brauchbare Alignment-Scores erreichen.

PAM-Matrizen enthalten positive und negative Werte: Wenn der Alignment-Score größer als Null ist, werden die Sequenzen als verwandt betrachtet (sie ähneln sich in Bezug auf die verwendete Scoring-Matrix), ist der Score negativ, wird angenommen, dass dies nicht der Fall ist verbunden. "Beziehung" kann sich hier sowohl auf die Evolution als auch auf die Funktionalität der Proteine ​​beziehen, und natürlich beeinflusst die Wahl der Matrix das Ergebnis, daher muss man von der Ähnlichkeit der Sequenzen ausgehen, um ein brauchbares Ergebnis zu erhalten: Eher entfernte Sequenzen erzeugen mit PAM 10 kein gutes Alignment, und das optimale Alignment zweier sehr ähnlicher Sequenzen mit PAM 500 kann weniger nützlich sein als das mit PAM 50.

Schließlich ist zu beachten, dass nur einige Bewertungsmatrizen verwenden Ähnlichkeit um Ausrichtungen zu bewerten, aber andere verwenden Distanz, also seien Sie vorsichtig bei der Interpretation der Ergebnisse!

Nach diesem kurzen und notwendigerweise oberflächlichen Überblick möchten Sie vielleicht mehr über Scoring-Matrizen lesen.


Henikoff, J. G. Aminosäuresubstitutionsmatrizen aus Proteinblöcken. Proz. Natl. Akad. Wissenschaft Vereinigte Staaten von Amerika 89, 10915–10919 (1992).

Karlin, S. & Altschul, S.F. Methoden zur Bewertung der statistischen Signifikanz von molekularen Sequenzmerkmalen unter Verwendung allgemeiner Bewertungsschemata. Proz. Natl. Akad. Wissenschaft Vereinigte Staaten von Amerika 87, 2264–2268 (1990).

Altschul, S. F. Aminosäuresubstitutionsmatrizen aus informationstheoretischer Sicht. J.Mol. Biol. 219, 555–565 (1991).


Konstruktion von Substitutionsmatrizen

Es ist möglich, Sequenzähnlichkeiten auf viele verschiedene Arten zu messen, z. B. durch Zählen der Anzahl der Unterschiede zwischen ihnen (Hamming-Abstand), wobei die Anzahl der Insertionen, Deletionen und Substitutionen gezählt wird, die erforderlich sind, um zwei Sequenzen identisch zu machen (Levenshtein-Distanz), prozentuale Identität oder verwenden Sie einfach ein beliebiges Bewertungssystem für Übereinstimmungen, Nichtübereinstimmungen, Einfügungen und Löschungen. Alle diese Methoden liefern ein Maß für eine Beziehung zwischen den Sequenzen, aber keines spiegelt irgendeine biologische Verbindung zwischen ihnen wider.

Im Bereich der Bioinformatik interessieren wir uns für eine evolutionäre Beziehung von DNA- und Proteinsequenzen, außer im Fall des Sequenzaufbaus, bei dem die Messung von Sequenzfehlern und das Trennen von Wiederholungen zentral sind.

Sequenzen können durch reinen Zufall mehr oder weniger ähnlich sein, und folglich brauchen wir eine Methode, um eine zufällige Ähnlichkeit von der Ähnlichkeit zu unterscheiden, die durch eine evolutionäre Beziehung verursacht wird. Mit anderen Worten möchten wir wissen, ob Sequenzen homolog sind, d. h. einen gemeinsamen Vorfahren haben und insbesondere ob Sequenzen die gleiche Funktion haben, obwohl sie nicht identische Sequenzen haben. In der Lage zu sein, festzustellen, ob zwei Sequenzen dieselbe Funktion haben, ist nützlich, um die Funktion eines unbekannten Proteins und Gens im Vergleich zu einem bekannten zu beurteilen.

Abbildung 1. Eine schematische Beschreibung der Evolution homologer Gensequenzen, d. h. Sequenzen, die einen gemeinsamen Vorfahren haben. Die Untermenge der homologen Sequenzen sind paraloge und orthologe Sequenzen.
[Klicken Sie auf das Bild, um den Zoom umzuschalten ◱]

Die Aminosäuresequenz eines Proteins ist entscheidend für seine Struktur, und die Funktion wiederum hängt stark von der dreidimensionalen Struktur eines Proteins ab. Viele Aminosäuremutationen, die zu veränderten Aminosäuren mit ähnlichen physikalisch-chemischen Eigenschaften führen, können eine Proteinstruktur in keiner funktionskritischen Weise verändern. Im Gegensatz dazu kann eine einzelne Aminoänderung die Funktion verändern. Beachten Sie, dass wir nur die Fälle beobachten können, in denen eine veränderte Funktion nicht schädlich ist und somit nicht zum Tod eines Organismus führt. Darüber hinaus produzieren Veränderungen, die zu einer veränderten Funktion führen, immer noch homologe Proteine, aber sie sind nicht mehr ortholog, da sie nicht die gleiche Funktion haben (Abbildung 1).

Folglich können wir durch Beobachtung von Mutationen zwischen orthologen Proteinsequenzen bestimmen, welche Aminosäureänderungen möglich sind, ohne die Funktion eines Proteins zu verändern. Darüber hinaus können wir durch Aufzählen der Häufigkeiten dieser Änderungen Bewertungssysteme konstruieren.

Forschungen, die zuerst von Margaret Dayhoff in den 1970er Jahren und Kollegen und später von Henikoff und Henikoff Anfang der 1990er Jahre durchgeführt wurden, führten zu PAM- und BLOSUM-Substitutionsmatrizen und sind heute die am häufigsten verwendeten. Dieses Tutorial beschreibt ihre Konstruktion und Verwendung.

BLOSUM-Matrizen

Durch das Studium eines breiten Satzes von Sequenzen verschiedener Spezies, von denen bekannt ist, dass sie homolog sind und die gleiche Funktion haben, d. h. orthologe Sequenzen, können wir Veränderungen in Aminosäuren beobachten, die eine Funktion erhalten.

Um die Aminosäurehäufigkeiten zu messen, analysierten Henikoff und Henikoff konservierte Regionen verwandter Proteinsequenzen, die sie aus der BLOCKS-Datenbank erhalten hatten. Insgesamt untersuchten sie 2.000 Blöcke ohne Lücken und 500 Gruppen verwandter Proteine ​​durch Zählen der Anzahl von Übereinstimmungen und Fehlpaarungen jedes Typs der 20 verschiedenen Aminosäuren.

Aus den Zählungen jedes Typs erstellten Henikoff und Henikoff eine Häufigkeitstabelle und unter Verwendung dieser Häufigkeiten berechneten sie weiter die Wahrscheinlichkeit jeder Art von Übereinstimmung und Nichtübereinstimmung und wandelten dann die Wahrscheinlichkeiten in den Logarithmus der Odds Ratios um. Auf diese Weise wird der Alignment-Score null, wenn die beobachteten Häufigkeiten wie erwartet sind, ein negativer Score, wenn die Häufigkeiten geringer als erwartet sind und ein positiver Score, wenn die Häufigkeiten über den erwarteten Häufigkeiten liegen.

Dies sind jedoch nicht die Endergebnisse in der endgültigen BLOSUM-Matrix. Um die Endbewertungen in der Matrix zu erhalten, wandelten Henikoff und Henikoff die Log-Odds-Verhältnisse weiter in Biteinheiten um und multiplizierten jede Bitbewertung mit einem Skalierungsfaktor von zwei und rundeten auf die nächste ganze Zahl, wodurch die Endbewertungen in der BLOSUM-Matrix erzeugt wurden.

Eine Familie von Matrizen

Sequenzen in einem ganzen Proteinfamiliencluster können aufgrund von Beiträgen entfernter Verwandter ziemlich unterschiedlich sein. Daher teilten Henikoff und Henikoff die Familiencluster nach ihrem Ähnlichkeitsprozentsatz in Untercluster ein, um mehrere Beiträge zur Häufigkeit von Aminosäurepaaren zu reduzieren. Diese Aufteilung führte zur BLOSUM-Familie von Matrizen, bei der die zugehörige Zahl, z. B. BLOSUM65, bedeutet, dass die Scores aus einem Cluster von Sequenzen stammen, bei denen Sequenzen mindestens 65% ähnlich sind, in BLOSUM80 Matrix-Scores aus Clustern mit mindestens 80% Ähnlichkeit usw.


Figur 3. Beispielspalte der Sequenzausrichtung von zehn Sequenzen eines konservierten Blocks. Neun Ds und ein N.

Die Mathematik

Als Beispiel betrachten wir eine Spalte bestehend aus neun Ds und einem N. Es gibt neun N-D- und neun D-N-Paare und 36 (1 + 2 + 3 + . 8) mögliche D-D-Paare (Abbildung 3).

Um eine Häufigkeitstabelle zu erstellen, zählen wir, wie oft ( n ) jedes der 210 (20, 19 + . 1) möglichen Aminosäurepaare in einem Block mit einer Tiefe von ( d ) Sequenzen als folgt: ( wd(d-1)/2=n ), wobei ( w ) die Anzahl der Spalten im Block ist. In diesem Beispiel trägt ( d = 10 ) und ( w=1 ) Der Block trägt also 1x10x(10-1)/2 = 45 Aminosäurepaare zur Zählung bei.

Die beobachtete Eintrittswahrscheinlichkeit ( q_ ) jedes Aminosäurepaares ( i ), ( j ) ist

Wobei ( 1 leq i leq j leq 20 ). Durch Einsetzen der Zahlen in die obige Gleichung in unserem Beispiel in Abbildung 2 erhalten wir Folgendes: ( f_

=36 ), ( f_=9 ), (q_
=36/45=0,8) und (q_=9/45=0.2 ).

Anschließend schätzen wir die Auftrittswahrscheinlichkeit ( P(x) ) jeder Aminosäure als

In unserem Beispiel haben 36 Sequenzpaare D an beiden Positionen und neun Paare haben D nur an einer einzigen Position, also die erwartete Wahrscheinlichkeit (P(D) = frac<[36+(9/2)]> <45> = 0,9) und (P(N)=frac<(9/2)><45>=0,1), vorausgesetzt, die beobachteten Häufigkeiten sind die gleichen wie in der Grundgesamtheit. Die allgemeine Formel zur Berechnung der Eintrittswahrscheinlichkeit ( p_ ) der (i)-ten Aminosäure in einem (i), (j)-Paar ist

Die Berechnung der erwarteten Eintrittswahrscheinlichkeit jedes Aminosäurepaares ist (p_P_) für (i=j) und (p_P_+p_P_=2p_P_) für (i e j). In unserem Beispiel ergibt dies DD( =0,9 mal 0,9=0,81) und für DN+ND(=2 mal (0,9 mal 0,1)=0,18).

Um eine praktische Wertung zu erhalten (s_), berechnen wir zunächst eine Odds-Ratio-Tabelle, in der ein Eintrag (e_) für jedes Aminosäurepaar ist (frac<>><>>) und dann einen Logarithmus zur Basis zwei jedes Eintrags (s_=log_<2>(frac<>><>>) ). Diese Bewertung ergibt die Ausrichtungsbewertung (s_) Null zu werden, wenn die beobachteten Häufigkeiten wie erwartet sind, zu einer negativen Bewertung, wenn die Häufigkeiten geringer als erwartet sind und zu einer positiven Bewertung, wenn die Häufigkeiten höher als erwartet sind.

Wir multiplizieren dann jede Punktzahl (s_) durch zwei und runden auf die nächste ganze Zahl, um die Endergebnisse in BLOSUM-Matrizen zu generieren (Abbildung 2).

Warum haben verschiedene identische Aminosäurepaare nicht die gleiche Punktzahl?

Wenn wir uns die BLOSUM62-Scores ansehen, können wir feststellen, dass die Identitätspaarung verschiedener Aminosäuren nicht den gleichen Score erhält. Der Grund dafür ist, dass die beobachtete Menge an Aminosäuren nicht dieselbe ist. Zum Beispiel erhält die Leucin-Leucin (Leu-Leu)-Paarung die Note 4 und die Tryptophan-Tryptophan (Trp-Trp)-Paarung die Note 11, weil Leucin in der Natur häufiger vorkommt als Tryptophan ein zufälliger sein.

Hypothesentest

Die obige Bewertungsmethode ist tatsächlich ein Hypothesentest, und im Allgemeinen ist die Bewertung (S(a,b)) für eine Substitution der Aminosäure (a) durch die Aminosäure (b)

In der obigen Gleichung (P_) ist die Wahrscheinlichkeit der Hypothese, die wir testen möchten: Reste korreliert, weil sie homolog sind und ( f_f_ ) ist die Wahrscheinlichkeit einer Nullhypothese: Rückstände sind nicht verwandt.


Ergebnisse

Die Wirkung der globalen Minor-Allel-Häufigkeit

In dieser Arbeit schlagen wir vor, eine Auswahl von SNPs zu verwenden, um ein evolutionäres Modell von Proteinsequenzen zu erstellen. Bevor wir eine Substitutionsratenmatrix aus den SNPs schätzen, versuchen wir, den Effekt der fitnessbezogenen natürlichen Selektion auf die Häufigkeit der in der Datenbank beobachteten Polymorphismen zu quantifizieren. Vor diesem Hintergrund teilen wir unsere Sammlung von SNPs in drei Teilmengen auf, die unterschiedlichen GMAFs entsprechen (siehe Materialen und Methoden). SNPs mit einem großen GMAF sind weit verbreitet und werden daher eher durch natürliche Selektion fixiert. Seltene Polymorphismen, die durch einen niedrigen GMAF gekennzeichnet sind, ähneln eher den Eigenschaften einer zufälligen Mutation, bei der die fitnessbezogene natürliche Selektion ihre Wirkung noch nicht abgeschlossen hat. Wir vergleichen die Eigenschaften der Teilmenge bei mittlerem GMAF (Markierung M, ) und der Teilmenge bei hoher GMAF (Markierung H, ). Wir berechnen die Häufigkeit von Substitutionen zwischen Codons C und in beiden Datensätzen und der entsprechende Fehler gemäß der Poisson-Statistik. Für jedes Paar verschiedener Codons berechnen wir: (8) wobei der Nenner eine Schätzung des statistischen Fehlers der Differenz am Zähler ist. Abbildung 1 zeigt die kumulative Verteilungsfunktion (cdf) von In derselben Abbildung zeichnen wir die cdf einer Gauß-Verteilung mit Durchschnitt 0 und SD 1. Die Ähnlichkeit zwischen den beiden Kurven zeigt, dass die Differenz ( ) zwischen den h und m Datensätze können auf statistische Fehler zurückgeführt werden. Daraus können wir schließen, dass für die von unserem Verfahren ausgewählte Untergruppe der SNPs keine offensichtliche Verzerrung in der Häufigkeit der Beobachtung eines Polymorphismus im mittleren bis hohen Bereich von GMAF vorliegt. Wir wiederholten dann den gleichen Test und verglichen den Satz von SNPs bei mittlerem + hohem GMAF und einen Satz mit (Label niedrig, L). Der geschätzte cdf für die Mengen L und M+H ist ebenfalls in der Abbildung gezeigt und unterscheidet sich signifikant von dem cdf der betrachteten Gauß-Funktion. Dies impliziert, dass die Unterschiede in der Häufigkeit von Substitutionen zwischen den L- und den M + H-Mengen nicht vollständig auf statistische Fehler zurückgeführt werden können. Dies bedeutet nach unserer Interpretation, dass die fitnessbezogene natürliche Selektion ihre Arbeit in etwa abgeschlossen hat, während dies für seltenere Polymorphismen noch nicht der Fall ist. Eine andere mögliche Interpretation ist, dass die Selektion selbst für Polymorphismen bei großen GMAF ihre Aktion noch nicht abgeschlossen hat und dass die Mengen M und H zufällig nicht unterscheidbar sind. Angesichts der Ergebnisse, die wir präsentieren werden, erscheint diese letzte Interpretation jedoch nicht wahrscheinlich.

Wirkung von GMAF auf SNP-Frequenzen. Analyse der statistischen Konsistenz zwischen SNP-Frequenzen bei hohem (Markierung H: ), mittlerem (Markierung M: ) und niedrigem (Markierung L: ) GMAF. Magenta-Linie: die kumulative Verteilungsfunktion (cdf) der relativen Differenz zwischen den M- und H-Datensätzen, die in Gleichung 8 definiert sind. Grüne Linie: die cdf der relativen Differenz zwischen den L- und M + H-Datensätzen. Schwarze Linie: der cdf einer Gaußschen Verteilung mit Nullmittelwert und Einheitsvarianz.

Die Häufigkeit von Substitutionen von SNPs und von Alignments

Wir verglichen dann die Häufigkeit von Substitutionen zwischen Aminosäuren EIN und B in unserem SNP-Datensatz, und die Häufigkeit von paarweisen Alignments bei Sequenzidentität, nämlich bei sehr hoher Sequenzidentität (siehe Materialen und Methoden). In Abbildung 2 zeichnen wir den Vergleich dieser Häufigkeiten von Eintrag zu Eintrag, beide mit nach Poisson-Statistik geschätzten Fehlerbalken. Die roten Punkte entsprechen den Aminosäurepaaren, deren Codons sich nur um ein Nukleotid unterscheiden. Für diese Einträge wird nur unter Berücksichtigung von Substitutionen mit geschätzt. Bei diesen Einträgen ist die Korrelation gut, auch wenn der statistische Fehler nicht groß genug ist, um die Abweichungen von der Diagonalen vollständig zu erklären: statistische Fehler decken ∼30% der Differenz ab.

Substitutionsfrequenzen in SNPs und Alignments. Vergleich der Substitutionshäufigkeiten zwischen Aminosäuren in unserer Auswahl von SNPs ( ) und in nicht-gekoppelten paarweisen Alignments mit einer der als human markierten Sequenzen ( ). Jeder Punkt entspricht einem Aminosäurepaar und dessen x-Wert ist gegeben durch while its ja-Wert ist Die Fehlerbalken zeigen die nach Poisson-Statistik geschätzten statistischen Fehler. Die Häufigkeiten der wenigen Einträge, die in SNPdb nicht vorhanden sind, werden herkömmlicherweise auf den kleinsten Größenwert von ( ) gesetzt, um sie im logarithmischen Maßstab sichtbar zu machen. Rote Punkte: die Einträge, die Aminosäurepaaren entsprechen, die durch eine einzelne Nukleotidsubstitution ineinander mutieren können. Hier werden geschätzt, indem nur Substitutionen mit blauen Punkten berücksichtigt werden: die Einträge von Aminosäurepaaren, die durch Codons kodiert werden, die sich um zwei oder drei Nukleotide unterscheiden. Hier werden geschätzt, indem Substitutionen mit einem beliebigen Wert von GMAF berücksichtigt werden, da kein Eintrag mit in dbSNP vorhanden ist. Schwarze Linie:

Die blauen Punkte entsprechen Aminosäurepaaren, deren Codons sich um zwei oder drei Nukleotide unterscheiden. Histidin wird beispielsweise von CAT und CAC kodiert und Phenylalanin von TTT und TTC. Daher sind mindestens zwei Substitutionen notwendig, um Histidin in Phenylalanin umzuwandeln. Mehrere gleichzeitige Substitutionen sind in dbSNP vorhanden, auch wenn sie fast immer mit einem niedrigen GMAF assoziiert sind, und werden dann ausgeschlossen, wenn nur Einträge mit ausgewählt werden GMAF. Der Anteil der auf diese Weise erhaltenen multiplen Nukleotidpolymorphismen beträgt 0,46% der Gesamtmenge, eine Zahl in der gleichen Größenordnung wie die Schätzung in Smith et al. (2003), aber niedrig im Vergleich zu anderen Schätzungen (Averof et al. 2000 Schrider et al. 2011). Diese Einträge sind von großen statistischen Fehlern und möglicherweise sogar von systematischen Fehlern betroffen, da sie Einträge mit einem sehr niedrigen GMAF enthalten. Es scheint sich jedoch eine leichte Korrelation zu zeigen.

Diese Analyse zeigt, dass die aus der dbSNP-Datenbank und den Alignments geschätzten Häufigkeiten von Aminosäuresubstitutionen korreliert sind, jedoch mit Abweichungen, die nicht vollständig auf statistische Fehler zurückgeführt werden können. Die Abweichungen sind besonders schwerwiegend für Einträge, die mit mehreren Nukleotidsubstitutionen verbunden sind. Im nächsten Abschnitt werden wir zeigen, dass die in Abbildung 2 beobachteten Inkonsistenzen weitgehend durch die Berücksichtigung der Mutationsratenvariabilität berücksichtigt werden können.

Vorhersage von Substitutionswahrscheinlichkeiten

Wir zeigen nun, dass unter Berücksichtigung der Mutationsratenvariabilität die Austauschhäufigkeiten zwischen Codons, die aus unserer Auswahl von SNPs abgeleitet wurden, verwendet werden können, um Substitutionswahrscheinlichkeiten in Alignments vorherzusagen. Wie beschrieben in Materialen und Methoden, leiten wir von einer Substitutionsratenmatrix auf Codons ab, . Aus dieser Matrix werden die Übergangswahrscheinlichkeiten zwischen Codons und Aminosäuren geschätzt, indem angenommen wird, dass die Substitutionsraten -verteilt sind (Gleichung 3).

Um die Qualität eines Modells der Proteinsequenz-Evolution zu bewerten, analysieren wir die Scores: (9) Wo ist die Übergangswahrscheinlichkeit von Aminosäure A zu Aminosäure B in der evolutionären Zeit T der Sequenzidentität entspricht die Häufigkeit der Aminosäure B, und soll hier als natürlicher Logarithmus verstanden werden. Um zu überprüfen, ob die von unserem Modell vorhergesagte Dynamik ein guter Deskriptor der realen ist, vergleichen wir mit dem äquivalenten Score, der aus nicht verknüpften paarweisen Sequenzausrichtungen bei derselben Sequenzidentität extrahiert wurde (siehe Materialen und Methoden).

In Abbildung 3A zeigen wir den Eintrag-für-Eintrag-Vergleich von Alignments bei 92,5% der Sequenzidentität und abgeleitet von unserem Modell (Gleichung 3) bei derselben Sequenzidentität. Für das SNP-Modell ist der Parameter α der Verteilung (siehe Materialen und Methoden) wurde nach der Optimierung auf gesetzt (siehe Abbildung S5 in Datei S1). In solchen Plots zeichnet sich ein gutes Modell durch Punkte aus, die entlang der Linie mit den geringsten Abweichungen liegen. Aminosäurepaare, deren Austausch durch eine einzelne Nukleotidänderung bestimmt werden kann, sind durch rote Kreise gekennzeichnet, während diejenigen Paare, für die dies nicht möglich ist, durch blaue Kreuze gekennzeichnet sind. Die Punkte liegen in beiden Teilmengen nahe der Linie, was beweist, dass das Modell die Substitutionswahrscheinlichkeiten in den Alignments bei 92,5% der Sequenzidentität sowohl für einzelne als auch für multiple Nukleotidsubstitutionen korrekt vorhersagt.

Vergleich von Modellen mit Daten von Alignments bei 92,5% der Sequenzidentität. Vergleich der Scores von Alignments in UniRef (x-Achse) und die Punktzahl verschiedener Evolutionsmodelle (ja-Achse). Die Bewertungen werden alle mit einer Sequenzidentität von 92,5% berechnet. Jeder Punkt entspricht einem Aminosäurepaar ( ). Ein anderer Punktstil wird verwendet, um Aminosäurepaare, deren Austausch durch eine einzelne Nukleotidänderung (rote Kreise) bestimmt werden kann, von den Paaren zu unterscheiden, bei denen mindestens zwei Nukleotide mutieren müssen (blaue Kreuze). Die Scores, bei denen die erste und die zweite Aminosäure übereinstimmen, sind der Übersichtlichkeit halber nicht dargestellt. Jedes Paneel entspricht einem anderen Modell: (A) (B) - - (beachten Sie, dass die ja Achse ist nicht die gleiche wie in den anderen Panels) (C): JTT-Modell (Jones et al. 1992) (D): LG-Modell (Le und Gascuel 2008) (E): ECM-unrestricted-Modell (Kosiol et al. 2007) (F): BLOSUM90 (Henikoff und Henikoff 1992). Gestrichelte Linie:

In Abbildung 3B vergleichen wir (x-Achse) und erhalten durch Abschätzen der Übergangswahrscheinlichkeiten mit Gleichung 4, nämlich unter der Annahme, dass sich Proteinstellen mit der gleichen Geschwindigkeit entwickeln. Im Gegensatz zu Tafel (A) ist der Vergleich hier nicht sehr gut, mit Abweichungen vergleichbar mit denen in Abbildung 2. Auch wenn die Punkte in der Nähe der Linie liegen, sind die Scores für die Aminosäureaustausche, bei denen Doppel- oder Dreifachmutationen erforderlich sind werden systematisch unterschätzt. Es ist offensichtlich, dass die Berücksichtigung der Variabilität der Substitutionsraten das -basierte Modell genauer macht.

In den anderen Panels von Abbildung 3 vergleichen wir mit den Werten einiger populärer Modelle für die Evolution der Proteinsequenz: JTT (Jones et al. 1992) in Panel (C), LG (Le und Gascuel 2008) in Panel (D), die Codonmatrix ECM-unrestricted (Kosiol et al. 2007) in Tafel (E) und BLOSUM90 (Henikoff und Henikoff 1992) in Tafel (F). Für jedes Modell wurde die Zeit so gewählt, dass eine Sequenzidentität von 92,5% erreicht wird (siehe Materialen und Methoden). Für JTT, LG, ECM und auch für die WAG-Matrix (Whelan und Goldman 2001), die wir im Folgenden betrachten, haben wir die jeweiligen Matrizen mit und ohne Berücksichtigung der Preisunterschiede zwischen den Standorten entwickelt, ähnlich wie für Wir haben das überprüft , in all diesen Fällen verschlechtert die Berechnung von Übergangswahrscheinlichkeiten durch Mittelung über die Verteilung der Raten (Gleichung 3) die Leistungen eher als sie zu verbessern (siehe Abbildung S1 in Datei S1). Daher verwenden wir im Vergleich in Abbildung 3 und in allen folgenden Vergleichen die Version (Gleichung 4). Dies mag kontraintuitiv erscheinen, da bekannt ist, dass die -Korrektur bei all diesen Modellen die phylogenetischen Schätzungen tendenziell verbessert. Allerdings ist die Verteilung nur im Durchschnitt enthalten, ohne dass jedem Standort ein bestimmter Satz zugeordnet wird (Miyazawa 2011a Rizzato et al. 2016).

Aus Abbildung 3 wird deutlich, dass bei einer Sequenzidentität von 92,5% keines der analysierten Modelle die Wahrscheinlichkeit mehrfacher Substitutionen genauer abschätzt als die Standardmodelle (JTT, LG, ECM-unrestricted und BLOSUM ) überschätzen sie. Insbesondere BLOSUM90 schafft es dramatisch nicht, experimentelle Daten zu reproduzieren. Das wird irgendwie erwartet. Während alle anderen hier betrachteten Modelle auf einem evolutionären Modell von Substitutionen basieren, wird BLOSUM90 aus konservierten Blöcken multipler Sequenz-Alignments (Henikoff und Henikoff 1991) gelernt, deren maximale Sequenzidentität 90% und ohne explizite untere Schranke beträgt. Als Konsequenz ist BLOSUM90 zwar perfekt geeignet, um Alignments bei mittlerer und niedriger Sequenzidentität zu bewerten, aber nicht optimal, um solche bei hoher Sequenzidentität zu bewerten. Die gleiche Argumentation kann auf jede andere BLOSUM-Matrix erweitert werden.

Um die Qualität des Scores quantitativ zu beurteilen, haben wir den durchschnittlichen Abstand von der Diagonale der Punkte in einem Diagramm von Eintrag zu Eintrag (wie in den Feldern von Abbildung 3) geteilt durch die Varianz der Daten berechnet: (10) wo

Niedrigere Werte von δ implizieren bessere Vorhersagen. In Abbildung 4 tragen wir den Wert von δ für alle Modelle im Sequenzidentitätsbereich 75–100%. Insbesondere beschreibt die dicke gestrichelte Linie die Leistung des Modells, das mit dem festen Wert von erhalten wurde. Im Sequenzidentitätsbereich von 80–100% schneidet dieses Modell vergleichbar oder sogar besser ab als das JTT-Modell und übertrifft die anderen getesteten Modelle. Im unteren Sequenzidentitätsbereich verliert dieses Modell jedoch viel von seiner Vorhersagekraft (siehe auch Abbildung S3 in Datei S1). Dies kann an der in Gleichung 3 impliziten Näherung liegen, dass die Raten zeitlich konstant bleiben, was bekanntlich nicht zutrifft (Fitch und Markowitz 1970 Penny et al. 2001 Lopez et al. 2002). Gaucher et al. (2001), (2002) beobachteten, dass dieses Phänomen zu einem Wachstum des Formparameters führt α mit evolutionärer Zeit. Um diesem Effekt näherungsweise Rechnung zu tragen, haben wir erlaubt α zeitlich linear variieren nach dem Modell von Miyazawa (2011a) (siehe Materialen und Methoden) und erhielten die durch die dicke durchgezogene Linie in Abbildung 4 beschriebene Leistung. Wir nehmen hier eine evolutionäre Zeit, die einer Sequenzidentität von 92,5 % entspricht. Daher ist das Modell identisch mit bei fixed α bei dieser Sequenzidentität, während größere Werte von . verwendet werden α bei niedrigerer Sequenzidentität. Auch wenn dieser Ansatz die zeitliche Variabilität der Raten nur annähernd beschreibt, verbessert er die Leistung des Modells ohne zusätzliche Parameter hinzuzufügen.

Leistung der verschiedenen Modelle für die Sequenzidentität in 75–100%. Die durchschnittliche Differenz aus der Vorhersage eines Modells und den Beobachtungen im Alignment (Gleichung 10) als Funktion der Sequenzidentität. Die dicke gestrichelte Linie wird durch das SNP + -Modell erhalten, mit einem festen Wert von α Parameter der Verteilung. Die dicke durchgezogene Linie erhält man durch Variieren α zeitlich linear nach dem Modell von Miyazawa (2011a). Die dünnen Linien entsprechen den anderen von uns betrachteten Modellen: JTT, LG, ECL, WAG und SNP ohne Korrektur (Schlüssel zur Abbildung).

Likelihood-Tests an phylogenetischen Bäumen

In order to further benchmark the robustness of our model of protein sequence evolution, we perform likelihood ratio tests, using the PAML software package (Yang 2007), of our and other popular models, using reference datasets of phylogenetic trees and multiple sequence alignments on amino acids retrieved from the Phylome Database (Huerta-Cepas et al. 2014). Here, we use a reduced rate matrix on amino acids instead of that on codons, as described in Materialen und Methoden. Two phylomes are considered: one containing homologous sequences of closely related species (only primates), and another covering a wide diversity of species (mammals, birds, insects, plants, fungi, bacteria…). On a collection of 111 multiple sequence alignments of primates and their corresponding phylogenetic trees, our model provides the best likelihood values over the four tested models (SNP, JTT, WAG, and LG) for 48% of the phylogenetic trees being assessed (see File S3). Surprisingly, these results are obtained at practically any level of average sequence identity (40–99%) in this first dataset (see Table 1). This indicates that our model can also be considered for phylogenetic inference from multiple alignments of sequences in evolutionary close species, such as the primate phylome tested here. These tests are performed for each model by including the standard -correction implemented in the PAML software and, during the optimization, branch lengths are optimized keeping tree topologies fixed. We are confident that the quality of these results could be further improved if using our substitution rate matrix on codons instead of its reduction on amino acids, since they lead to different dynamics (Kosiol and Goldman 2011 Miyazawa 2013). When the same test is performed on a phylome that covers a wide variety of species (labeled as Multiple species in Table 1), the likelihood improves only for alignments at very high average sequence identity (see File S4). Indeed, our model is derived only from data at extremely high sequence identity and from the same species (Homo sapiens SNPs). However, also in the multiple species phylome, half of the phylogeny reconstructions in the range of high sequence identity can be improved with our SNP model.


ALIGNMENTS

LALIGN - (EMBnet) finds multiple matching subsegments in two sequences. Provides one with % identity for different subsegments of the sequence.

FFAS - The Fold and Function Assignment System. The profile of a user's protein can now be compared with

20 additional profile databases. The user can, through a series of tabs, navigate multiple results pages, and also includes novel functionality, such as a dotplot graph viewer, modeling tools, an improved 3D alignment viewer and links to the database of structural similarities. ( Reference: Jaroszewski, L. et al. 2011. Nucleic Acids Res. 39(Web Server issue):W38-44)

Compare Two Sequences with LALIGN/PLALIGN find internal duplications by calculating non-intersecting local alignments of protein or DNA sequences. LALIGN shows the alignments and similarity scores, while PLALIGN presents a "dot-plot" like graph.

SFESA (Shift to Fix secondary structure ElementS in EINlignments) - is a web server for pairwise alignment refinement by secondary structure shifts.SFESA evaluates alignment variants generated by local shifts and selects the best-scoring alignment variant. ( Reference: Tong J et al (2015). Proteins. 83(3): 411-427).

LAST - provides a lot of control of data handling, along with dotplots and coloured alignments ( Reference: Kielbasa SM et al. Genome Res 21(3): 487-93).

Wasabi - (Andres Veidenberg, University of Helsinki, Finland) is a browser-based application for the visualisation and analysis of multiple alignment molecular sequence data.

VerAlign multiple sequence alignment comparison is a comparison program that assesses the quality of a test alignment against a reference version of the same alignments.

Pairwise nucleotide sequence alignment for taxonomy (EzBioCloud, Seoul National University, Republic of Korea) - for nucleotide sequences < 5 kb it gives colour aligments and a similarity score based upon Myers and Miller (Global alignment)

GeneWise (EMBL-EBI) - compares a protein sequence to a genomic DNA sequence, allowing for introns and frameshifting errors.

SIM - Alignment tool for protein (ExPASy, Switzerland) gives fragmented alignments similar to LALIGN.

WebPRANK - server supports the alignment of DNA, protein and codon sequences as well as protein-translated alignment of cDNAs, and includes built-in structure models for the alignment of genomic sequences. The resulting alignments can be exported in various formats widely used in evolutionary sequence analyses. The webPRANK server also includes a powerful web-based alignment browser for the visualisation and post-processing of the results in the context of a cladogram relating the sequences, allowing (e.g.) removal of alignment columns with low posterior reliability. In addition to de novo alignments, webPRANK can be used for the inference of ancestral sequences with phylogenetically realistic gap patterns, and for the annotation and post-processing of existing alignments. ( Reference: Löytynoja, A., & Goldman, N. 2010. BMC Bioinformatics 11: 579).

BLAST2 (NCBI) - also useful for DNA sequence comparisons. Provides small graphic which is only of use with proteins or short DNA sequences.

Protein Sequence similarity and identity scores:

EMBOSS supermatcher Use 10 and 0.5 as the defaults in the Gap opening penalty and Gap extension penalty, respectively.
EMBOSS matcher - finds the best local alignments between two sequences

FOLDALIGN - folds and aligns RNA structures (make a foldalignment) based on a lightweight energy model and sequence similarity. The current version makes pairwise fold alignments. ( Reference: J. H. Havgaard et al. 2005. Bioinformatics 21: 1815 - 1824).

COMPARE MULTIPLE SEQUENCES :

BACKGROUND INFORMATION: There are two good on-line help sites for CLUSTAL W. These are (ein) On-line help fo r CLUSTAL (Wiki.) and, (B) Multiple sequence alignment , (Wiki)

ClustalW - Multiple Sequence Alignment (EBI, United Kingdom). This provides one with a number of options for data presentation, homology matrices [BLOSUM (Henikoff), PAM (Dayhoff) or GONNET, and presentation of phylogenetic trees (Neighbor-Joining, Phylip or Distance). Sites offering ClustalW alignment are at the Kyoto University and chEMBLnet.org

Clustal Omega - is a new multiple sequence alignment program that uses seeded guide trees and HMM profile-profile techniques to generate alignments. ( Reference: Sievers, F. et al. 2011. Molecular Systems Biology 7 Article number: 539)

MAFFT Multiple sequence alignment and NJ / UPGMA phylogeny - I recently attempted to align thirteen 50kb bacteriophage genomes using ClustalW, not no success, MAFFT provided the alignment incredibly quickly. Unfortunately it would not generate a tree. The Clustal data was opened in ClustalX and the tree saved in default settings and visualized in FigTree ( Reference: Katoh, K. et al. 2002. Nucl. Acids Rese. 30 : 3059-3066).

DbClustal - (EMBL-EBI) aligns sequences from a BlastP database search with one query sequence. The alignment algorithm is based on ClustalW2 modified to incorporate local alignment data in the form of anchor points between pairs of sequences. Very colorful output.

LALIGN - part of VISTA Tools for Comparative Genomics

PROBCONS - is a novel tool for generating multiple alignments of protein sequences. Using a combination of probabilistic modeling and consistency-based alignment techniques, PROBCONS has achieved the highest accuracies of all alignment methods to date. On the BAliBASE benchmark alignment database, alignments produced by PROBCONS show statistically significant improvement over current programs, containing an average of 7% more correctly aligned columns than those of T-Coffee, 11% more correctly aligned columns than those of CLUSTAL W, and 14% more correctly aligned columns than those of DIALIGN. ( Reference: C.B. Do et al. 2005. Genome Res. 15: 330-340).

webPRANK - incorporates phylogeny-aware multiple sequence alignment, visualisation and post-processing in an easy-to-use web interface.( Reference: Löytynoja, A., & Goldman, N. 2010. BMC Bioinformatics. 11:579).

GUIDANCE - implements two different algorithms for evaluating confidence scores: (i) the heads-or-tails (HoT) method, which measures alignment uncertainty due to co-optimal solutions (ii) the GUIDANCE method, which measures the robustness of the alignment to guide-tree uncertainty. The server projects the confidence scores onto the MSA and points to columns and sequences that are unreliably aligned. These can be automatically removed in preparation for downstream analyses. Hinweis Need at least 8 sequences( Reference: Penn, O. 2010. Nucleic Acids Res. 38(Web Server issue):W23-28).

SALIGN - automatically determines the best alignment procedure based on the inputs, while allowing the user to override default parameter values. Multiple alignments are guided by a dendrogram computed from a matrix of all pairwise alignment scores. When aligning sequences to structures, SALIGN uses structural environment information to place gaps optimally. If two multiple sequence alignments of related proteins are input to the server, a profile-profile alignment is performed.( Reference: Braberg, H. et al. 2012. Bioinformatics. 28(15):2072-2073).

AlignMe (for Alignment of Membrane Proteins) is a very flexible sequence alignment program that allows the use of various different measures of similarity. Thesesimilarity measures include: substitution matrices, hydrophobicity scales and any kind of profiles (i.e. secondary structure predictions or transmembrane predictions). ( Reference: Khafizov K et al. 2014. Nucl. Acids Res. 42(W1), W246-W251)

PRALINE - is a multiple sequence alignment program with many options to optimize the information for each of the input sequences e.g. global or local preprocessing, predicted secondary structure information and iteration capabilities. ( Reference: V.A. Simossis et al. (2005) Nucleic Acids Res. 33: 816-824). Example of PRALINE output:

Gene Context Tool - is an incredible tool for visualizing the genome context of a gene or group of genes (synteny). In the following diagram an RpoN (Sigma54) protein was analyzed. ( Reference: R. Ciria et al. (2 004) Bioinformatics 20: 2307-2308).

ConSurf is is a bioinformatics tool for estimating the evolutionary conservation of amino/nucleic acid positions in a protein/DNA/RNA molecule based on the phylogenetic relations between homologous sequences. The degree to which an amino (or nucleic) acid position is evolutionarily conserved is strongly dependent on its structural and functional importance rapidly evolving positions are variable while slowly evolving positions are conserved. ( Reference: Ashkenazy, H. et al. 2010. Nucl. Acids Res. 38 (suppl 2): W529-W533).

MultAlin - Multiple sequence alignment by Florence Corpet (Institut National de la Recherche Agronomique (INRA), France). Hinweis The results are presented in colour.

Multiple Alignment - GeneBee service (Belozersky Institute of Physico-chemical Biology, Moscow State University, Russia) . Hinweis This service also provides phylogenetic analysis of the data.

PROMALS3D - constructs alignments for multiple protein sequences and/or structures using information from sequence database searches, secondary structure prediction, available homologs with 3D structures and user-defined constraints. ( Reference: Pei, J. et al. 2008. Nucleic Acids Res. 36(7): 2295-2300 ).

SANSparallel: interactive homology search against Uniprot - the webserver provides protein sequence database searches with immediate response and professional alignment visualization by third-party software. The output is a list, pairwise alignment or stacked alignment of sequence-similar proteins from Uniprot, UniRef90/50, Swissprot or Protein Data Bank. The stacked alignments are viewed in Jalview or as sequence logos. The database search uses the suffix array neighborhood search (SANS) method, which has been re-implemented as a client-server, improved and parallelized. The method is extremely fast and as sensitive as BLAST above 50% sequence identity. ( Reference: P. Somervuo & L. Holm. 2015. Nucl. Acids Res. 43 (W1): W24-W29).

DiAlign (Univ. Bielfeld, Germany) - "DIALIGN is a novel program for multiple alignment developed by Burkhard Morgenstern et al. While standard alignment methods rely on comparing single residues and imposing gap penalties, DIALIGN constructs pairwise and multiple alignments by comparing whole segments of the sequences."

The Coffee Collection - T-Coffee (Aligns DNA, RNA or Proteins using the default T-Coffee), M-Coffee (Aligns DNA, RNA or Proteins by combining the output of popular aligners), R-Coffee (Aligns RNA sequences usingpredicted secondary structures), Expresso (Aligns protein sequences using structural information), PSI-Coffee (Aligns distantly related proteins using homology extension) and TM-Coffee (Aligns transmembrane proteins using homology extension). ( Reference: Di Tommaso. P. et al. 2011. Nucleic Acids Res. 39(Web Server issue: W13-17 Chang, J.M. et al. 2012. BMC Bioinformatics. 13 Suppl 4: S1).

TM-Aligner - provides multiple sequence alignment for transmembrane proteins ( Reference: Bhat B et al. (2017) Scientific Reports 7: Article number: 12543 ).

LocARNA - mmehrere EINlignment of RNAs - is a tool for multiple alignment of RNA molecules. LocARNA requires only RNA sequences as input and will simultaneously fold and align the input sequences. LocARNA outputs a multiple alignment together with a consensus structure. For the folding it makes use of a very realistic energy model for RNAs as it is by RNAfold of the Vienna RNA package (or Zuker's mfold). For the alignment it features RIBOSUM-like similarity scoring and realistic gap cost. ( Reference: C. Smith et al. 2010. Nucl. Acids Res. 38: W373-377).

CARNA is a tool for multiple alignment of RNA molecules. CARNA requires only the RNA sequences as input and will compute base pair probability matrices and align the sequences based on their full ensembles of structures. Alternatively, you can also provide base pair probability matrices (dot plots in .ps format) or fixed structures (as annotation in the FASTA alignment) for your sequences. If you provide fixed structures, only those structures and not the entire ensemble of possible structures is aligned. In contrast to LocARNA, CARNA does not pick the most likely consensus structure, but computes the alignment that fits best to all likely structures simultaneously. Hence, CARNA is particularly useful when aligning RNAs like riboswitches, which have more than one stable structure. ( Reference: A. Dragos et al. 2012. Nucleic Acids Reseach 40: W49-W53)

Web-Beagle: a web server for the pairwise global or local alignment of RNA secondary structures. ( Reference: E. Mattei et al. 2015. Nucl. Acids Res. 43 (W1): W493-W497).

Alternative presentations of alignments:
BOXSHADE - (Hofmann & Baron, Institute Pasteur, France) This version accepts a wide variety of file formats and allows the requester considerable flexibility in defining the output appearance (colour and arrangement as well as format).

ESPript 3.0 - (IUniversite Lyon, France) - is a program which renders sequence similarities and secondary structure information from aligned sequences for analysis and publication purpose. This requires that you save your alignment as a *.aln file. Good control over output appearance and format is available (ps, tiff and gif). ( Reference: Robert X. & Gouet P. 2014. Nucl. Acids Res. 42 (W1), W320-W324).

Multiple Align Show - (Bioinformatics.org/The Open Lab University of Massachusetts Lowell) Allows considerable choice in colouring alignments.

Sequence comparison between two genomes:


Confused about the calculation of BLOSUM matrix - Biology

Principal Component Analysis

A principal component analysis can be performed via the calculations dialog which is accessed by selecting Calculate→Calculate Tree or PCA. .

This calculation creates a spatial representation of the similarities within a selected group, or all of the sequences in an alignment. After the calculation finishes, a 3D viewer displays the set of sequences as points in 'similarity space', and similar sequences tend to lie near each other in the space.

Vorbehalte
The calculation can be computationally expensive, and may fail for very large sets of sequences - usually because the JVM has run out of memory. However, the PCA implementation in Jalview 2.10.2 employs more memory efficient matrix storage structures, allowing larger PCAs to be performed.

Principal components analysis is a technique for examining the structure of complex data sets. The components are a set of dimensions formed from the measured values in the data set, and the principal component is the one with the greatest magnitude, or length. The sets of measurements that differ the most should lie at either end of this principal axis, and the other axes correspond to less extreme patterns of variation in the data set.

Calculating PCAs for aligned sequences
Jalview can perform PCA analysis on both proteins and nucleotide sequence alignments. In both cases, components are generated by an eigenvector decomposition of the matrix formed from pairwise similarity scores between each pair of sequences. The similarity score model is selected on the calculations dialog, and may use one of the available score matrices, such as BLOSUM62, PAM250, or the simple single nucleotide substitution matrix, or by sequence percentage identity, or sequence feature similarity.

The PCA Viewer

This is an interactive display of the sequences positioned within the similarity space, as points in a rotateable 3D scatterplot. The colour of each sequence point is the same as the sequence group colours, white if no colour has been defined for the sequence, and grey if the sequence is part of the currently selected group. The viewer also employs depth cueing, so points appear darker the farther away they are, and become brighter as they are rotated towards the front of the view.

The 3d view can be rotated by dragging the mouse with the left mouse button pressed, or with the Pfeiltasten Wenn SCHICHT is pressed. The view can also be zoomed in and out with the up and down Pfeiltasten (and the roll bar of the mouse if present). Labels will be shown for each sequence if the entry in the View menu is checked, and the plot background colour changed from the View→Background Colour.. dialog box. The File menu allows the view to be saved (File→Save submenu) as an EPS or PNG image or printed, and the original alignment data and matrix resulting from its PCA analysis to be retrieved. The coordinates for the whole PCA space, or just the current view may also be exported as CSV files for visualization in another program or further analysis.

Options for coordinates export are:

  • Output Values - complete dump of analysis (TxT* matrix computed from sum of scores for all pairs of aligned residues from from i->j and j->i, conditioned matrix to be diagonalised, tridiagonal form, major eigenvalues found)
  • Output Points - The eigenvector matrix - rows correspond to sequences, columns correspond to each dimension in the PCA
  • Transformed Points - The 3D coordinates for each sequence as shown in the PCA plot

A tool tip gives the sequence ID corresponding to a point in the space, and clicking a point toggles the selection of the corresponding sequence in the associated alignment window views. By default, points are only associated with the alignment view from which the PCA was calculated, but this may be changed via the View→Associate Nodes Untermenü.

Initially, the display shows the first three components of the similarity space, but any eigenvector can be used by changing the selected dimension for the x, y, or z axis through each one's menu located below the 3d display. Die Reset button will reset axis and rotation settings to their defaults.

The output of points and transformed point coordinates was added to the Jalview desktop in v2.7. The Reset button and Change Parameters menu were added in Jalview 2.8. Support for PAM250 based PCA was added in Jalview 2.8.1.In Jalview 2.11, support for saving and restoring PCAs in Project files was added, and the Change parameters menu removed.

Reproducing PCA calculations performed with older Jalview releases Jalview 2.10.2 included a revised PCA implementation which treated Gaps and non-standard residues in the same way as a matrix produced with the method described in the paper by G. Casari, C. Sander and A. Valencia. Structural Biology volume 2, no. 2, February 1995 (pubmed) and implemented at the SeqSpace server at the EBI. To reproduce calculations performed with earlier Jalview releases it is necessary to execute the following Groovy script: This script enables the legacy PCA mode where gaps were treated as 'X', and to modify the BLOSUM62 matrix so it is asymmetric for mutations between C to R (this was a typo in the original Jalview BLOSUM62 matrix which was fixed in 2.10.2).


Step by Step Explanation of PCA

Step 1: Standardization

The aim of this step is to standardize the range of the continuous initial variables so that each one of them contributes equally to the analysis.

More specifically, the reason why it is critical to perform standardization prior to PCA, is that the latter is quite sensitive regarding the variances of the initial variables. That is, if there are large differences between the ranges of initial variables, those variables with larger ranges will dominate over those with small ranges (For example, a variable that ranges between 0 and 100 will dominate over a variable that ranges between 0 and 1), which will lead to biased results. So, transforming the data to comparable scales can prevent this problem.

Mathematically, this can be done by subtracting the mean and dividing by the standard deviation for each value of each variable.

Once the standardization is done, all the variables will be transformed to the same scale.

Step 2: Covariance Matrix computation

The aim of this step is to understand how the variables of the input data set are varying from the mean with respect to each other, or in other words, to see if there is any relationship between them. Because sometimes, variables are highly correlated in such a way that they contain redundant information. So, in order to identify these correlations, we compute the covariance matrix.

The covariance matrix is a P × P symmetric matrix (where P is the number of dimensions) that has as entries the covariances associated with all possible pairs of the initial variables. For example, for a 3-dimensional data set with 3 variables x, ja, und z, the covariance matrix is a 3×3 matrix of this from:

Covariance Matrix for 3-Dimensional Data

Since the covariance of a variable with itself is its variance (Cov(a,a)=Var(a)), in the main diagonal (Top left to bottom right) we actually have the variances of each initial variable. And since the covariance is commutative (Cov(a,b)=Cov(b,a)), the entries of the covariance matrix are symmetric with respect to the main diagonal, which means that the upper and the lower triangular portions are equal.

What do the covariances that we have as entries of the matrix tell us about the correlations between the variables?

It’s actually the sign of the covariance that matters :

  • if positive then : the two variables increase or decrease together (correlated)
  • if negative then : One increases when the other decreases (Inversely correlated)

Now, that we know that the covariance matrix is not more than a table that summaries the correlations between all the possible pairs of variables, let’s move to the next step.

Step 3: Compute the eigenvectors and eigenvalues of the covariance matrix to identify the principal components

Eigenvectors and eigenvalues are the linear algebra concepts that we need to compute from the covariance matrix in order to determine the principal components of the data. Before getting to the explanation of these concepts, let’s first understand what do we mean by principal components.

Principal components are new variables that are constructed as linear combinations or mixtures of the initial variables. These combinations are done in such a way that the new variables (i.e., principal components) are uncorrelated and most of the information within the initial variables is squeezed or compressed into the first components. So, the idea is 10-dimensional data gives you 10 principal components, but PCA tries to put maximum possible information in the first component, then maximum remaining information in the second and so on, until having something like shown in the scree plot below.

Percentage of Variance (Information) for each by PC

Organizing information in principal components this way, will allow you to reduce dimensionality without losing much information, and this by discarding the components with low information and considering the remaining components as your new variables.

An important thing to realize here is that, the principal components are less interpretable and don’t have any real meaning since they are constructed as linear combinations of the initial variables.

Geometrically speaking, principal components represent the directions of the data that explain a maximal amount of variance, that is to say, the lines that capture most information of the data. The relationship between variance and information here, is that, the larger the variance carried by a line, the larger the dispersion of the data points along it, and the larger the dispersion along a line, the more the information it has. To put all this simply, just think of principal components as new axes that provide the best angle to see and evaluate the data, so that the differences between the observations are better visible.