STRING
STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) ist eine Bioinformatik-Datenbank, die einen umfassenden Überblick über direkte (physikalische) und indirekte (funktionelle) Zusammenhänge und Interaktionen zwischen Proteinen gibt. Sie wird gemeinsam vom European Molecular Biology Laboratory (EMBL) und der Universität Zürich betrieben.
Die frei zugängliche Datenbank wird regelmäßig aktualisiert und enthält Informationen aus experimentellen Daten, anderen Datenbanken, Literatur und am Computermodell berechneten Interaktionsvorhersagen. In der aktuellen Version 8 (Stand Januar 2009) werden ca. 2,5 Millionen Proteine von 630 Spezies berücksichtigt.[1]
Hintergrund
Protein-Protein Interaktionen basieren nicht nur auf direkten physikalischen Bindungen, es spielen auch indirekte Zusammenhänge eine Rolle, wie z. B. das Vorkommen im gleichen Stoffwechselweg, gegenseitiges Regulieren oder gemeinsames Auftreten in größeren Proteinverbänden.
STRING integriert diese Daten so, dass man einen schnellen Überblick über ein Protein und sein Zusammenspiel mit anderen Proteinen bekommt. Die Interaktionen werden automatisch über den Organismus hinaus, in dem sie erstmals beschrieben wurden, auf orthologe Proteinpaare in anderen Organismen übertragen.
Funktionsweise
Viele der vorhergesagten Protein-Protein Interaktionen werden von anderen Datenbanken importiert, ein großer Teil der Ergebnisse wird de novo erstellt. Um solche Vorhersagen treffen zu können, bietet das ständige Wachstum vollständig sequenzierter Genome die Möglichkeit, den sogenannten „genomic-context“ zu nutzen. Dies basiert auf folgenden Punkten:
- conserved genomic neighborhood
- gene fusion events
- co-occurrence of genes across genomes
Alle drei Kriterien basieren auf der Annahme, dass alle aufgeführten Proteine unter gemeinsamen Selektionsdruck während der Evolution standen und somit funktionell assoziiert sein müssen. Das heißt, es wird angenommen, dass Gene/Proteine, die eine ähnliche Funktion oder ein Vorkommen im gleichen Stoffwechselweg haben, mussten zusammen erhalten und auch reguliert werden, sie haben das gleiche "phylogenetische Profil". Man stellte fest, dass sie in Nachbarschaft auf dem Genom vorkommen, an Gen-Fusion-Events teilnehmen etc. Man nutzt den Umkehrschluss z. B. bei der Vorhersage der Funktion von unbekannten Proteinen: Nachbarschaft auf dem Genom, gemeinsame Genfusion, gleiche Abfolge im Genom in unterschiedlichen Spezies während der Evolution lassen auf eine ähnliche Funktion der Proteine schließen. Wie bei allen angezeigten Protein-Interaktionen wird auch hier ein Konfidenz-Score angezeigt, wobei die KEGG (Kyoto Encyclopedia of Genes and Genomes) in diesem Fall als Referenz dient.
Bei vielen Proteinen existieren aber bereits zahlreiche Artikel, die auf Experimenten basieren. String bietet hier einen direkten Link zu den jeweiligen Quellen, z. B. zu PubMed, KEGG, MIPS (Munich Information Center for Protein Sequences) und zu BIND (Biomolecular Interaction Network Database).
Ergebnisse und Referenzen
Die Ergebnisse lassen sich in unterschiedlicher graphischer Darstellung anschauen. Für jeden gefundenen Zusammenhang von Proteinen werden Punkte vergeben. Bei funktionellen Zusammenhängen zwischen Proteine wird KEGG als Referenz genommen, diese Datenbank wurde manuell erstellt und führt auf, welche Proteine in welchem Stoffwechsel gemeinsam auftreten. Es wird auch die in PubMed zu Proteininteraktionen veröffentlichte Literatur miteinbezogen. Hier wird aber nur verglichen, ob die Proteine zusammen im Abstract erwähnt werden.
Nach den unterschiedlichen Bewertungen wird ein „combined score“ zwischen beiden Proteinen gebildet, der alle Unterergebnisse miteinschließt. Dieser Wert ist häufiger höher als die Unterergebnisse, was darauf zurückzuführen ist, dass ein höherer Wert angenommen wird, wenn mehrere Untergruppen einen Zusammenhang zwischen zwei Proteinen vermuten lassen.
Bei einer hohen Konfidenz von >0,9 kann man mit sehr hoher Wahrscheinlichkeit von einer direkten oder indirekten Interaktion ausgehen.
Quellen
- ↑ Jensen, Lars J. et al. (2009): STRING 8 — a global view on proteins and their functional interactions in 630 organisms In: Nucleic Acids Res. Bd. 37, S. D412-D416. doi:10.1093/nar/gkn760 PDF
Literatur
- von Mering et.al. 2007: STRING 7--recent developments in the integration and prediction of protein interactions. Nucleic Acids Res. 2007 Jan;35(Database issue):D358-62. Epub 2006 Nov 10.)
- von Mering et.al. 2005: STRING: known and predicted protein-protein associations, integrated and transferred across organisms (Nucleic Acids Res. 2005 Jan 1;33(Database issue):D433-7)
- von Mering et.al. 2003: STRING: a database of predicted functional associations between proteins (Nucleic Acids Res. 2003 Jan 1;31(1):258-61)(Nucleic Acids Res. 2000 Sep 15;28(18):3442-4)
- Snel et.al. 2000: STRING: a web-server to retrieve and display the repeatedly occurring neighbourhood of a gene (Nucleic Acids Res. 2000 Sep 15;28(18):3442-4)
Weblinks
- STRING – die Datenbank STRING online
NCBI-BLAST | CDART | CDD | Ensembl | Entrez Gene | Flybase | Flymine | Genome-Browser | GeneCard | GFP-cDNA | Google Scholar | GoPubMed | Harvester42 | H-InvDB | HomoloGene | iHOP | IPI | MGI | Mitocheck | OMIM | PolyMeta | PSORT | RGD | Unigene | UniProt | SMART | SOSUI | SOURCE | RZPD | STRING | TAIR | Wikiprofessional | ZFIN |