| SIMAP@home | |
|---|---|
| Bereich: | Biochemie |
| Ziel: | Berechnung der Ähnlichkeit von Proteinsequenzen und Speicherung in einer Datenbank |
| Betreiber: | GSF National Research Center for Environment and Health, Neuherberg
TU München, Center of Life and Food Science, Weihenstephan |
| Land: | Deutschland |
| Plattform: | BOINC |
| Website: | http://boinc.bio.wzw.tum.de/boincsimap |
| Projektstatus | |
| Status: | aktiv |
| Beginn: | 13.12.2005 |
| Ende: | noch aktiv |
SIMAP (Similarity Matrix of Proteins; dt.: Ähnlichkeits-Matrix für Proteine) ist eine Datenbank für Protein-Ähnlichkeiten. Diese Datenbank beinhaltet alle bisher veröffentlichten Proteinsequenzen und wird fortlaufend aktualisiert. Ähnlichkeiten der Proteine werden dabei unter Verwendung des FASTA-Algorithmus berechnet. Es handelt sich um die bisher einzige derartige Datenbank, die tatsächlich alle bisher bekannten Proteine mit einbezieht.
Inhaltsverzeichnis |
Proteinähnlichkeiten sind ein wichtiges Arbeitsmittel der Bioinformatik. Sie bieten ein Maß für eine Art Verwandtschaftsverhältnis zwischen verschiedenen Proteinen. Da die Zahl der bekannten Proteine bei weitem die Menge übersteigt, die sich experimentell in Labors untersuchen lässt, werden die Eigenschaften bereits untersuchter Proteine auf nahe Verwandte, also sehr ähnliche Proteine, übertragen. Bisher wurden diese Ähnlichkeiten bei Bedarf immer wieder aufs Neue berechnet. Bei SIMAP werden diese Ähnlichkeiten nun nicht bei Bedarf, sondern bereits im Voraus vollständig berechnet und in der Datenbank hinterlegt. SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg und der Technischen Universität München und steht für Forschung und Lehre vollständig kostenlos zur Verfügung.
Da der immens hohe Rechenaufwand bei der Vorausberechnung der Ähnlichkeiten die SIMAP-Kapazitäten übersteigt, entschloss man sich, mit dem Projekt BOINCSIMAP und dem Programm SIMAP@home auf Mittel des verteilten Rechnens zurückzugreifen. Dazu wurde auf der Basis von FASTA ein Client entwickelt, welcher die BOINC-Infrastruktur nutzt.
Ein weiteres Programm namens HMMER[1] nutzt das Hidden Markov Model zur Suche nach Proteindomänen und wird auch gelegentlich mit BOINCSIMAP (quasi „huckepack“) eingesetzt.
Für die Analyse der Sequenzähnlichkeiten und Domänen werden u.a. die Daten aus den Datenbanken PDB, RefSeq, UniProt und Genbank verwendet.[2]