Last Updated $Date: 2008/10/17 05:23:09 $
WoLF PSORTについて
概要
WoLF PSORTはアミノ酸配列から蛋白質の細胞内局在部位を予測する。WoLF
PSORTの予測法は、古くなったPSORTIIプログラムの大幅な改良で、既知の局在
化モチーフと、アミノ酸組成にように因果関係は弱いが、局在部位と相関のあ
る特徴に基づいて予測を行なう。WoLF PSORTはPSORTとPSORTIIと同じく、予測結果
以外にも局在化シグナルについて有効な情報を表示するようになっている。
我々の計算実験(APBC06)ではWoLF PSORTの予測率は80%を越えている。
特に、数の多い局在部位では、配列上の類似度があまりなくても、WoLF PSORT
から有意義な予測結果が得られるので、BLASTのような配列類似度検索ツール
を補うことができる。
データセット
WoLF PSORTのデータセットは主にUniprotとGene Ontology(GO)の記述に基づいて作られて
いる。以下の表で局在部位とGOの"Cellular Component"との対応を示して
いる。しかし、データセットは、Uniprotの"Subcellular Localization"欄のみから定義した
蛋白質を多く含んでおり、GOとの対応は必ずしも完璧ではない。
局在部位とGO cellular components.
| 略称 | 局在部位 | GO Cellular Component
|
|---|
| chlo | 葉緑体 | 0009507, 0009543
|
| cyto | 細胞質 | 0005829
|
| cysk | 細胞骨格 | 0005856(2)
|
| E.R. | 小胞体 | 0005783
|
| extr | 細胞外 | 0005576, 0005618
|
| golg | ゴルジ体 | 0005794(1)
|
| lyso | ライソゾーム | 0005764
|
| mito | ミトコンドリア | 0005739
|
| nucl | 核 | 0005634
|
| pero | ペルオキシソーム | 0005777(2)
|
| plas | 細胞膜 | 0005886
|
| vacu | 液胞膜 | 0005774(2)
|
略称、局在部位と対応するGO Cellular Componentを示した。GO番号の後
に括弧が付く場合は"part_of"関係にあるGO番号も含んでいることを示して
いる。例えば、細胞骨格はGO:0005856のみならず、GO:0005856の"part_of"関
係子孫を深さ2(子接点と孫接点)まで含んでいる為"0005856(2)"と記述した。
学習データセット
現在使われているデータセットは動物で12,000個以上、植物と真菌類それぞれ
2,000個以上の蛋白質を含んでいる。データセットは主にUniprotを元にして集めたが、
Gene Ontologyから取った、数百個のナズナ(Arabidopsis thaliana)
蛋白質も含まれている。
特徴量
PSORT(中井、金久)、とiPSORT(坂内ら)、の特徴の一部分に、アミノ酸組成や
配列の長さを加えた集合を特徴量の候補として採用している。
分類法
我々が開発したWoLFプログラムで特徴量の選択と
重み付けを行なった後、重み付きkNN法で分類を行なう。つまり、クエ
リ配列を予測する方法は、局在予測用の特徴量から計算した類似度で、データ
セットの中からクエリ配列にもっとも類似したk個の蛋白の局在部位を
参考にして予測を行なう。
引用
サーバ:
Paul Horton, Keun-Joon Park, Takeshi Obayashi, Naoya Fujita, Hajime Harada, C.J. Adams-Collier, & Kenta Nakai,
"WoLF PSORT: Protein Localization Predictor",
Nucleic Acids Research, doi:10.1093/nar/gkm259, 2007.
[概要]
[論文]
予測方法:
Paul Horton, Keun-Joon Park, Takeshi Obayashi & Kenta Nakai,
"Protein Subcellular Localization Prediction with WoLF PSORT",
Proceedings of the 4th Annual Asia Pacific Bioinformatics Conference APBC06, Taipei, Taiwan. pp. 39-48, 2006.
[概要]
[論文]
開発者
WoLF PSORTは
- CBRCのポール・ホートン
- CBRCにいた朴 根準 (現:韓国疾病管理本部国立保険研究院)
- 東工大にいた大林 武 (現:東大医科研)
- Collier TechnologiesのC.J. Adams-Collier
- 東大医科研の中井謙太
が共同で開発している。
パッケージ
2006年9月にWoLF PSORT package version 0.2
を公開しました。使用条件はアカデミック・フリーですが、企業の方にも比較的簡単に
使っていただけるようになっています。詳細はパッケージ内の記述を参照してください。
局在部位毎の予測率
WoLF PSORTの予測率は局在部位により大幅に変わります。
一般的な傾向としては、Uniprot Annotationでの蛋白数が少ない局在部位は予測率が非常に低いです。
この問題を定量的に調べる為に、我々は予測されたutilityと局在部位毎の予測率統計を調べました。
チュートリアル・プレゼン資料
謝辞
- GOから局在データを抽出するに当たって、太田先生から貴重なアドバイスをいただきました。
- サーバの基本設計はC.J.Collier氏が行なった(ただし、その後の変更に対する責任は勿論ない...)
 |
 |
Copyright (C) National Institute of Advanced Science and Technology (AIST), Computational Biology Research Center (CBRC). All Rights Reserved.
|