English
Last Updated $Date: 2007/08/15 02:57:00 $

WoLF PSORTについて

概要

WoLF PSORTはアミノ酸配列から蛋白質の細胞内局在部位を予測する。WoLF PSORTの予測法は、古くなったPSORTIIプログラムの大幅な改良で、既知の局在 化モチーフと、アミノ酸組成にように因果関係は弱いが、局在部位と相関のあ る特徴に基づいて予測を行なう。WoLF PSORTはPSORTとPSORTIIと同じく、予測結果 以外にも局在化シグナルについて有効な情報を表示するようになっている。

我々の計算実験(APBC06)ではWoLF PSORTの予測率は80%を越えている。 特に、数の多い局在部位では、配列上の類似度があまりなくても、WoLF PSORT から有意義な予測結果が得られるので、BLASTのような配列類似度検索ツール を補うことができる。

データセット

WoLF PSORTのデータセットは主にUniprotとGene Ontology(GO)の記述に基づいて作られて いる。以下の表で局在部位とGOの"Cellular Component"との対応を示して いる。しかし、データセットは、Uniprotの"Subcellular Localization"欄のみから定義した 蛋白質を多く含んでおり、GOとの対応は必ずしも完璧ではない。

局在部位とGO cellular components.
略称局在部位GO Cellular Component
chlo葉緑体  0009507, 0009543
cyto細胞質  0005829
cysk細胞骨格  0005856(2)
E.R.小胞体  0005783
extr細胞外  0005576, 0005618
golgゴルジ体  0005794(1)
lysoライソゾーム  0005764
mitoミトコンドリア  0005739
nucl核  0005634
peroペルオキシソーム 0005777(2)
plas細胞膜  0005886
vacu液胞膜  0005774(2)

略称、局在部位と対応するGO Cellular Componentを示した。GO番号の後 に括弧が付く場合は"part_of"関係にあるGO番号も含んでいることを示して いる。例えば、細胞骨格はGO:0005856のみならず、GO:0005856の"part_of"関 係子孫を深さ2(子接点と孫接点)まで含んでいる為"0005856(2)"と記述した。

学習データセット

現在使われているデータセットは動物で12,000個以上、植物と真菌類それぞれ 2,000個以上の蛋白質を含んでいる。データセットは主にUniprotを元にして集めたが、 Gene Ontologyから取った、数百個のナズナ(Arabidopsis thaliana) 蛋白質も含まれている。

特徴量

PSORT(中井、金久)、とiPSORT(坂内ら)、の特徴の一部分に、アミノ酸組成や 配列の長さを加えた集合を特徴量の候補として採用している。

分類法

我々が開発したWoLFプログラムで特徴量の選択と 重み付けを行なった後、重み付きkNN法で分類を行なう。つまり、クエ リ配列を予測する方法は、局在予測用の特徴量から計算した類似度で、データ セットの中からクエリ配列にもっとも類似したk個の蛋白の局在部位を 参考にして予測を行なう。

引用

  • サーバ:

    Paul Horton, Keun-Joon Park, Takeshi Obayashi, Naoya Fujita, Hajime Harada, C.J. Adams-Collier, & Kenta Nakai,
    "WoLF PSORT: Protein Localization Predictor",
    Nucleic Acids Research, doi:10.1093/nar/gkm259, 2007.
    [概要] [論文]
  • 予測方法:

    Paul Horton, Keun-Joon Park, Takeshi Obayashi & Kenta Nakai,
    "Protein Subcellular Localization Prediction with WoLF PSORT",
    Proceedings of the 4th Annual Asia Pacific Bioinformatics Conference APBC06, Taipei, Taiwan. pp. 39-48, 2006.
    [概要] [論文]

    開発者

    WoLF PSORTは が共同で開発している。

    パッケージ

    2006年9月にWoLF PSORT package version 0.2 を公開しました。使用条件はアカデミック・フリーですが、企業の方にも比較的簡単に 使っていただけるようになっています。詳細はパッケージ内の記述を参照してください。

    局在部位毎の予測率

    WoLF PSORTの予測率は局在部位により大幅に変わります。 一般的な傾向としては、Uniprot Annotationでの蛋白数が少ない局在部位は予測率が非常に低いです。 この問題を定量的に調べる為に、我々は予測されたutilityと局在部位毎の予測率統計を調べました。

    チュートリアル

    Linux初心者向けチュートリアルがあります。

    謝辞


    seqTeam CBRC AIST Copyright (C) National Institute of Advanced Science and Technology (AIST), Computational Biology Research Center (CBRC). All Rights Reserved.