TargetMineのデータソースリスト

今のところ,TargetMineに取り込んでいるデータは,主に創薬分野で最も研究されたモデル生物である
人(human)ラット(rat),及びマウス(mouse)に絞り込んでいます。TargetMineに収録されたデータソースの要約を下表に示します。

Data Organism [1] Source
Genome annotation H, R, M Entrez Gene
Protein annotation H, R, M UniProt (including Swiss-Prot and TrEMBL)
Protein domain H, R, M InterPro
Pathways H, R, M KEGG Pathway, Reactome [2]
H NCI Pathway interaction database
Gene-gene interactions H, R, M BioGRID, iRefIndex [3]
Gene Ontology and GO annotation H, R, M Gene Ontology,
UniProt-GOA [4]
Protein 3D structure Entire dataset wwPDB, SIFTS
Structural classification SCOP, CATH
CATH protein domain assignments H, R, M Gene3D
Orthologues / Paralogues H, R, M KEGG Orthology,
TargetMine’s mapping
Transcription factor H ORegAnno, Amadeus, HTRI Database
H, M ENCODE ChIP-seq data
Enzyme H, R, M ENZYME
Chemical compounds Entire dataset DrugBank [5], ChEMBL [6],
PubChem BioAssay [7],
Ligand Expo, DrugEBIlity, ChEBI
Disease assocations H DisGeNET, ClinVar
miRNA Entire dataset miRBase
miRNA target H, R, M miRTarBase [8]
Genome-Wide Association Studies H GWAS Catalog
Microarray probe annotation H, R, M NetAffx Annotation Files [9]
Tissue H, M The Gene Expression Barcode 3.0

注記:

  1. H: human, R: rat, M: mouse.
  2. KEGG Pathway, Reactomeは特定生物種ファイルを使って統合されています。
  3. BIOGRID, iRefIndexデータは,特定生物種ファイルから統合されていますが,まだ僅かながら交配種の相互作用を含んでいるかもしれません。
  4. UniProtKB GOAは,IEAエビデンスにタグ付けされたそれらを含む特定生物種ファイルを使って統合されています。しかし,リスト分析ページでエンリッチメント分析を行っている場合は,IEAアノテーションは除外されています。
  5. DrugBank薬物標的関連は,“off-target”を含む全ての標的タイプを含んでいます。
  6. 詳細についてはChEMBL data setページを参照ください。
  7. ここのPubchem BioAssayデータには生理活性化合物のみ組み込まれています。
  8. miRTarBaseデータは,特定生物種ファイルを使用して統合され,”weak”とラベル付けされたもの含めて全てのサポートタイプを含んでいます。
  9. WTアレイのプローブセットは含まれていません。

バージョン情報については,TargetMineのデータソースページを確認してください。

Top