プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

生物学的データ分析のためのデータマイニングの側面は何ですか?


生物学的データ分析のためのデータマイニングには、次の領域が続く次の側面があります-

異種の分散ゲノムおよびプロテオミクスデータベースのセマンティック統合 −ゲノムおよびプロテオミクスのデータセットは、複数のラボでさまざまな方法で生成されます。それらは分散していて、不均一で、多種多様です。このようなデータのセマンティック統合は、生物学的記録のクロスサイト分析にとって重要です。

さらに、研究文献とそれに関連する生物学的実体の間の正しいつながりを見つけることが不可欠です。このような統合および連鎖分析は、ゲノムおよび生物学的記録の体系的かつ協調的な分析をサポートすることができます。これにより、統合データウェアハウスと分散フェデレーションデータベースの開発が促進され、基本的な生物学的データと変更された生物学的データを保存および処理できるようになりました。

データクリーニング、データ統合、参照調整、分類、およびクラスタリングの方法は、生物学的記録の統合と生物学的データ分析のためのデータウェアハウスの開発をサポートします。

複数のヌクレオチド/タンパク質配列のアラインメント、インデックス作成、類似性検索、および比較分析 −過去20年間に開発された、さまざまな生物学的配列アラインメント手法があります。特にBLASTとFASTAは、ゲノムデータとプロテオミクスデータを体系的に分析するためのツールです。生物学的配列分析方法は、データマイニング研究で提案されている多くのシーケンシャルパターン分析アルゴリズムとは異なります。

挿入、削除、および変異を処理するために、クエリシーケンスと検索されるシーケンスデータ間のギャップと不一致を考慮に入れる必要があります。さらに、タンパク質配列の場合、自然界に現れる可能性のある置換によって一方を他方から変更できる場合は、2つのアミノ酸も「一致」として扱う必要があります。

構造パターンの発見と遺伝子ネットワークおよびタンパク質経路の分析 −生物学では、タンパク質配列は3次元構造に折りたたまれ、そのような構造はそれらの相対的な位置とそれらの間の距離に基づいて相互作用します。このような複雑な相互作用は、洗練された遺伝子ネットワークとタンパク質経路の基礎を形成します。

このような巨大で複雑な生物学的ネットワークの構造パターンと規則性を発見することは非常に重要です。強力でスケーラブルなデータマイニング手法を開発して、近似的で頻繁な構造パターンを発見し、そのような相互接続された生物学的ネットワーク間の規則性と不規則性を研究することが重要です。

関連付けとパス分析 −共起する遺伝子配列を特定し、遺伝子を疾患発症のさまざまな段階に関連付けることができます。アソシエーション分析法を使用して、ターゲットサンプルで追跡できる遺伝子のタイプを調整できます。このような分析は、遺伝子のチームの発見と、それらの間の相互作用と関係の研究をサポートします。


  1. パターンマイニングのアプリケーションは何ですか?

    パターンマイニングには、次のようなさまざまなアプリケーションがあります- パターンマイニングは、一般に、いくつかのデータ集約型アプリケーションでの前処理として、ノイズフィルタリングとデータクリーニングに使用されます。たとえば、数万の次元(たとえば、遺伝子の記述)を含むマイクロアレイデータを探索するために使用できます。 パターンマイニングは、データに隠された固有のメカニズムとクラスターの発見を提供します。たとえば、DBLPデータセットを考えると、頻繁なパターンマイニングでは、共著者クラスター(一般的に共同作業を行う著者を決定する)や会議クラスター(複数の著者と用語の共有を決定する)などの興味

  2. 統計データマイニングの方法論は何ですか?

    統計データマイニング技術では、一般的に多次元であり、場合によってはいくつかの複雑なタイプの大量のデータを効果的に処理するために作成されます。 データ分析、特に数値データについては、確立された統計手法がいくつかあります。これらの方法は、科学的記録(物理学、工学、製造、心理学、医学の実験からの記録など)や、経済学や社会科学からの情報に広く使用されています。 統計データマイニングにはさまざまな方法論があります- 回帰 −一般に、これらの手法は、変数が数値である新しい予測子(独立)変数から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロ