-
バイオシーケンスを比較して整列させることがなぜ有用なのですか?
アラインメントは、すべての生物が進化によって関連付けられているという事実に依存しています。これは、進化において互いにより近い種のヌクレオチド(DNA、RNA)およびタンパク質シリーズがより高い類似性を示さなければならないことを使用します。 アラインメントは、最大レベルの同一性を得るために配列を整列させる段階であり、配列間の類似性の程度も定義します。共通の祖先を送信する場合、2つのシーケンスが相同です。 配列アラインメントによって得られる類似性の程度は、2つの配列間の相同性の可能性を決定するのに有益である可能性があります。このような整列サポートは、系統樹として知られている進化ツリー内のさまざ
-
BLASTローカルアラインメントアルゴリズムとは何ですか?
BLASTアルゴリズムは、1990年頃に米国国立バイオテクノロジー情報センター(NCBI)でAltschul、Gish、Millerによって作成されました。 BLASTは、配列間の機能的および進化的関係を導き出し、遺伝子ファミリーのメンバーを認識するのに役立ちます。 NCBI Webサイトには、いくつかの一般的なBLASTデータベースが含まれています。それらの内容に従って、それらはヌクレオチドおよびタンパク質データベースに結合されます。 NCBIは、ベクタースクリーニングデータベース、複数の生物のゲノムデータベース、トレースデータベースなどの特殊なBLASTデータベースもサポートしています。
-
タプルIDの伝播とは何ですか?
タプルID伝播は、仮想結合を実装するためのアプローチであり、マルチリレーショナル分類の有効性を大幅に向上させます。リレーションを物理的に結合するのではなく、ターゲットタプルのIDを非ターゲットリレーションのタプルに接続することで、仮想的に結合されます。 この方法では、物理的な結合が実装されているかのように述語を計算できます。タプルIDの伝播は柔軟で効果的です。これは、IDをいくつかの2つのリレーション間で簡単に伝播でき、少量のデータ転送とより多くのストレージスペースしか必要としないためです。そうすることで、複数の関係にある述語を小さな冗長な計算で計算できます。 タプルIDの伝播は、特定の制
-
マルチリレーショナルクラスタリングとは何ですか?
マルチリレーショナルクラスタリングは、データオブジェクトをクラスターのグループに分割するフェーズであり、複数のリレーションのデータを使用して、それらの類似性に依存します。 CrossClusは、ユーザーガイダンスによる相互関係クラスタリングを表します。これは、物理的な結合を防ぐためにクラスタリングとタプルIDの伝播でユーザーガイダンスを使用する方法を分析するマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングの主な課題は、複数の関係にいくつかの属性があり、一般に、それらのごく一部のみが明確なクラスタリングタスクに関連していることです。 学生をクラスター
-
そのようなデータに対してどのように一般化を実行できますか?
設定値属性は、同種または異種のタイプにすることができます。一般に、設定値の情報は次のように一般化できます セット内のすべての値を同等の上位レベルの概念に一般化する セット内の複数の要素、セット内のタイプまたは値の範囲、統計データの加重平均、またはセットによって形成された主要なクラスターを含む、セットの通常の動作の導出。 さらに、一般化は、いくつかの一般化演算子を使用して代替の一般化パスを分析することによって実装できます。この方法では、一般化の結果は異種の集合になります。 例 −人の趣味が、値のセット{テニス、ホッケー、サッカー、バイオリン、SimCity}を含むセット値
-
空間データマイニングに統計的手法を使用するのはどうですか?
統計的空間データ分析は、空間データを探索し、地理データを分析するための有名な手法です。地球統計学という用語は連続的な地理的領域に関連していますが、空間統計学という用語は離散空間に関連しています。 非空間レコードを管理する統計モデルでは、一般に、データの異なる領域間の統計的独立性を考慮します。ただし、従来のデータセットとは異なり、空間的に分散されたデータ間にはそのような独立性はありません。実際には、2つのオブジェクトが近くに配置されるほど、共有される可能性が高くなるという意味で、空間オブジェクトは相互に関連している、またはより正確に空間的に同じ場所に配置されていることが多いためです。同じプロパ
-
自動化されたドキュメント分類はどのように実行できますか?
膨大な数のオンラインファイルが存在するため、自動ドキュメント分類は不可欠なテキストマイニングサービスです。ドキュメントの取得と継続的な分析をサポートするために、このようなレコードをクラスに自動的に整理できることは無限ですが重要です。 ドキュメント分類は、自動化されたトピックのタグ付け(つまり、ドキュメントへのラベルの割り当て)、トピックディレクトリの構築、ドキュメントの書き込みスタイルの識別、および一連のドキュメントに関連するハイパーリンクの目標の定義に使用されています。 一般的な手順は次のとおりです。最初に、事前に分類されたファイルのグループがトレーニングセットとして使用されます。トレー
-
ドキュメントクラスタリング分析とは何ですか?
ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元
-
この統計情報は、クエリの回答にどのように役立ちますか?
統計パラメータは、次のようにトップダウンのグリッドベースのアプローチで使用できます。最初に、階層アーキテクチャ内のレイヤーが決定され、そこからクエリ応答手順が開始されます。 この層には通常、少数のセルが含まれます。現在のレイヤーのすべてのセルについて、特定のクエリに対するセルの関連性を反映した信頼区間(または推定確率範囲)を計算できます。 高レベルのセルの統計パラメータは、低レベルのセルのパラメータから簡単に計算できます。これらのパラメーターには、次のものが含まれます。属性に依存しないパラメーター、count、および属性に依存するパラメーター、mean、stdev(標準偏差)、min(最小
-
COWEBの働きは何ですか?
COBWEBは、オブジェクトを分類ツリーに段階的に含めます。 COBWEBは、オブジェクトを定義する「最適なホスト」またはノードを検索するために、割り当てパスに沿ってツリーを下降し、メソッドに沿ってカウントを更新します。 この決定は、各ノードでオブジェクトを一時的に配置し、結果の除算のカテゴリユーティリティを計算することに依存します。最高の要素ユーティリティをもたらす配置は、オブジェクトの最適なホストである必要があります。 COBWEBは、オブジェクトに対して新しいノードが作成された場合に発生する可能性のあるパーティションのカテゴリユーティリティも計算します。オブジェクトは現在のクラスにあ
-
CLIQUEとは何ですか?
CLIQUEは、高次元領域での次元成長サブエリアクラスタリング用に予測された最初のアルゴリズムでした。次元成長サブエリアクラスタリングでは、クラスタリングプロセスは単一次元の部分空間から始まり、より高次元の部分空間に向かって増加します。 CLIQUEは、グリッドアーキテクチャなどの各次元を分割し、含まれる複数のポイントに基づいてセルが密集しているかどうかを判断するためです。これは、密度ベースとグリッドベースのクラスタリングアプローチの統合と見なすことができます。 CLIQUEクラスタリングアルゴリズムの考え方は次のとおりです- 多次元データポイントの大規模なグループが与えられると、デ
-
PROCLUSとは何ですか?
PROCLUSは、ProjectedClusteringの略です。これは、通常の次元削減部分空間クラスタリング手法です。つまり、個々の次元の空間から開始するのではなく、高次元の属性領域でクラスターの元の近似を見つけることから始まります。 各ディメンションにはクラスターごとに重みが作成され、更新された重みは次の反復でクラスターを再作成するために使用されます。これにより、いくつかの便利な次元のすべての部分空間で密集した領域が探索され、低次元の投影された次元で多数の重複するクラスターが生成されるのを防ぎます。 PROCLUSは、CLARANSで使用されているものと同様の山登り法フェーズによって、最
-
障害物とのクラスタリングの問題にどのように取り組むことができますか?
セットとそのクラスター中心間の距離を最小化するため、分割クラスタリング手法が望ましい。 k-means法を選択できる場合、障害物が存在するため、クラスターセンターを使用できません。 たとえば、クラスターが湖の中心にあることが判明する場合があります。つまり、k-medoidsメソッドは、クラスター内のオブジェクトを中心として選択するため、問題が発生しないことが保証されます。 新しいメドイドが選択されるたびに、各オブジェクトとその新しく選択されたクラスター中心の間の距離を再計算する必要があります。 2つのオブジェクト間に障害物が存在する可能性があるため、2つのオブジェクト間の距離は、幾何学的計
-
シーケンシャル例外テクニックとは何ですか?
シーケンシャル例外手法は、人間が異常なセットを、おそらく類似しているオブジェクトのシーケンス間から区別できる方法をシミュレートします。データの暗黙的な冗長性に役立ちます。 n個のオブジェクトのデータセットDが与えられると、サブセットのシーケンス{D 1を構築します。 、D 2 、...、D m }、2≤m≤nのこれらのオブジェクトのうち $$ \ mathrm {D_ {j-1} \ subset D_ {j} \:\:where \:D_ {j} \ subseteq D} $$ 相違点は、シリーズのサブセット間で評価されます。このテクニックは、次の用語を学習します- 例
-
データマイニングにおけるランダム化アルゴリズムとデータストリーム管理システムとは何ですか?
ランダム化アルゴリズム −ランダムサンプリングとブループリントの形式のランダム化されたアルゴリズムは、大規模で高次元のデータストリームを処理するために使用されます。ランダム化の必要性は、既知の決定論的アルゴリズムとは対照的に、より単純でより効果的なアルゴリズムにつながります。 ランダム化されたアルゴリズムが継続的に正しい答えを返すが、実行時間が変化する場合、それはラスベガスアルゴリズムと呼ばれます。対照的に、モンテカルロアルゴリズムには実行時間に制限がありますが、実際の結果を復元することはできません。通常、モンテカルロアルゴリズムを考慮することができます。ランダム化アルゴリズムの重要性は、決
-
Lossy Countingアルゴリズムはどのようにして頻繁なアイテムを見つけますか?
ユーザーは、最小サポートしきい値σと、εとして示されている以前にバインドされたエラーを含む2つの入力パラメーターをサポートします。着信ストリームは、理論的には幅w =[1/ε]のバケットに分割されます。 Nを現在のストリームの長さ、つまりこれまでに表示されたアイテムの数とします。アルゴリズムには、頻度が0より高いすべての要素の頻度リストデータ構造が必要です。すべての項目について、リストはf、おおよその頻度カウント、および∆、fの可能な最大誤差をサポートします。 アイテムのアルゴリズムプロシージャバケットは次のとおりです。新しいバケットが到着すると、バケット内のアイテムが頻度リストに挿入され
-
データストリームクラスタリングの方法論は何ですか?
データストリームクラスタリングは、電話データ、マルチメディアデータ、金銭的トランザクションなどを含む継続的に表示されるデータのクラスタリングとして説明されます。データストリームクラスタリングは、一般にストリーミングアルゴリズムとして扱われ、目的は、一連のポイントを指定して、最適なクラスタリングを作成することです。少量のメモリと時間を利用して、ストリームの 一部のアプリケーションでは、類似性に基づいて、そのようなデータをセットに自動クラスタリングする必要がありました。例には、Web侵入検知、Webクリックストリームの分析、および株式市場分析のためのアプリケーションが含まれています。 静的デー
-
STREAMとは何ですか?
STREAMは、k-中央値問題のために作成された個別パスの定数要素近似アルゴリズムです。 k-medians問題は、ポイントとそれらが割り当てられているクラスター中心との間の二乗和誤差(SSQ)が最小になるように、N個のデータポイントをk個のクラスターまたはグループにクラスター化することです。アイデアは、同じクラスターに同様のポイントを割り当てることです。これらのポイントは、他のクラスターのポイントとは異なります。 ストリームデータモデルでは、データポイントは1回しか表示できず、メモリと時間は制限されています。高品質のクラスタリングを実装できます。STREAMアルゴリズムは、データストリーム
-
CBRとは何ですか?
CBRは事例ベース推論の略です。 CBR分類器には、新しい問題を明確にするための問題解決策のデータベースが必要です。トレーニングタプルをユークリッド空間の点として保存する最近傍分類器とは異なり、CBRは、問題解決のためのタプルまたは「ケース」を難しい記号表現として保存します。 CBRのさまざまなビジネスアプリケーションには、カスタマーサービスヘルプデスクの問題解決が含まれ、ケースでは製品関連の診断問題が説明されます。 CBRは、エンジニアリングや法律などの分野で使用されており、ケースはそれに応じて技術設計または法的判決です。 医学教育はCBRのアプリケーションであり、患者の病歴と治療を使用
-
一般化線形モデルとは何ですか?
一般化線形モデルは、線形回帰を使用してカテゴリ別応答変数のモデリングを行うことができる理論上の権限を定義します。一般化線形モデルでは、応答変数yの分散は、yの分散が一定である線形回帰とは異なり、yの平均値の関数です。 一般化線形モデル(GLM)は、従来の線形モデルを拡張したものです。このアルゴリズムは、対数尤度を最大化することにより、一般化線形モデルを情報に適合させます。エラスティックネットペナルティは、パラメーターの正則化に使用できます。モデルフィッティングの計算は並列で完全に高速であり、係数がゼロ以外の予測子が一定数あるモデルに対して完全に適切にスケーリングされます。 一般化線形モデル