-
k-NNアルゴリズムの利点は何ですか?
k最近傍アルゴリズムは、クラスメンバーシップ(Y)と予測子X 1の間の関係の構造に関する仮定を作成しない分類アプローチです。 、X 2 、…。 X n 。 これは、線形回帰でふりをした線形形式を含む、ふりをした関数形式でのパラメーターの推定を含まないため、ノンパラメトリックアプローチです。このメソッドは、データセット内のデータの予測値間の類似性からデータを抽出します。 k-NN法の利点は、その整合性とパラメトリックな仮定の必要性です。膨大なトレーニングセットが存在する場合、これらのアプローチは、各クラスが予測値のいくつかの組み合わせによって特徴づけられる場合に特に効果的です。
-
判別分析のパフォーマンスはどうですか?
判別分析アプローチは、分類スコアに現れる2つの主要な仮定に依存しています。最初に、一部のクラスの予測子の測定値が多変量正規分布から現れると見なします。この仮説が合理的に組み立てられている場合、判別分析は、ロジスティック回帰を含む他の分類方法よりも動的なツールです。 データが多変量正規分布である場合、判別分析はロジスティック回帰よりも30%効果的であり、同等の結果に到達するために必要なレコードは30%少ないことが表示されます。この方法は、予測子が非正規変数、さらにはダミー変数である可能性があるという意味で、正規性から逸脱するのに比較的強力であることが示されています。 これは、最小のクラスが十
-
インスタンスベースの表現とは何ですか?
学習の最も単純な構造は、単純な暗記、または暗記です。トレーニングインスタンスのグループが記憶されているため、新しいインスタンスに遭遇すると、新しいインスタンスに最も強力に類似しているトレーニングインスタンスのメモリが調査されます。 唯一の問題は、どのように類似点を明確にするかです。まず、これはインスタンスのグループから抽出された「知識」を記述するまったく異なる方法です。これは、インスタンス自体を格納し、クラスが不明な新しいインスタンスを、クラスが既知の現在のインスタンスに関連付けることによって機能します。ルールを作成しようとするのではなく、インスタンス自体から直接作業します。これはインスタン
-
デシジョンツリーを構築する方法は?
デシジョンツリーはフローチャートのようなツリーメカニズムであり、各内部ノードは属性のテストを示し、各部門はテストの結果を定義し、リーフノードはクラスまたはクラス分布を記述します。ツリーで最大のノードはルートノードです。 デシジョンツリーの構築の問題は、再帰的に定義できます。まず、ルートノードに配置する属性を選択し、可能な値ごとに1つのブランチを作成します。これにより、サンプルセットがサブセットに分割されます(属性の値ごとに1つ)。この手順は、部門に到達するインスタンスのみを利用して、すべてのブランチに対して再帰的に繰り返すことができます。ノードの一部のインスタンスが同様の分類を持っている場合
-
データマイニングの推定方法は何ですか?
10分割交差検定は、特定のデータセットの学習スキームのエラー率を測定する標準的な方法です。信頼できる結果を得るには、10倍の交差検定を行います。 Leave-one-out相互検証とブートストラップの2つの方法があります。 Leave-One-Out相互検証 Leave-one-out交差検定は、公然とn分割交差検定です。ここで、nはデータセット内の複数のインスタンスです。各インスタンスは順番に省略され、学習スキームは残りのすべてのインスタンスでトレーニングされます。残りのインスタンスの正確さによって計算されます。つまり、成功または失敗の場合は1または0になります。データセットの各グループに
-
動径基底関数ネットワークとは何ですか?
フィードフォワードネットワークの一般的なタイプは、動径基底関数(RBF)ネットワークです。入力層を数えずに2つの層があり、隠れユニットが計算を実装する方法で多層パーセプトロンとは対照的です。 各非表示ユニットは、入力スペース内の特定のポイントと、そのポイントとインスタンスの間の距離(異なるポイントのみ)に基づいて、特定のインスタンスの出力またはアクティブ化を大幅に定義します。これらの2つのポイントが近いほど、アクティベーションが向上します。 これは、非線形変換関数を利用して距離を類似度に変更することで実装されます。この目的には、通常、隠しユニットごとに幅を変えることができるベル型のガウスア
-
一般化エグザンプラとは何ですか?
一般化されたエグザンプラは、インスタンス領域の長方形のスコープであり、高次元であるため、超直方体として知られています。新しいインスタンスを定義するときは、距離関数を変換して、超直方体までの距離を計算できるようにすることが不可欠です。 新しいエグザンプラが正しく定義されると、同様のクラスの最も近いエグザンプラと直接マージすることによって一般化されます。最も近いエグザンプラは、個々のインスタンスまたは超直方体にすることができます。 このメソッドでは、前のインスタンスと新しいインスタンスをカバーする新しい超直方体が生成されます。超直方体は、新しいインスタンスを囲むように拡張されます。最後に、予測
-
教師なし離散化のアプローチは何ですか?
可能な値の数が連想的に少ない(有限の)場合、属性は離散的ですが、連続属性は可能な値の数が非常に多い(無限)ように扱われます。 言い換えると、離散データ属性は、範囲が有限群である関数と見なすことができますが、連続データ属性は、範囲が無限の完全順序群、通常は区間である関数です。 離散化は、連続属性が取る可能性のある値の数を、それらをいくつかの間隔に分割することによって減らすことを目的としています。離散化の問題には2つの方法があります。 1つは、トレーニングクラスのインスタンスのクラスに関する知識がない場合に、すべての属性を量子化することです。いわゆる教師なし離散化です。 2つ目は、監視対象の
-
デスクトップの検討の課題は何ですか?
デスクトップマシンのサイズは、ユーザーの特性と関連するツールの要件に基づいています。必要なデータがWebブラウザを介してHTMLドキュメントによって満たされるカジュアルなユーザーは、インターネットブラウザを実行するのに必要なだけの電力を必要とします。 一方、複雑なクエリと分析を最初から開発するパワーユーザーは、より動的なマシンを必要とする可能性があります。次のようなデスクトップ関連の課題がいくつかあります- クロスプラットフォームのサポート −一部の組織では、マーケティング組織にMacintoshの支持があり、一部の組織では、エンジニアリングと製造にUNIXストアが必要です。複数のデスクト
-
ディレクトリサーバーとは何ですか?
ディレクトリサーバーは、関連するネットワーク上でアクセス可能なリソースのデータウェアハウスの一種です。データベースデバイス、個々のデータベース、ファイルリポジトリ、トランザクションシステム、ファイルストレージ領域、プリンタ、人などのリソース。 人物の説明には、名前と住所、組織の役割、電子メールアドレスなどが含まれます。ディレクトリサーバーは、選択された情報を正当な認証されたリクエスターに公開します。これは、関連するネットワークでの通信方法を見つけるための、便利で一元化された制御リソースとなることを目的としています。 多くのベンダーは、ディレクトリサーバーとの通信、つまり暗黙的にディレクトリ
-
対称鍵暗号化とは何ですか?
暗号化の最も単純な形式は、対称鍵暗号化です。この種の暗号化は、秘密鍵暗号化とも呼ばれます。対称鍵暗号化を使用すると、単一の秘密鍵で情報のロックとロック解除の両方を行うことができます。 対称鍵暗号化は、主に2つの状況で興味深いものです- データのプライベート暗号化 −ユーザーは、ユーザーが他人に公開しない秘密鍵を使用してデータを暗号化します。キーが適切なものである場合、他の誰もデータを復号化できません。 データのプライベート暗号化は、データウェアハウスでいくつかの用途があります。特に機密性の高いデータは、暗号化することができます。秘密鍵暗号化は、制約されていない数値ファクトテーブルデータに
-
公開鍵暗号化とは何ですか?
対称鍵暗号化には、鍵を安全に配布する方法という大きな問題があります。 2つのリモートパーティが、Webを介しても安全な接続リンクを設定する問題を管理するために、複数の暗号化スキームのセットが作成されています。これらの暗号化スキームは、公開鍵暗号化と呼ばれます。 公開鍵暗号化では、1つの鍵が情報を暗号化し、2番目の鍵が情報を復号化するため、2つの鍵があります。このスキームでは、キーの1つが秘密キーとして指定され、もう1つが公開キーとして指定されます。 秘密鍵はレコードの所有者によって分類されて保持され、公開鍵は世界中のすべての人に自由かつ広範囲に発表されます。公開鍵のリストはどこにでも書き込
-
データウェアハウス環境の要素は何ですか?
データウェアハウジングは、主にさまざまなソースからデータを収集および管理して、ビジネスに有意義なビジネス洞察を与えるために使用される手法です。データウェアハウスは、管理上の意思決定をサポートするように特別に設計されています。 簡単に言うと、データウェアハウスは、組織の運用データベースから独立して維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴データの強力なプラットフォームを提供することにより、データ処理をサポートします。 データウェアハウスは、データを多次元空間で一般化および一元化します。データウェ
-
ファクトテーブルの処理は何ですか?
ファクトテーブルには、複数の外部キー(ディメンションテーブルごとに1つ)と、これらのディメンションを使用するメジャーごとの列を含む複合主キーが含まれます。 すべてのデータステージングプロセスには、ファクトテーブルの各ディメンションについて、受信ファクトテーブルレコードの本番IDをデータウェアハウスの代理キーに置き換える手順を含める必要があります。他の処理、計算、および再構築も必要になる場合があります。 ウェアハウスでは、参照整合性(RI)により、ファクトテーブルの外部キーごとに、同等のディメンションテーブルにエントリが続くことが定義されます。製品番号323442のファクトテーブルに販売があ
-
データマイニング変換とは何ですか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 データマイニングには、次のようなさまざまな変換があります- フラグの正常、異常、範囲外、または不可能な事実 −測定されたファクトに特別なフラグを付けることは完全に有益です。いくつかの測定された事実は正しいかもしれませんが、非常に珍しいです。おそらく、これらの事実は、小さなサン
-
データマイニングの基本的な概念は何ですか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 データマイニングには次のようなさまざまな概念があります- 分類 −分類は、クラスラベルが匿名であるオブジェクトのクラスを予測するためにモデルを使用できるようにすることを目的として、データクラスまたは概念を表現および区別するモデルを検出する手順です。導出されたモデルは、トレーニ
-
データの視覚化の用途は何ですか?
データの視覚化は、包括的なチャート、画像、リスト、チャート、および複数のビジュアルオブジェクトをサポートして、データの視覚的表現を定義します。これにより、ユーザーはほんのわずかな時間でデータを学習し、有用なデータ、パターン、および傾向を抽出することができます。さらに、理解しやすいようにデータを作成します。 言い換えれば、ユーザーがデータの傾向のプロセスを簡単に理解できるようにするためのグラフィック形式のデータ表現は、データの視覚化と呼ばれます。 チャートマップ、グラフなど、データの視覚化に含まれるいくつかのツールがあります。データの視覚化に使用されるツールは、データシートのスキャン全体を実
-
ヒートマップとは何ですか?
ヒートマップは数値データのグラフィック表示であり、色は値を示すために使用されます。データマイニングのコンテキストでは、ヒートマップは、相関テーブルを視覚化する目的と、データ内の欠落値を視覚化する目的の2つの目的で特に役立ちます。どちらの場合も、情報は2次元のテーブルで伝達されます。 ヒートマップは、複数の値を定義するために色分けのシステムを必要とするデータのグラフィカルな説明です。ヒートマップはさまざまな形式の分析で使用されますが、特定のWebページまたはWebページテンプレートでのユーザーの行動を示すために最も一般的に使用されます。ヒートマップを使用して、ユーザーがページを押した場所、ペー
-
データソースを選択するための基準は何ですか?
データソースの選択には、次のようなさまざまな基準があります- データのアクセシビリティ −データに2つの可能なフィードが存在する場合、1つは最年少のプロジェクトチームメンバーが生まれる前に作成された一連のプログラムによって維持されるバイナリファイルに保存され、もう1つはバイナリドキュメントを読み取り、より多くの処理をサポートするシステムからのものです。決定は明白です。 データの精度 −データがシステムからシステムに渡されるときに、多くの変更が行われます。他のシステムのデータ要素が追加されることもあれば、既存の要素が処理されて新しい要素が作成されることもあり、他の要素が削除されることもありま
-
データステージングの要件は何ですか?
データステージングには、次のようなさまざまな要件があります- 生産性のサポート −実装を決定したシステムは、コードライブラリ管理のチェックイン/チェックアウト、バージョン管理、本番および開発システムの構成などの基本的な開発環境機能をサポートする必要があります。最初に、そして小規模なプロジェクトの場合、これらは標準ドキュメント、プロセスの説明、および一連の標準ディレクトリを介して実装できます。 使いやすさ −タスクの根本的な複雑さを考えると、データステージングシステムも可能な限り使用可能でなければなりません。過去数年間で、これはグラフィカルユーザーインターフェイスに変換されました。優れたイン