-
データマイニングの制限は何ですか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 データマイニングは学際的な分野であり、データベースシステム、統計、機械学習、視覚化、データサイエンスなどの一連の分野の集合体です。使用するデータマイニングアプローチに応じて、ニューラルネットワーク、ファジーおよび/またはラフ集合理論、知識表現、帰納論理プログラミング、高性能コン
-
距離関数とは何ですか?
距離は、MBRが類似性を計算する方法です。いくつかの真の距離メトリックの場合、d(A、B)で示されるポイントAからポイントBまでの距離には、次の4つの特徴があります- 明確に定義された − 2点間の距離は継続的に定義され、非負の実数、d(A、B)≥0です。 アイデンティティ − 1つの点からそれ自体までの距離は常にゼロであるため、d(A、A)=0です。 可換性 −方向によって差が生じることはないため、AからBまでの距離は、BからAまでの距離と同様です。d(A、B)=d(B、A)。この機能は、たとえば片道を排除します。 三角不等式 − AからBまでの方法で中間点Cに到達す
-
ビジネス部門でのデータマイニングの使用は何ですか?
データのナレッジディスカバリーとしても定義されるデータマイニングは、数百万のデータ(特に構造化データ)間の異常、相関、傾向、またはパターンを認識して、ビジネスの意思決定に役立つ可能性があり、従来は見逃されていた可能性のある洞察を収集する手法です。分析。データマイニングの目的は、複雑な数値アルゴリズムを使用して、以前は無視されていた、または知られていない事実やデータを見つけることです。 データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持って人によって実行されます。このフェーズには、テキストマイニング、Webマイニング、オーディオおよびビデ
-
協調フィルタリングとは何ですか?
協調フィルタリングは、パーソナライズされた推奨事項をサポートするアプリケーションに特に適した、メモリベースの推論とは異なります。協調フィルタリングシステムは、個人の好みの履歴から始まります。距離関数は、類似性が類似性を決定するのは、同じものが好きな人が近いという好みの重複に依存します。 さらに、投票は距離によって重み付けされるため、より近い隣人の投票は承認のためにより多くカウントされます。別の言い方をすれば、それは、音楽、本、ワイン、または他の誰かを発見するためのアプローチであり、同じ好みのために選択した仲間のグループの判断を使用して、特定の人の現在の好みに適合します。この方法は、ソーシャル
-
データマイニングのコンポーネントは何ですか?
データマイニングは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングは学際的な分野であり、データベースシステム、統計、機械学習、視覚化、データサイエンスなどの一連の分野の集合体です。これは、使用されるデータマイニング手法に基づいており、ニューラルネットワーク、ファジーおよびラフ集合理論、知識表現、帰納論理プログラミング、高性能コンピューティングなど、他の分野のアプローチを使用できます。 マイニングするデータの種類または特定のデータマイニングアプリケーションで確立さ
-
アソシエーションルールの適用は何ですか?
相関ルール学習は、あるデータ要素の別のデータ要素への依存性をテストし、より効果的になるように適切に作成する教師なし学習方法の一種です。データセットの変数間のいくつかの興味深い関係または関係を発見しようとします。データベース内の変数間の興味深い関係を見つけるには、いくつかのルールに依存します。 相関ルール学習は機械学習の重要な手法であり、マーケットバスケット分析、Web使用マイニング、連続生産などで使用されます。マーケットバスケット分析では、アイテム間の関係を見つけるために複数の大手小売業者が使用するのに適しています。 。 アソシエーションルールは元々、一緒に購入された製品を表すPOSデータか
-
知識発見のプロセスとして見た場合、データマイニングに含まれるステップは何ですか?
KDDは、データベースでのナレッジディスカバリーを表します。これは、データ内の知識を発見する幅広いプロセスを定義し、明確なデータマイニング技術の高レベルのアプリケーションを強調しています。これは、人工知能、機械学習、パターン認識、データベース、統計、専門システムの知識獲得、データの視覚化など、いくつかの分野の研究者が関心を持っている分野です。 KDDプロセスの主な目的は、巨大なデータベースのコンテキストで情報からデータを抽出することです。これは、データマイニングアルゴリズムを利用して、知識と見なされるものを認識することによって行われます。 データベースでのナレッジディスカバリーは、巨大なデ
-
マーケットバスケット分析とは何ですか?
マーケットバスケット分析は、個々の方法を表すものではなく、POSトランザクションデータの理解に関連する一連のビジネス上の問題を表します。マーケットバスケットデータは、ユーザー、注文(購入またはバスケット、または学術論文ではアイテムセットとも呼ばれます)、アイテムなど、3つの根本的に異なるエンティティを表すトランザクションデータです。 オーダーは、マーケットバスケットデータのコンポーネントデータ構造です。注文は、ユーザーによる単一の購入イベントを表します。これは、ウェブサイトで複数の商品を注文するユーザー、食料品のバスケットを購入するユーザー、またはカタログからいくつかの商品を購入するユーザー
-
ビットコインウォレットの種類は何ですか?
ビットコインウォレットは、ビットコインを送受信できるデジタルウォレットの一種です。これは物理的な財布に匹敵します。ただし、ウォレットは物理的な通貨を保存するのではなく、暗号化データがビットコインアドレスにアクセスしてトランザクションを送信できるように保存します。さまざまなビットコインウォレットがあり、複数の暗号通貨に使用することもできます。 次のようなビットコインウォレットの種類があります- デスクトップウォレット −デスクトップウォレットはデスクトップまたはラップトップコンピューターにセットアップされ、ウォレットを完全に制御できるユーザーをサポートします。一部のデスクトップウォレットには
-
Orangeデータマイニングとは何ですか?
Orangeは、C ++コアオブジェクトおよびルーチンライブラリであり、標準および非標準の機械学習およびデータマイニングアルゴリズムの膨大なメソッドが含まれています。これは、オープンソースのデータ視覚化、データマイニング、機械学習ツールです。 Orangeでは、現在のアルゴリズムの高速プロトタイピングとテスト設計のためのスクリプト可能な設定です。これは、センターライブラリにあるPythonベースのモジュールのセットです。パフォーマンス時間が重要ではないいくつかの機能を実行し、Pythonで完了します。 これには、決定木のきれいな印刷、バギングとブースティング、属性サブセットなどを含むいくつ
-
回帰とは何ですか?
回帰は、連続値の属性を予測するために使用できる教師あり機械学習アプローチのタイプを定義します。回帰は、ターゲット変数と予測変数の関連付けを調査するためのビジネス組織を提供します。これは、金銭的予測と時系列モデリングに使用できるデータを調査するために不可欠なツールです。 回帰などの関数にデータを適合させることにより、データを平滑化できます。線形回帰には、2つの属性(または変数)に適合する「最良の」線を見つけることが含まれるため、一方の属性を使用してもう一方の属性を予測できます。いくつかの線形回帰は線形回帰の進歩であり、2つ以上の属性が含まれ、データは多次元空間に適合します。 線形回帰では、デー
-
データマイニングにおける回帰のタイプは何ですか?
回帰は、連続値の属性を予測するために使用できる教師あり機械学習アプローチのタイプを定義します。回帰は、ターゲット変数と予測変数の関連付けを調査するためのビジネス組織を提供します。これは、金銭的予測と時系列モデリングに使用できるデータを調査するために不可欠なツールです。 次のようなさまざまなタイプの回帰があります- 線形回帰 −線形回帰には、2つの属性(または変数)に適合する「最良の」線を見つけることが含まれるため、一方の属性を使用してもう一方の属性を予測できます。重回帰は線形回帰の進歩であり、2つ以上の属性が含まれ、レコードは多次元領域に適合します。 たとえば、方程式は Y = a + b
-
回帰と分類の違いは何ですか?
回帰 回帰は、連続値の属性を予測するために使用できる教師あり機械学習アプローチのタイプを定義します。回帰は、ターゲット変数と予測変数の関連付けを調査するためのビジネス組織を提供します。これは、金銭的予測と時系列モデリングに使用できるデータを調査するために不可欠なツールです。 回帰などの関数にデータを適合させることにより、データを平滑化できます。線形回帰には、2つの属性(または変数)に適合する「最良の」線を見つけることが含まれるため、一方の属性を使用してもう一方の属性を予測できます。いくつかの線形回帰は線形回帰の進歩であり、2つ以上の属性が含まれ、データは多次元空間に適合します。 線形回帰では
-
CARTプルーニングアルゴリズムとは何ですか?
CARTは、1984年にLeo Breiman、Jerome Friedman、Richard Olshen、およびCharlesStoneによって最初に作成された有名な決定木アルゴリズムです。CARTは分類および回帰ツリーを表します。 CARTアルゴリズムは二分木を改善し、純度を改善する新しい分割が見つかることを考慮して分割を続けます。 いくつかのより単純なサブツリーがあり、それぞれがモデルの複雑さとトレーニンググループの誤分類率の間で異なるトレードオフを定義します。 CARTアルゴリズムは、そのようなサブツリーのグループを候補モデルとして認識します。これらの候補サブツリーは検証グループに
-
C5プルーニングアルゴリズムとは何ですか?
C5は、オーストラリアの研究者であるJ.RossQuinlanが数年にわたって開発および改良してきたデシジョンツリーアルゴリズムの現在のバージョンです。 1986年に設立された以前のバージョンであるID3は、機械学習の分野で影響力があり、その後継バージョンは複数の商用データマイニングサービスで使用されています。 C5によって増加するツリーは、CARTによって改善されるツリーと同じです。 CARTと同様に、C5アルゴリズムは最初に過剰適合ツリーを改善し、次にそれを剪定してより動的なモデルを作成します。剪定方法は複雑ですが、C5は、候補サブツリーから選択するための検証セットの使用を作成しません。
-
フィードフォワードニューラルネットワークとは何ですか?
フィードフォワードニューラルネットワークにより、信号は入力から出力まで1つのアプローチでのみ移動できます。一部のレイヤーの出力が同じレイヤーに影響を与えないなどのフィードバック(ループ)はありません。フィードフォワードネットワークは、入力と出力を関連付ける単純なネットワークになる傾向があります。パターン認識に使用できます。このタイプの組織は、ボトムアップまたはトップダウンとして表されます。 隠れ層の各ユニットは、通常、入力層のいくつかのユニットに完全に接続されています。このネットワークには標準の単位が含まれているため、隠れ層の単位は、各入力の値に相関する重みを掛け、これらを挿入し、伝達関数を
-
ニューラルネットワークはバックプロパゲーションを使用してどのように学習しますか?
ニューラルネットワークは、人間の脳が機能する方法を模倣するプロセスを通じて、一連のデータの基本的な関係を特定しようとする一連のアルゴリズムです。このアプローチでは、ニューラルネットワークは有機または人工などのニューロンのシステムを表します。 ニューラルネットワークは、認知システムと脳の神経学的サービスにおける学習の(仮定された)手順をモデルにした分析的アプローチであり、現在からのいわゆる学習のプロセスを実行した後、他の観測から(明確な変数で)新しい観測を予測することができます情報。 バックプロパゲーションには次の手順があります- ネットワークはトレーニングインスタンスを受け取り、ネット
-
メモリベースの推論のアプリケーションは何ですか?
以前から適切な例を特定する能力に基づいて、経験から推論する人間の能力。感染を診断する医師、不正な保険物件にフラグを立てるクレームアナリスト、およびモレルを指差すキノコ狩りも同じ手順に従います。 それぞれが最初に経験から同じケースを認識し、次にそれらの方法に関する知識を目前の問題に使用します。これは、メモリベースの推論の重要性です。既知のデータのデータベースを検索して、新しいデータと同じ事前分類されたレコードを検出します。これらのネイバーは、分類と計算に使用されます。 メモリベースの推論には次のようなさまざまなアプリケーションがあります- 不正検出 −詐欺の新しいケースは、既知のケースと同じ
-
グリッドベースのクラスタリングのアルゴリズムは何ですか?
グリッドは、最小の低次元でデータのセットを整理するための効果的な方法です。概念は、各属性の適用可能な値を複数の連続した間隔に分割し、グリッドセルのセットを作成することです。各オブジェクトは、同等の属性間隔にオブジェクトの値が含まれるグリッドセルになります。 レコードを1回通過するだけでセルをグリッド化するオブジェクトを作成でき、セル内のポイント数など、各セルに関するデータも同時に収集できます。 グリッドを使用してクラスタリングを実装する方法は複数ありますが、ほとんどの方法は密度に基づいています。グリッドベースのクラスタリングのアルゴリズムは次のとおりです- グリッドセルのセットを表し
-
グラフベースのクラスタリングのアプローチは何ですか?
物理オブジェクトまたは抽象オブジェクトのセットを同じオブジェクトのクラスに結合するプロセスは、クラスタリングと呼ばれます。クラスターは、同じクラスター内で互いに同じであり、他のクラスター内のオブジェクトとは異なるデータオブジェクトのセットです。データオブジェクトのクラスターは、複数のアプリケーションで1つのグループとしてまとめて考えることができます。クラスター分析は人間にとって不可欠な活動です。 クラスタリングは、外れ値の識別をサポートします。同じ値がクラスターに編成され、クラスターの外にある値は外れ値と呼ばれます。クラスタリング手法では、データタプルをオブジェクトと見なします。それらは、オ