プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

Wekaデータマイニングとは何ですか?


Wekaは、データマイニングサービス用の機械学習アルゴリズムのセットです。アルゴリズムは、データセットに直接使用することも、独自のJavaプログラムから使用することもできます。これには、データの前処理、分類、回帰、クラスタリング、相関ルール、および視覚化のためのツールが含まれています。また、新しい機械学習スキームの作成にも適用できます。

Wekaを使用する1つの方法は、データセットへの学習アプローチを使用し、その出力を分析してレコードについてさらに学習することです。 2つ目は、新しいインスタンスを予測するために学習したモデルが必要です。

3つ目は、複数の学習者を使用し、それらのパフォーマンスを比較して、予測用に1つを選択することです。インタラクティブなWekaインターフェースでは、メニューから必要な学習方法を選択できます。いくつかのメソッドには調整可能なパラメータがあり、プロパティシートまたはオブジェクトエディタを介して作成できます。共通の計算構造を使用して、すべての分類器のパフォーマンスを計算します。

さまざまなフィルターの使用方法を示し、フィルターアルゴリズムを一覧表示し、それらのパラメーターを説明できます。 Wekaには、相関ルールの学習、クラス値が指定されていないデータのクラスタリング、およびデータ内の関連する属性の選択のためのアルゴリズムの実装も含まれています。

Wekaを使用する最も簡単な方法は、エクスプローラーと呼ばれるグラフィカルユーザーインターフェイスを使用することです。これにより、メニュー選択とフォーム入力を使用して、一部の機能にアクセスできます。たとえば、ARFFドキュメント(またはスプレッドシート)からデータセットをすばやく読み取り、そこから意思決定ツリーを構築できます。

エクスプローラーインターフェイスでは、選択肢をメニューとして表示し、適切になるまで選択肢をグレー表示し、入力するフォームとしてオプションを表示することで、適切な順序で作業するように強制します。マウスが画面上の要素の上を通過するときにポップアップする有益なツールチップは、それらが何をするのかを理解するために役立ちます。賢明なデフォルト値は、最小限の労力で結果を得ることができることを提供しますが、結果が何を意味するのかを理解することは何であるかを考える必要があります。

ナレッジフローインターフェイスを使用すると、ストリーミングされた情報処理の構造を作成できます。 Explorerインターフェースの制限は、データセットを開くことができるときにメインメモリ内のすべてに影響を与え、すべてを直接ロードすることです。

これは、Explorerを中小規模の問題に使用できることを意味します。ただし、Wekaには、巨大なデータセットの処理に使用できるインクリメンタルアルゴリズムがいくつか含まれています。ナレッジフローインターフェイスを使用すると、学習アルゴリズムとデータソースを定義するボックスを画面上にドラッグして、必要な構成に接続できます。

これにより、データソースを定義するコンポーネント、前処理ツール、学習アルゴリズム、計算方法、および視覚化モジュールを接続することにより、データストリームを定義できます。フィルタと学習アルゴリズムが増分学習に適している場合、データは追加で読み込まれ、処理されます。


  1. 時間的データマイニングとは何ですか?

    時間的データマイニングは、時間的データの大規模なセットから、重要で、暗黙的で、潜在的に不可欠なデータを抽出するプロセスを定義します。時間データは一連の主要なデータタイプであり、通常は数値であり、時間データから有益な知識を収集することを扱います。 時間的データマイニングの目的は、時間的シーケンスと呼ばれるアルファベットからの名目上のシンボルのシーケンスと連続的な実数のシーケンスで構成される、より高いシーケンシャルデータの時間的パターン、予期しない傾向、またはいくつかの隠れた関係を見つけることです。機械学習、統計、データベーステクノロジーからの一連のアプローチを利用することにより、時系列と呼ばれ

  2. 時空間データマイニングとは何ですか?

    時空間データマイニングは、時空間データからパターンと知識を見つけるプロセスを定義します。時空間データマイニングの例には、都市や土地の開発履歴の検索、気象設計の発見、地震やハリケーンの予測、地球温暖化の傾向の決定が含まれます。 携帯電話、GPSデバイス、インターネットベースの地図サービス、気象サービス、デジタルアース、衛星、RFID、センサー、ワイヤレス、ビデオテクノロジーの認知度を考えると、時空間データマイニングは重要になり、広範囲にわたる影響があります。 時空間データにはいくつかの種類があり、移動物体データが重要です。たとえば、動物科学者は野生生物の遠隔測定装置を接続して生態学的行動を調