プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

GSPとは何ですか?


GSPはGeneralizedSequentialPatternsの略です。これは、1996年にSrikantとAgrawalによって作成されたシーケンシャルパターンマイニング方法です。これは、Aprioriと呼ばれる通常のアイテムセットマイニングのための彼らの独創的なアルゴリズムの拡張です。 GSPは、シーケンシャルパターンのダウンクロージャーの性質を必要とし、数パスの学生による作成とテストのアプローチを採用しています。

アルゴリズムは次のとおりです。データベースの最初のスキャンで、頻繁に使用されるアイテム、つまりサポートが最小限のアイテムを検出できます。各アイテムは、そのアイテムを含む1イベントの頻繁なシーケンスを生成します。後続の各パスは、前のパスで見つかったシーケンシャルパターンのシードグループとシーケンシャルパターンのグループで始まります。

このシードセットは、候補シーケンスと呼ばれる、頻繁に発生する可能性のある新しいパターンを作成できます。各候補シリーズには、それが作成されたシードシーケンシャルパターンよりも1つ多いアイテムが含まれています(パターン内の各イベントには1つまたは複数のアイテムを含めることができます)。

シーケンス内のアイテムの複数のインスタンスは、シーケンスの高さです。したがって、特定のパスの一部の候補シーケンスは同じ高さになります。長さkのシーケンスをkシーケンスとして定義します。

C k 候補kシーケンスのセットを示します。データベースをパスすると、すべての候補kシーケンスのサポートが検出されます。 C kの候補者 最小のmin_supフォームLk 、すべての頻繁なkシーケンスのセット。このセットは、次のパスk+1のシードセットに発展します。パスで新しいシーケンシャルパターンが検出されない場合、または候補シーケンスを作成できない場合、アルゴリズムは削除されます。

GSPは、Aprioriプロパティを使用して、候補のセットを次のように短縮します。 k番目のパスでは、シリーズは、その長さ-(k -1)のサブシーケンスのそれぞれが、(k -1)番目のパスで検出されたシーケンシャルパターンである場合にのみ候補になります。

データベースの新しいスキャンにより、各候補シーケンスのサポートが組み立てられ、新しいシーケンスパターンのセットL kが検出されました。 。このセットは、次のパスのシードに発展します。パスでシーケンシャルパターンが検出されない場合、または候補シーケンスが作成されない場合、アルゴリズムは削除されます。

Aprioriのようなシーケンシャルパターンマイニング技術(候補の生成とテストに基づく)は、シーケンスデータベースを垂直データ形式に測定することによって分析することもできます。垂直データ形式では、データベースは(itemset:(sequence_ID、event_ID))という形式のタプルのセットに変わります。

イベント識別子は、シーケンス内のタイムスタンプとして提供されます。シーケンス内のi番目のアイテムセット(またはイベント)のevent_IDはiです。アイテムセットは、複数のシーケンスで表示される場合があります。特定のアイテムセットの(シーケンスID、イベントID)のセットは、アイテムセットのID_listを形成します。


  1. コロン':'演算子はPythonで何をしますか?

    :記号はPythonで複数の目的に使用されます シーケンスのスライス演算子として- −演算子は、リスト、タプル、文字列などのシーケンスオブジェクトからパーツをスライスします。 2つの引数が必要です。 1つ目はスライスの開始のインデックスで、2つ目はスライスの終了のインデックスです。両方のオペランドはオプションです。最初のオペランドを省略した場合、デフォルトでは0になります。 2番目を省略すると、シーケンスの終わりに設定されます。 >>> a=[1,2,3,4,5] >>> a[1:3] [2, 3] >>> a[:3] [1, 2, 3]

  2. Pythonのシーケンスデータ型とは何ですか?

    シーケンスを使用すると、複数の値を整理された効率的な方法で保存できます。シーケンスタイプには、文字列、Unicode文字列、リスト、タプル、バイト配列、範囲オブジェクトなどがあります。辞書とセットは、非シーケンシャルデータのコンテナです。 公式のPythonドキュメントから- 文字列は、Unicodeコードポイントの不変のシーケンスです。 リストは変更可能なシーケンスであり、通常、同種のアイテムのコレクションを格納するために使用されます。 タプルは不変のシーケンスであり、通常、異種データのコレクションを格納するために使用されます(enumerate()組み込みによって生成され