Python
 Computer >> コンピューター >  >> プログラミング >> Python

Tensorflowを使用して、Pythonを使用してIlliadデータセットのトークン化された単語から語彙を構築するにはどうすればよいですか?


Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズムや深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。これは、NumPyと多次元配列を使用しているためです。これらの多次元配列は「テンソル」とも呼ばれます。フレームワークは、ディープニューラルネットワークの操作をサポートします。

Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「データフローグラフ」と呼ばれます。テンソルは多次元配列またはリストに他なりません。

イリアスのデータセットを使用します。このデータセットには、ウィリアムカウパー、エドワード(ダービー伯爵)、サミュエルバトラーの3つの翻訳作品のテキストデータが含まれています。モデルは、1行のテキストが与えられたときに翻訳者を識別するようにトレーニングされています。使用されているテキストファイルは前処理されています。これには、ドキュメントのヘッダーとフッター、行番号、章のタイトルの削除が含まれます。

以下のコードを実行するためにGoogleColaboratoryを使用しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

以下はコードスニペットです-

print("Build a vocabulary using the tokens")
tokenized_ds = configure_dataset(tokenized_ds)
vocab_dict = collections.defaultdict(lambda: 0)
for toks in tokenized_ds.as_numpy_iterator():
   for tok in toks:
   vocab_dict[tok] += 1
print("Sort the vocabulary")
vocab = sorted(vocab_dict.items(), key=lambda x: x[1], reverse=True)
vocab = [token for token, count in vocab]
vocab = vocab[:VOCAB_SIZE]
vocab_size = len(vocab)
print("The vocabulary size is : ", vocab_size)
print("First six vocabulary entries are :", vocab[:6])

コードクレジット-https://www.tensorflow.org/tutorials/load_data/text

出力

Build a vocabulary using the tokens
Sort the vocabulary
The vocabulary size is : 10000
First six vocabulary entries are : [b',', b'the', b'and', b"'", b'of', b'.']

次に、トークンを頻度で並べ替え、上位のVOCAB_SIZEトークンを保持して、語彙を作成します。

説明

  • 語彙は、トークンを頻度に基づいて並べ替えた後に作成されます。

  • いくつかの語彙エントリがコンソールに表示されます。


  1. Tensorflowを使用してPythonを使用してデータを視覚化するにはどうすればよいですか?

    花のデータセットがあるとしましょう。花のデータセットは、基本的に花のデータセットにリンクするgoogleAPIを使用してダウンロードできます。 「get_file」メソッドを使用して、APIをパラメーターとして渡すことができます。これが完了すると、データが環境にダウンロードされます。 「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? Keras Sequenti

  2. Tensorflowを使用して、Pythonを使用して花のデータセットを視覚化するにはどうすればよいですか?

    花のデータセットは、「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。データセット全体が繰り返され、最初の数枚の画像のみが表示されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? 数千の花の画像を含む花のデータセットを使用します。これには5つのサブディレクトリが含まれ、クラスごとに1つのサブディレクトリがあります。 以下のコードを実行するためにGoogleColaboratoryを使用しています。 Goo