Python
 Computer >> コンピューター >  >> プログラミング >> Python

Tensorflowを使用して、Pythonを使用してIlliadデータセットからトークン化された単語を整数に変換するにはどうすればよいですか?


Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。研究や生産目的で使用されます。

「tensorflow」パッケージは、以下のコード行を使用してWindowsにインストールできます-

pip install tensorflow

Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「データフローグラフ」と呼ばれます。テンソルは多次元配列またはリストに他なりません。

これらは、3つの主要な属性を使用して識別できます-

  • ランク −テンソルの次元について説明します。これは、テンソルの順序または定義されたテンソルの次元数として理解できます。

  • タイプ −テンソルの要素に関連付けられたデータ型について説明します。 1次元、2次元、またはn次元のテンソルにすることができます。

  • −これは行と列を合わせた数です。

イリアスのデータセットを使用します。このデータセットには、ウィリアムカウパー、エドワード(ダービー伯爵)、サミュエルバトラーの3つの翻訳作品のテキストデータが含まれています。モデルは、1行のテキストが与えられたときに翻訳者を識別するようにトレーニングされています。使用されているテキストファイルは前処理されています。これには、ドキュメントのヘッダーとフッター、行番号、章のタイトルの削除が含まれます。

以下のコードを実行するためにGoogleColaboratoryを使用しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

以下はコードスニペットです-

keys = vocab
values = range(2, len(vocab) + 2) # reserve 0 for padding, 1 for OOV
print("Map the tokens to integers")
init = tf.lookup.KeyValueTensorInitializer(
   keys, values, key_dtype=tf.string, value_dtype=tf.int64)
num_oov_buckets = 1
vocab_table = tf.lookup.StaticVocabularyTable(init, num_oov_buckets)
print("A function has been defined to standardize, tokenize and vectorize the dataset using
tokenizer and lookup table")
def preprocess_text(text, label):
   standardized = tf_text.case_fold_utf8(text)
   tokenized = tokenizer.tokenize(standardized)
   vectorized = vocab_table.lookup(tokenized)
   return vectorized, label

コードクレジット-https://www.tensorflow.org/tutorials/load_data/text

出力

Map the tokens to integers
A function has been defined to standardize, tokenize and vectorize the dataset using tokenizer
and lookup table

説明

  • 語彙セットは、StaticVocabularyTableを作成するために使用されます。

  • トークンは、[2、vocab_size+2]の範囲内の整数にマップされます。

  • 数字の0はパディングを示すために使用され、1は語彙外(OOV)トークンを示すために使用されます。


  1. Tensorflowを使用して、Pythonを使用して花のデータセットを視覚化するにはどうすればよいですか?

    花のデータセットは、「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。データセット全体が繰り返され、最初の数枚の画像のみが表示されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? 数千の花の画像を含む花のデータセットを使用します。これには5つのサブディレクトリが含まれ、クラスごとに1つのサブディレクトリがあります。 以下のコードを実行するためにGoogleColaboratoryを使用しています。 Goo

  2. Pythonを使用して保存されたモデルから新しいモデルをリロードするためにKerasをどのように使用できますか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。研究や生産目的で使用されます。 「tensorflow」パッケージは、以下のコード行を使用してWindowsにインストールできます- pip install tensorflow Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「データフローグラフ」と呼ばれます。テンソルは、多次元配列またはリストに他なりま