Python
 Computer >> コンピューター >  >> プログラミング >> Python

Tensorflowを使用して、Pythonを使用してstackoverflow質問データセットに関連付けられたテキストデータをベクトル化するにはどうすればよいですか?


Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズムや深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。

これは、NumPyと多次元配列を使用しているためです。これらの多次元配列は「テンソル」とも呼ばれます。フレームワークは、ディープニューラルネットワークの操作をサポートします。非常にスケーラブルで、多くの一般的なデータセットが付属しています。 GPU計算を使用し、リソースの管理を自動化します。多数の機械学習ライブラリが付属しており、十分にサポートされ、文書化されています。フレームワークには、ディープニューラルネットワークモデルを実行し、それらをトレーニングし、それぞれのデータセットの関連する特性を予測するアプリケーションを作成する機能があります。

「tensorflow」パッケージは、以下のコード行を使用してWindowsにインストールできます-

pip install tensorflow

Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「データフローグラフ」と呼ばれます。テンソルは多次元配列またはリストに他なりません。

Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

以下は、テキストデータをベクトル化するためのコードスニペットです-

print("The vectorize function is defined")
def int_vectorize_text(text, label):
   text = tf.expand_dims(text, -1)
   return int_vectorize_layer(text), label
print(" A batch of the dataset is retrieved")
text_batch, label_batch = next(iter(raw_train_ds))
first_question, first_label = text_batch[0], label_batch[0]
print("Question is : ", first_question)
print("Label is : ", first_label)

print("'binary' vectorized question is :",
   binary_vectorize_text(first_question, first_label)[0])
print("'int' vectorized question is :",

   int_vectorize_text(first_question, first_label)[0])

コードクレジット-https://www.tensorflow.org/tutorials/load_data/text

出力

The vectorize function is defined
A batch of the dataset is retrieved
Question is : tf.Tensor(b'"function expected error in blank for dynamically created check box
when it is clicked i want to grab the attribute value.it is working in ie 8,9,10 but not working in ie
11,chrome shows function expected error..<input type=checkbox checked=\'checked\'
id=\'symptomfailurecodeid\' tabindex=\'54\' style=\'cursor:pointer;\' onclick=chkclickevt(this);
failurecodeid=""1"" >...function chkclickevt(obj) { .
alert(obj.attributes(""failurecodeid""));.}"\n', shape=(), dtype=string)
Label is : tf.Tensor(2, shape=(), dtype=int32)
'binary' vectorized question is : tf.Tensor([[1. 1. 1. ... 0. 0. 0.]], shape=(1, 10000), dtype=float32)
'int' vectorized question is : tf.Tensor(
[[ 37 464 65 7  16 12 879 262 181 448 44 10 6  700
   3  46  4 2085 2 473 1   6  156  7  478 1 25 20
  156 7  478 1  499 37 464 1 1846 1666 1  1  1  1
   1  1   1  1    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0]], shape=(1, 250), dtype=int64)

説明

  • バイナリモードは、トークンの存在を示す配列を返します。

  • intモードでは、すべてのトークンが整数に置き換えられます。

  • このようにして、順序が保持されます。

  • ベクトル化関数が定義されています。

  • データのサンプルがベクトル化され、ベクトル化の「binary」モードと「int」モードがコンソールに表示されます

  • 文字列は、その特定のレイヤーで「get_vocabulary」メソッドを使用して検索できます。


  1. Tensorflowを使用してPythonを使用してデータを視覚化するにはどうすればよいですか?

    花のデータセットがあるとしましょう。花のデータセットは、基本的に花のデータセットにリンクするgoogleAPIを使用してダウンロードできます。 「get_file」メソッドを使用して、APIをパラメーターとして渡すことができます。これが完了すると、データが環境にダウンロードされます。 「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? Keras Sequenti

  2. Tensorflowを使用して、Pythonを使用して花のデータセットを視覚化するにはどうすればよいですか?

    花のデータセットは、「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。データセット全体が繰り返され、最初の数枚の画像のみが表示されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? 数千の花の画像を含む花のデータセットを使用します。これには5つのサブディレクトリが含まれ、クラスごとに1つのサブディレクトリがあります。 以下のコードを実行するためにGoogleColaboratoryを使用しています。 Goo