Python
 Computer >> コンピューター >  >> プログラミング >> Python

Tensorflowを使用して、Pythonを使用してstackoverflowの質問を含むデータセットを読み込むにはどうすればよいですか?


Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズムや深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。

これは、NumPyと多次元配列を使用しているためです。これらの多次元配列は「テンソル」とも呼ばれます。フレームワークは、ディープニューラルネットワークでの作業をサポートします。非常にスケーラブルで、多くの一般的なデータセットが付属しています。 GPU計算を使用し、リソースの管理を自動化します。多数の機械学習ライブラリが付属しており、十分にサポートされ、文書化されています。フレームワークには、ディープニューラルネットワークモデルを実行し、それらをトレーニングし、それぞれのデータセットの関連する特性を予測するアプリケーションを作成する機能があります。

「tensorflow」パッケージは、以下のコード行を使用してWindowsにインストールできます-

pip install tensorflow

以下のコードを実行するためにGoogleColaboratoryを使用しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 Collaboratoryは、JupyterNotebookの上に構築されています。以下は、Pythonを使用してStackOverflowの質問を含むデータセットをロードするためのコードスニペットです-

batch_size = 32
seed = 42
print("The training parameters have been defined")
raw_train_ds = preprocessing.text_dataset_from_directory(
   train_dir,
   batch_size=batch_size,
   validation_split=0.25,
   subset='training',
   seed=seed)
for text_batch, label_batch in raw_train_ds.take(1):
   for i in range(10):
      print("Question: ", text_batch.numpy()[i][:100], '...')
      print("Label:", label_batch.numpy()[i])

コードクレジット-https://www.tensorflow.org/tutorials/load_data/text

出力

The training parameters have been defined
Found 8000 files belonging to 4 classes.
Using 6000 files for training.
Question: b'"my tester is going to the wrong constructor i am new to programming so if i ask a
question that can' ...
Label: 1
Question: b'"blank code slow skin detection this code changes the color space to lab and using a
threshold finds' ...
Label: 3
Question: b'"option and validation in blank i want to add a new option on my system where i
want to add two text' ...
Label: 1
Question: b'"exception: dynamic sql generation for the updatecommand is not supported against
a selectcommand th' ...
Label: 0
Question: b'"parameter with question mark and super in blank, i\'ve come across a method that
is formatted like t' ...
Label: 1
Question: b'call two objects wsdl the first time i got a very strange wsdl. ..i would like to call the
object (i' ...
Label: 0
Question: b'how to correctly make the icon for systemtray in blank using icon sizes of any
dimension for systemt' ...
Label: 0
Question: b'"is there a way to check a variable that exists in a different script than the original
one? i\'m try' ...
Label: 3
Question: b'"blank control flow i made a number which asks for 2 numbers with blank and
responds with the corre' ...
Label: 0
Question: b'"credentials cannot be used for ntlm authentication i am getting
org.apache.commons.httpclient.auth.' ...
Label: 1

説明

  • データはディスクからロードされ、トレーニングに適した形式になるように準備されます。

  • 「text_dataset_from_dataset」ユーティリティは、ラベル付きデータセットを作成するために使用されます。

  • 「tf.Data」は強力なツールのコレクションであり、入力パイプラインを構築するために使用されます。

  • ディレクトリ構造は「text_dataset_from_dataset」ユーティリティに渡されます。

  • StackOverflowの質問データセットは、トレーニングデータセットとテストデータセットに分かれています。

  • 検証セットは、「validation_split」メソッドを使用して作成されます。

  • ラベルは0、1、2、3のいずれかです。


  1. Tensorflowを使用してPythonを使用してデータを視覚化するにはどうすればよいですか?

    花のデータセットがあるとしましょう。花のデータセットは、基本的に花のデータセットにリンクするgoogleAPIを使用してダウンロードできます。 「get_file」メソッドを使用して、APIをパラメーターとして渡すことができます。これが完了すると、データが環境にダウンロードされます。 「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? Keras Sequenti

  2. Tensorflowを使用して、Pythonを使用して花のデータセットを視覚化するにはどうすればよいですか?

    花のデータセットは、「matplotlib」ライブラリを使用して視覚化できます。 「imshow」メソッドは、コンソールに画像を表示するために使用されます。データセット全体が繰り返され、最初の数枚の画像のみが表示されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? 数千の花の画像を含む花のデータセットを使用します。これには5つのサブディレクトリが含まれ、クラスごとに1つのサブディレクトリがあります。 以下のコードを実行するためにGoogleColaboratoryを使用しています。 Goo