Python
 Computer >> コンピューター >  >> プログラミング >> Python

PythonでNLTKを使用してテキストをトークン化する


文字シーケンスと定義されたドキュメント単位が与えられた場合、トークン化は、トークンと呼ばれる断片に切り刻むタスクであり、おそらく同時に句読点などの特定の文字を破棄します。 nltkとpythonのコンテキストでは、これは単に各トークンをリストに入れるプロセスであり、一度に各文字を繰り返す代わりに、トークンを繰り返すことができます。

たとえば、入力文字列が与えられた場合-

Hi man, how have you been?

出力を取得する必要があります-

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

NLTKのword_tokenizeメソッドを使用して、このテキストをトークン化できます。たとえば、

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

出力

これにより、出力が得られます-

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

  1. Pythonを使用してLinuxターミナルでフォーマットされたテキスト

    このセクションでは、Linuxターミナルでフォーマットされたテキストを印刷する方法を説明します。フォーマットすることで、テキストの色、スタイル、およびいくつかの特別な機能を変更できます。 Linuxターミナルは、フォーマット、色、その他の機能を制御するために、いくつかのANSIエスケープシーケンスをサポートしています。したがって、テキストにいくつかのバイトを埋め込む必要があります。したがって、端末がそれらを解釈しようとするとき、それらのフォーマットは効果的です。 ANSIエスケープシーケンスの一般的な構文は次のようになります- \x1b[A;B;C Aはテキストの書式設定スタイルです

  2. PythonでのCX_Freezeの使用

    時々私たちは非常にエキサイティングな何か違うものを作りたいと感じます、そして人間の性質によれば、私たちはいつもそれを共有するのが大好きです。 Pythonもそれらの願いを満たします。 Pythonを使用して、Pythonプログラムを友人と共有したい場合は、それを行うことができます。必要なのは、マシンのプログラムで使用されるすべてのモジュールに同じバージョンのPythonをインストールすることだけです。 まず、 pip install CX_Frezzeを使用してCX_Freezeモジュールをインストールする必要があります コマンドプロンプトのコマンド。 最初のステップは、この割り当て、