Python
 Computer >> コンピューター >  >> プログラミング >> Python

PythonでNLTKを使用してストップワードを削除する


コンピューターが自然言語を処理する場合、ユーザーのニーズに一致するドキュメントを選択するのにほとんど価値がないように見えるいくつかの非常に一般的な単語は、語彙から完全に除外されます。これらの単語はストップワードと呼ばれます。

たとえば、入力文を-

とすると
John is a person who takes care of the people around him.

ストップワードの削除後、出力が表示されます-

['John', 'person', 'takes', 'care', 'people', 'around', '.']

NLTKには、これらのストップワードのコレクションがあり、特定の文からこれらを削除するために使用できます。これはNLTK.corpusモジュール内にあります。これを使用して、文からストップワードを除外できます。たとえば、

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "John is a person who takes care of people around him."
tokens = word_tokenize(my_sent)

filtered_sentence = [w for w in tokens if not w in stopwords.words()]

print(filtered_sentence)

出力

これにより、出力が得られます-

['John', 'person', 'takes', 'care', 'people', 'around', '.']

  1. Python –NでK距離の要素を削除

    NとKの距離にある要素を削除する必要がある場合は、特定の条件とともにリスト内包表記が使用されます。 以下は同じのデモンストレーションです- 例 my_list = [13, 52, 5, 45, 65, 61, 18 ] print("The list is :") print(my_list) K = 3 print("The value of K is ") print(K) N = 5 print("The value of N is ") print(N) my_result = [element for eleme

  2. Python-PyGameで画像を表示する

    Pygameは、ゲームやマルチメディアアプリケーションを作成するためのPython用のマルチメディアライブラリです。この記事では、pygameモジュールを使用して、pygameウィンドウでの高さ、幅、位置を考慮して、画面に画像をペイントする方法を説明します。 以下のプログラムでは、pygameモジュールを初期化してから、画像のモードとキャプションを定義します。次に、画像をロードして座標を定義します。 screen.blit関数は、whileループがゲームの終了をリッスンし続けている間、画面をペイントします。 例 import pygame pygame.init() w = 300; h =