Pythonでウィキペディアのインフォボックスからテキストを取得する
この記事では、BeatifulSoupとPythonのリクエストを使用して、ウィキペディアのインフォボックスからテキストを取得します。 10分でできます。簡単です。
bs4とリクエストをインストールする必要があります。以下のコマンドを実行してインストールします。
pip install bs4 pip install requests
以下の手順に従って、インフォボックスから必要なテキストをフェッチするコードを記述します。
- bs4とrequestsモジュールをインポートします。
- requests.get()メソッドを使用してデータを取得するページにHTTPリクエストを送信します。
- bs4.BeautifulSoupクラスを使用して応答テキストを解析し、変数に格納します。
- ウィキペディアのページに移動して、必要な要素を調べます。
- bs4が提供する適切な方法を使用して要素を検索します。
以下のサンプルコードを見てみましょう。
例
# importing the module import requests import bs4 # URL URL = "https://en.wikipedia.org/wiki/India" # sending the request response = requests.get(URL) # parsing the response soup = bs4.BeautifulSoup(response.text, 'html') # Now, we have paresed HTML with us. I want to get the _motto_ from the wikipedia page. # Elements structure # table - class="infobox" # 3rd tr to get motto # getting infobox infobox = soup.find('table', {'class': 'infobox'}) # getting 3rd row element tr third_tr = infobox.find_all('tr')[2] # from third_tr we have to find first 'a' element and 'div' element to get required data first_a = third_tr.div.find('a') div = third_tr.div.div # motto motto = f"{first_a.text} {div.text[:len(div.text) - 3]}" # printing the motto print(motto)
上記のプログラムを実行すると、次の結果が得られます。
出力
Satyameva Jayate "Truth Alone Triumphs"
結論
ウィキペディアのページで要素を調べて見つけることで、必要なデータを取得できます。チュートリアルに関して質問がある場合は、コメントセクションにその旨を記載してください。
-
Pythonでラベルからテキストを削除するにはどうすればよいですか?
Tkinterは、GUIベースのアプリケーションの作成と開発に使用されるPythonライブラリです。この記事では、テキストが含まれるラベルからテキストを削除する方法を説明します。 ラベルからテキストを削除するために、ラベルのトリガーとして機能する関連ボタンを作成します。 例 #import Tkinter Library from tkinter import * #Create an instance of tkinter frame win= Tk() #Define the size and geometry of the frame win.geometry("700x
-
Pythonでウィキペディアのデータを抽出する方法は?
この記事では、Pythonを使用してウィキペディアのデータを抽出する方法を説明します。 Pythonは、ウェブサイトからメタ情報を取得するためのウェブスクレイパーの作成に広く使用されています。 この記事では、ウィキペディアAPIとライブラリを使用して、ウィキペディアのソースURLからデータを取得します。 APIは、指定されたURLからデータをフェッチするのに役立ちます。次に、指定されたURLでメソッドを呼び出し、画面に情報を出力します。 ウィキペディアからデータを抽出するには、最初にウィキペディアライブラリをインポートする必要があります。 Pythonで「pipinstallwikiped