Python
 Computer >> コンピューター >  >> プログラミング >> Python

BeautifulSoupパッケージを使用してPythonのWebページからデータを解析するにはどうすればよいですか?


BeautifulSoupは、Webページのデータを解析するために使用されるサードパーティのPythonライブラリです。さまざまなリソースからデータを抽出、使用、操作するプロセスであるWebスクレイピングに役立ちます。

Webスクレイピングは、調査目的でデータを抽出したり、市場の傾向を理解/比較したり、SEOモニタリングを実行したりするためにも使用できます。

以下の行を実行して、BeautifulSoupをWindowsにインストールできます-

pip install beautifulsoup4

例を見てみましょう-

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
url = 'https://en.wikipedia.org/wiki/Algorithm'
html = urlopen(url).read()
print("Reading the webpage...")
soup = BeautifulSoup(html, features="html.parser")
print("Parsing the webpage...")
for script in soup(["script", "style"]):
   script.extract() # rip it out
print("Extracting text from the webpage...")
text = soup.get_text()
print("Data cleaning...")
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split(" "))
text = '\n'.join(chunk for chunk in chunks if chunk)
text = str(text)
print(text)
>

出力

Reading the webpage...
Parsing the webpage...
Extracting text from the webpage...
Data cleaning...
Recursive C implementation of Euclid's algorithm from the above flowchart
Recursion
A recursive algorithm is one that invokes (makes reference to) itself repeatedly until a certain condition (also known as termination condition) matches, which is a method common to functional programming….
…..
Developers
Statistics
Cookie statement

説明

  • 必要なパッケージがインポートされ、エイリアス化されます。

  • ウェブサイトが定義されています。

  • URLが開かれ、「script」タグとその他の無関係なHTMLタグが削除されます。

  • 「get_text」関数は、ウェブページデータからテキストを抽出するために使用されます。

  • 余分なスペースと無効な単語は削除されます。

  • テキストはコンソールに印刷されます。


  1. countplotを使用してPythonSeabornLibraryのデータを視覚化するにはどうすればよいですか?

    Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 以前のプロットでは、データセット全体をグラフにプロットしました。バープロットの助けを借りて、データの分布の中心傾向を理解することができます。 棒グラフ関数は、カテゴリ変数と連続変数の間の関係を確立します。データは長方形のバーの形式で表され、バーの長さはその特定のカテゴリのデータの割合を示します。 棒グラフの特殊なケースは、2番目の変数の統計値を計算する代わりに、データに関してすべてのカテゴリの観測数を表示するカウントプロットです。 「タイタニック」データセット

  2. PythonのSeabornライブラリで棒グラフをどのように使用できますか?

    Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 以前のプロットでは、データセット全体をグラフにプロットしました。バープロットの助けを借りて、データの分布の中心傾向を理解することができます。 棒グラフ関数は、カテゴリ変数と連続変数の間の関係を確立します。データは長方形のバーの形式で表され、バーの長さはその特定のカテゴリのデータの割合を示します。 「タイタニック」データセットを使用してバープロットを理解しましょう- 例 import pandas as pd import seaborn as sb from m