Python
 Computer >> コンピューター >  >> プログラミング >> Python

BeautifulSoupを使用して、Webサイトから「href」リンクを抽出するにはどうすればよいですか。


BeautifulSoupは、Webページのデータを解析するために使用されるサードパーティのPythonライブラリです。さまざまなリソースからデータを抽出、使用、操作するプロセスであるWebスクレイピングに役立ちます。

Webスクレイピングは、調査目的でデータを抽出したり、市場の傾向を理解/比較したり、SEOモニタリングを実行したりするためにも使用できます。

以下の行を実行して、BeautifulSoupをWindowsにインストールできます-

pip install beautifulsoup4

以下は例です-

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

出力

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

説明

  • 必要なパッケージがインポートされ、エイリアス化されます。

  • ウェブサイトが定義されています。

  • URLが開かれ、そこからデータが読み取られます。

  • 「BeautifulSoup」関数は、Webページからテキストを抽出するために使用されます。

  • 「find_all」関数は、ウェブページデータからテキストを抽出するために使用されます。

  • hrefリンクはコンソールに印刷されています。


  1. Web サイトから Excel にデータを自動的に抽出する方法

    データの抽出 Web ページから Excel ワークシートへの自動 (データの収集と更新) は、ジョブによっては重要な場合があります。 Excel を使用すると、Web ページからデータを収集できます。これは、データ分析ジョブに Excel を使用するユーザーにとって最もよく使用される Excel 機能の 1 つです。金融アナリスト会社で働いている場合は、分析のために毎日の株価を Web サイトから Excel ブックに取得またはインポートする必要がある場合があります。この記事では、ウェブサイトからデータを抽出して Excel にする方法を紹介します。 簡単な手順で自動的に。 Web サイトか

  2. Web サイトから Excel にデータをインポートする方法

    World Wide Web には膨大な有用なデータが含まれていることはよく知られています。ただし、何らかの分析を行う前に、データを Microsoft Excel にインポートする必要があります。この種のタスクを完了するために使用できる方法が 2 つあります。 Web から外部データを手動で取得 この Web ページからトップの金儲け映画の収益をダウンロードしたいとします。ここでは、簡単に行う方法を示します。 Microsoft Excel を開き、[データ] をクリックします。 タブの 外部データの取得 グループで、[ウェブから] をクリックします . 新しい Web クエリの後 ダイ