BeautifulSoupを使用して、Webサイトから「href」リンクを抽出するにはどうすればよいですか。
BeautifulSoupは、Webページのデータを解析するために使用されるサードパーティのPythonライブラリです。さまざまなリソースからデータを抽出、使用、操作するプロセスであるWebスクレイピングに役立ちます。
Webスクレイピングは、調査目的でデータを抽出したり、市場の傾向を理解/比較したり、SEOモニタリングを実行したりするためにも使用できます。
以下の行を実行して、BeautifulSoupをWindowsにインストールできます-
pip install beautifulsoup4
以下は例です-
例
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
出力
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
説明
-
必要なパッケージがインポートされ、エイリアス化されます。
-
ウェブサイトが定義されています。
-
URLが開かれ、そこからデータが読み取られます。
-
「BeautifulSoup」関数は、Webページからテキストを抽出するために使用されます。
-
「find_all」関数は、ウェブページデータからテキストを抽出するために使用されます。
-
hrefリンクはコンソールに印刷されています。
-
Web サイトから Excel にデータを自動的に抽出する方法
データの抽出 Web ページから Excel ワークシートへの自動 (データの収集と更新) は、ジョブによっては重要な場合があります。 Excel を使用すると、Web ページからデータを収集できます。これは、データ分析ジョブに Excel を使用するユーザーにとって最もよく使用される Excel 機能の 1 つです。金融アナリスト会社で働いている場合は、分析のために毎日の株価を Web サイトから Excel ブックに取得またはインポートする必要がある場合があります。この記事では、ウェブサイトからデータを抽出して Excel にする方法を紹介します。 簡単な手順で自動的に。 Web サイトか
-
Web サイトから Excel にデータをインポートする方法
World Wide Web には膨大な有用なデータが含まれていることはよく知られています。ただし、何らかの分析を行う前に、データを Microsoft Excel にインポートする必要があります。この種のタスクを完了するために使用できる方法が 2 つあります。 Web から外部データを手動で取得 この Web ページからトップの金儲け映画の収益をダウンロードしたいとします。ここでは、簡単に行う方法を示します。 Microsoft Excel を開き、[データ] をクリックします。 タブの 外部データの取得 グループで、[ウェブから] をクリックします . 新しい Web クエリの後 ダイ