Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonのhtml5libおよびlxmlパーサー


html5lib HTMLを解析するための純粋なPythonライブラリです。これは、すべての主要なWebブラウザーで実装されているように、WHATWGHTML仕様に準拠するように設計されています。 HTMLドキュメントのほぼすべての要素を解析し、さまざまなユースケースに合わせてフィルターで除外できるさまざまなタグや部分に分割できます。主要なブラウザと同じ方法でテキストを解析します。また、壊れたHTMLタグに取り組み、構造を完成させるために必要なタグをいくつか追加することもできます。また、純粋なPythonコードで記述されています。

lxml 同様のパーサーですが、HTMLよりもXML機能によって駆動されます。外部Cライブラリに依存しています。 html5libと比較して高速です。

サンプルタグの例を取り上げて、これら2つのパーサーの動作の違いを観察し、出力を見てみましょう。

from bs4 import BeautifulSoup
html5_structure = BeautifulSoup("<head><li></p>", "html5lib")
print(html5_structure)
lxml_structure = BeautifulSoup("<head><li></p>", "lxml")
print(lxml_structure)

上記のコードを実行すると、次の結果が得られます

出力

<html><head></head><body><li><p></p></li></body></html>
<html><head></head><body><li></li></body></html>

ご覧のとおり、html5libは、

を組み込むことでより完全なhtmlドキュメントを作成します。

鬼ごっこ。 lxmlライブラリは、xmlのような構造に重点を置いており、タグを完全に無視します。


  1. Pythonでの相関と回帰

    相関とは、2つのデータセット間の依存関係を含むいくつかの統計的関係を指します。線形回帰は、従属変数と1つ以上の独立変数の間の関係を確立するための線形アプローチです。単一の独立変数は線形回帰と呼ばれ、複数の独立変数は重回帰と呼ばれます。 相関 依存する現象の簡単な例としては、親と子孫の外見の相関関係、製品の価格と供給量の相関関係などがあります。seabornpythonライブラリで利用可能なアイリスデータセットの例を取り上げます。その中で、3種のアヤメの花のがく片と花びらの長さと幅の相関関係を確立しようとしています。見つかった相関関係に基づいて、ある種を別の種から簡単に区別する強力なモデルを作

  2. =+と+=はPythonで何をしますか?

    + =演算子は、object .__ iadd __()関数のシンタックスシュガーです。 Pythonドキュメントから: これらのメソッドは、拡張された算術割り当て(+ =、-=、* =、@ =、/ =、// =、%=、** =、)を実装するために呼び出されます。 =、&=、^ =、| =)。これらのメソッドは、その場で操作を実行し(自己を変更)、結果を返すようにする必要があります(自己である可能性がありますが、そうである必要はありません)。 例 だからあなたが次のようなことをするとき- a = 5 b = 10 a += b print(a) 出力 これにより、出力が得られます- 15