スクレイピングに使うパッケージ類を入れる

lxmlについて

lxmlとは、Python で xml や html を扱うためのライブラリ。
libxml2 と libxslt を使ったC拡張ライブラリで、とにかく早いらしい。

lxmlを使うには下記パッケージを入れておく必要がある。
libxml2-dev, libxslt-dev, libpython3-dev, zlib1g-dev
 

 

BeautifulSoup4について

覚えやすいシンプルなAPIが特徴のスクレイプングライブラリ。
目的に合わせて内部のパーサーを選択できる。
・html.parser: 標準ライブラリのhtml.parser: 追加のライブラリ不要
・lxml: lxmlのHTMLパーサー: 高速に処理できる
・lxml-xml: lxmlのXMLパーサー: 唯一XMLに対応していて高速に処理できる
・html5lib: html5lib: HTML5の仕様通りにパースできる

 

その他のスクレイピングライブラリ

CSSセレクターを扱うならcssselectを入れる。
もし使うなら、pyqueryも入れてみる。jQueryみたいに使えるらしい。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です