PythonでHTML解析(HTMLParserより優れたパーサ)

| | コメント(0) | トラックバック(1)

HTTPクライアントを作成するにあたり、
HTML解析周りが一番の難点となるのだが、
Pythonの標準ライブラリ(htmllib, HTMLParserなど)では、
壊れたHTMLを解析できないということなので
BeautifulSoupを試してみることに。

使ってみてぶっくり。いや、びっくり。
Perl厨には今までにない使い心地のパーサである。
しかも文字エンコーディングまで自動で取得してくれる。

インストールも超簡単なので是非使ってみるべきだ。

インストール方法
BeautifulSoupをダウンロード。
スクリプトのあるディレクトリ、もしくは
「Pythonのルートディレクトリ/Lib」に保存するだけ。

さて、本格的な使い方を追求してみようと思う。

トラックバック(1)

このブログ記事を参照しているブログ一覧: PythonでHTML解析(HTMLParserより優れたパーサ)

このブログ記事に対するトラックバックURL: http://mt.blog-slime.com/mt-tb.cgi/7

Perl使いのPythonちゃん - BeautifulSoupでHTML解析 (2007年7月27日 19:09)

BeautifulSoupが素晴らしいので 他にあまり解説サイトもないし、 簡単... 続きを読む

コメントする

このブログ記事について

このページは、adminが2007年7月27日 11:04に書いたブログ記事です。

ひとつ前のブログ記事は「【対話型 Python】なあ、俺って結構イケてる?」です。

次のブログ記事は「BeautifulSoupでHTML解析」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。