htmllibの最近のブログ記事

単純なものとして、BeautifulSoupを使ったHTML解析で
Googleの表示順位を取得するスクリプトを作ってみた。

んだから、もちろんBeautifulSoupと初期設定は必須。
そして、もちろんノンオブジェクト指向。

設定で指定した検索クエリ(q)を使用し、
Googleで検索結果を取得。
その中からURL(s)を発見したら表示するというもの。

HTTPクライアントを作成するにあたり、
HTML解析周りが一番の難点となるのだが、
Pythonの標準ライブラリ(htmllib, HTMLParserなど)では、
壊れたHTMLを解析できないということなので
BeautifulSoupを試してみることに。

使ってみてぶっくり。いや、びっくり。
Perl厨には今までにない使い心地のパーサである。
しかも文字エンコーディングまで自動で取得してくれる。

インストールも超簡単なので是非使ってみるべきだ。

インストール方法
BeautifulSoupをダウンロード。
スクリプトのあるディレクトリ、もしくは
「Pythonのルートディレクトリ/Lib」に保存するだけ。

さて、本格的な使い方を追求してみようと思う。

このアーカイブについて

このページには、過去に書かれたブログ記事のうちhtmllibカテゴリに属しているものが含まれています。

前のカテゴリはcookielibです。

次のカテゴリはHTMLParserです。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。