ログコンバータとHTML::TokeParser

なんとなく使い方分かってきた感じ。うまくHTMLをパース出来てる。あとは、ログを取得するコードに、このパーサを組み込んで動作確認を取ればok。HTML::Parserから継承してるから、attr_encodedに真を設定しておけば、勝手にデコードされない。

$p->attr_encoded(1) if HTML::TokeParser::->can('attr_encoded');

とかやって、確認したほうがより安全かな?
組み込んでテストするのはめんどうだからまた今度。
と思ったけど、パーサで処理するよりも、正規表現ガリガリやったほうがこの場合はいいかもしれない。ページ越えの場合とか考えると、パーサを使うとデータ構造が複雑になる気がする。ん、けどそうでもないかも。とりあえず両方作ってみて、どっちがスマートにできるか試してみよう。

HTML::TokeParser - Alternative HTML::Parser interface - metacpan.org