2005
May
1st
mailbrowser 0.2
メールでウェブブラウジング
ついに今日からウィルコムはメールも定額だー。
けど、アサヒ・コムのページがうまく取れないことに気づいた。なんかHTMLParserがパージングでエラーを起こしてるの。で、その内容は
ということで、MyParserクラスにto_getという変数を用意して、これが真ならテキスト部分を抜き出して、そうじゃなかったら抜き出さないようにしてみた。scriptタグが開始されたらこの変数を偽にして、終了されたら真にすると。(mailbrowser 0.2 ソース)
でもまだだめ。パージングで同じエラーが起こる。
この問題についてはもうちょっと頭を使うだな。
けど、アサヒ・コムのページがうまく取れないことに気づいた。なんかHTMLParserがパージングでエラーを起こしてるの。で、その内容は
"</SCR'+'IPT>"て変な終了タグがあるよというもの。なんかいなと思うと、広告のバナーを表示するscriptタグ内でさらに変な方法でscriptタグを開始して終了していることがわかった。これはやっぱロボットとかはじきなのかなあ。
ということで、MyParserクラスにto_getという変数を用意して、これが真ならテキスト部分を抜き出して、そうじゃなかったら抜き出さないようにしてみた。scriptタグが開始されたらこの変数を偽にして、終了されたら真にすると。(mailbrowser 0.2 ソース)
でもまだだめ。パージングで同じエラーが起こる。
この問題についてはもうちょっと頭を使うだな。
Posted by setomits at 10:59 |
Comments: 1
sh1.2 pyblosxom : 続: HTMLParserでの解釈できないタグの処理
http://sh1.2-d.jp/b/2006-04-13-23-38.html
を見てみてください。