2005 May 1st

mailbrowser 0.2

メールでウェブブラウジング

ついに今日からウィルコムはメールも定額だー。


けど、アサヒ・コムのページがうまく取れないことに気づいた。なんかHTMLParserがパージングでエラーを起こしてるの。で、その内容は
"</SCR'+'IPT>"て変な終了タグがあるよ
というもの。なんかいなと思うと、広告のバナーを表示するscriptタグ内でさらに変な方法でscriptタグを開始して終了していることがわかった。これはやっぱロボットとかはじきなのかなあ。
ということで、MyParserクラスにto_getという変数を用意して、これが真ならテキスト部分を抜き出して、そうじゃなかったら抜き出さないようにしてみた。scriptタグが開始されたらこの変数を偽にして、終了されたら真にすると。(mailbrowser 0.2 ソース

でもまだだめ。パージングで同じエラーが起こる。
この問題についてはもうちょっと頭を使うだな。
Posted by setomits at 10:59 | Comments: 1
Re: mailbrowser 0.2
いまさらといえばいまさらなんですが、解決しました。

sh1.2 pyblosxom : 続: HTMLParserでの解釈できないタグの処理
http://sh1.2-d.jp/b/2006-04-13-23-38.html

を見てみてください。
Posted by shunuhs at 12:01 on 2006 Apr 14th
Leave a comment
Required fields are marked with *
search
calendar
Feb 2012
SunMonTueWedThuFriSat
   1234
567891011
12131415161718
19202122232425
26272829   
archives
photos on flickr
www.flickr.com