monthly gimite

試験運用中。

多言語対応の文字コード判別ライブラリ chardet

RubyForge : Universal Encoding Detector

多言語対応の文字コード判別ライブラリ。Mozilla文字コード判別ライブラリをRubyに移植したものらしいです。

インストール:

$ gem install chardet

使い方:

require "rubygems"
require "UniversalDetector"
require "open-uri"

data= open("http://gimite.net/pukiwiki/"){ |f| f.read() }
p UniversalDetector.chardet(data)
#=> {"encoding"=>"EUC-JP", "confidence"=>0.99}

が、試してみたらいきなりバグに遭遇(例外が飛んだ)したので、パッチを書いてみました。

てかなんでRubyForgehttpsオレオレ証明書…?