多言語対応の文字コード判別ライブラリ chardet
RubyForge : Universal Encoding Detector
多言語対応の文字コード判別ライブラリ。Mozillaの文字コード判別ライブラリをRubyに移植したものらしいです。
インストール:
$ gem install chardet
使い方:
require "rubygems" require "UniversalDetector" require "open-uri" data= open("http://gimite.net/pukiwiki/"){ |f| f.read() } p UniversalDetector.chardet(data) #=> {"encoding"=>"EUC-JP", "confidence"=>0.99}
が、試してみたらいきなりバグに遭遇(例外が飛んだ)したので、パッチを書いてみました。