Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

UnicodeとUTF-8とASCIIと

ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに - CNET Japan

ASCIIと比べたときのUnicodeの短所としては、ローマ字を格納するのに2倍のメモリ容量を必要とする点が上げられる。これはUnicodeがより多くの文字記号に対応するため、文字をより多くのバイト数で表現するためである。

「Webで利用される」UnicodeはUTF-8が主流なのだからローマ字に2倍のメモリは必要ないだろうと元記事を開いてみたら、そっちも同じ内容で、コメントで突っ込まれていた。

もともとASCII文字しか使っていないページは、単に文字セットをUTF-8にするだけでそのまま動くのだから楽なもの。
でもって「Unicodeにしたよ:^)」と息巻いてるコンテンツでマルチバイト文字を使うと、「5文字で区切る」つもりであろうところが「5バイトで区切れ」て、日本語が泣き別れたりするんだよね。

スポンサーサイト

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

トラックバック

トラックバック URL
http://idlysphere.blog66.fc2.com/tb.php/106-051349e3
この記事にトラックバックする(FC2ブログユーザー)

Appendix

タグ

Blog内検索

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。