Web サイトローカライズやソフトウェア ローカライズにおいて欠かしてはならないポイントの 1 つに文字コードに関する理解があります。 また、普段何気なく使用している Web サイト、電子メールなどなど、さまざまなところで文字コードの設定が行なわれ、文字化けの不安もなく使用されています。 文字情報によるコミュニケーション法では、文字化けはビジネスでは致命的といわざるを得ません。 そのためにも、基本的な文字コードをしっかりと理解していくことが必要です。文字コードすべてを網羅することは難しいですが、ここでは現在の代表的な文字コードについて、重点的に見ていきましょう。特に、母国語である日本語の文字コードを知っておくことはプラスになってもマイナスになることはありません。 文字コードは、英語をはじめとするシングルバイト圏、日本語をはじめとするダブルバイト圏などの、多言語間での言語表示において、とても重要なポイントでもあります。
文字は、日本工業規格(JIS 規格)により決められ、以下の 4 つの種類に分けられています。
現在、主な文字コードの種類は以下の 4 種類が挙げられます。
Microsoft 社が決定した文字コードです。Windows にて使用されています。シフト JIS コードではエスケープシーケンスを使用しません。
JIS コードは 7 ビットで表現されます。文字の切り替えにはエスケープシーケンスを使用しています。JIS(日本工業規格)によって標準化されている文字コードです。身近なところでは、インターネットで日本語の電子メールなどで使用されています。
UNIX 環境で使用されていることが多い文字コードです。複数バイト言語の各国の文字コードを規定しており、エスケープシーケンスは使用していません。 特に、日本語の EUC コードを「EUC-JP」などと表現することがあります。各国の文字コードなので、日本語 EUC だけでなく、韓国語 EUC や中国語 EUC などもあります。
ユニコード・コンソーシアムという組織によって定められた文字コードです。あらゆる言語のすべての文字を 16 ビットで表現し、この 1 つの文字コードをベースにして、多国語のコード処理を行ないます。主要な言語はほぼ網羅されています。 以上のような文字コードを、普段はまったく意識せず、使用しているわけです。 しかし、貴社の Web サイトや、E メールでのやり取りから始まり、ソフトウェアをローカライズする際、またWeb サイトをローカライズする際などにも文字コードは重要なポイントなのです。 ※エスケープシーケンスとは、エスケープコードと制御文字の組み合わせで表現する、正規表現の特殊文字のこと
このように、事前に文字コードを確認しておくことで「ローカライズ後に文字化けしてしまった」ということのないようにしましょう。
ローカライズとは
ローカライズの内容と種類
Flash および DVD ローカライズとは