Unicode と UTF

TeraPad を使用していて、Unicode が複数あることに気づく、というか秀丸でも複数あったんだけど...

TeraPad には以下の3種類が定義されている。

  1. Unicode
  2. UTF-8
  3. UTF-8N


秀丸では TeraPad と異なり、Unicode という体系の中に以下の4種類が定義されている。

  1. UTF-16
  2. UTF-16,Big-Endian
  3. UTF-8
  4. UTF-7



秀丸はわかりやすいが TeraPad の Unicode と UTF-8 ってなんだ?
どうやら、Unicode は UTF-16 のリトルエンディアンらしいのだが UTF-8N は UTF-8 の BOM 無しの様なのだ。
Unicode に付いてはこちらのぺージが参考になるかも?UCS-2とUTF-8
あと、どうやら TeraPad はクリップボードの中のエンコードを確認していないようだ。DreamWeaver からコピーペーストを行うと文字化けを起こす。同様のことを Delphi で試した。すると、Delphi Win32版は各エディションとも全く同じ文字化けを起こした。.Net版は正しく変換して張り付いた。どうやら Win32環境で Delphi で対応しようとすると自前で実装が必要なようですね。

あとで、サポート掲示板に不具合内容を書いておいたら、てらおさんが暫定(0.89a)で修正してくれました。

コメント (0件)


くろねこ研究所
https://www.blackcat.xyz/article.php/unicode_utf