タグ

文字化けに関するkoroharoのブックマーク (16)

  • サロゲートペア入門

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicodeでデータ処理

    サロゲートペア入門
  • Think Different. – A dream does not escape. but I always escapes.

    SNSが全盛で、 Facebook や Twitter や Instagram をやってると、ビジネス以外ではブログを書かなくなる。技術的なことも、最近は Qiita ばかりだ。 最近、とりとめなく書きたいことがあっても、書いておくところが無いなぁと思ってた。 せっかくなので、昔書いてたブログのサーバーリプレイスを期に、 WordPress.com へ移行してみた。 勉強がてら、いろいろ使ってみることにした。 ソーシャルメディアも、熟成されつつあるけども、まだ新しいものも創れると思う。 期待を越えるのではなく、期待を裏切ることをしたい。もちろんいい意味で。

    Think Different. – A dream does not escape. but I always escapes.
  • Developer'sWorks - Vista文字とチェック方法

    Vista文字とチェック方法 WindowsVistaでは JIS X 0213:2004 の対応が行われ、MSゴシックとMS明朝のアップデートが行われています。 また、新しいフォントとして メイリオ が標準搭載されています。 メイリオ(Meiryo)はWindows Vistaに標準で搭載されているClearType対応日フォントです。 より細かい階調制御で文字のジャギーを減らし、曲線もきれいに表示できるという特色があります。 このページでは、これら変更による Java上の影響や注意点をまとめていきます。

  • JIS X 0208 - Wikipedia

    重複符号化の問題[編集] この規格の漢字集合をISO/IEC 646の国際基準版図形文字集合またはJIS X 0201のラテン文字用図形文字集合と組み合わせて使用するとき、両方の文字集合に共通して含まれる文字の扱いが問題となる。特別な措置がなければ、共通して含まれる文字は、1文字につき複数の符号位置が与えられる、すなわち、重複符号化(ちょうふくふごうか)されることになる。 JIS X 0208:1997は、両方の文字集合に共通して含まれる文字について、2個の符号位置のうちの一方である漢字集合の符号位置の使用を基的に禁じて、重複符号化を排除している。同じ名前を有する文字が同じ文字と判断される。 例えば、ISO/IEC 646の国際基準版図形文字集合のビット組合せ4/1に対応する文字の名前も、漢字集合の3区33点に対応する文字の名前も、LATIN CAPITAL LETTER Aである。国際

    JIS X 0208 - Wikipedia
  • Oracle Java Technologies | Oracle

    Java Is the Language of Possibilities Java is powering the innovation behind our digital world. Harness this potential with Java resources for student coders, hobbyists, developers, and IT leaders.

  • Loading...

  • Migrating to FSRefs & long Unicode names from FSSpecs

    struct FSSpec { short vRefNum; long parID; StrFileName name; /* 63ビット文字列 */ }; struct FSRef { UInt8 hidden[80]; /* File Manager のプライベート変数 */ }; おそらく、コードに最も大きな影響を与える相違点としては、FSRef は存在しない項目を表現できないことと、80 バイトの配列として定義されていますが、その内容が明文化されていない不透過なデータ構造体であるということです。特に FSRef は、それが参照している項目の名前を保持していません。Mac OS X が最大 255 文字の UniChar からなる、Unicode 文字のファイル名を使用できることを考えれば、不思議なことではありません(詳しくは「FSRef と Unicode のロングファイル名」を参

  • Windows-31J の文字セット

    このページは IANA の登録名は Windows-31J とされ、Windows Codepage 932 や Windows標準文字セットと呼ばれる文字セット、文字エンコーディングについて、私の知りうる範囲で説明をいたします。 IANA の登録では次のようになっています。 Name: Windows-31J MIBenum: 2024 Source: Windows Japanese. A further extension of Shift_JIS to include NEC special characters (Row 13), NEC selection of IBM extensions (Rows 89 to 92), and IBM extensions (Rows 115 to 119). The CCS's are JIS X0201:1997, JIS X0208

    koroharo
    koroharo 2007/11/09
    IANA の Windows-31J の登録内容には書かれていませんが、Windows Codepage 932 では、95~114区 (シフトJISで 0xF040~0xF9FC) をユーザー定義外字の領域としていて、ユーザーが外字エディタで外字を定義して使ったり、市販の外字フォン
  • シフトJISの拡張文字

    JISコードの区点では、9~15区と85~94区を未定義とされてゐる。然し、シフトJISでは、13区と89~92区と115~119区の部分に対し独自に漢字などの文字の割当てを行つてゐる。 此処では、この件についてunicode(utf-8)と絡めて説明し、併せて正漢字の使用についての留意点を纏めておきたい。 論 「拡張文字」の一覧表 13区(0x8740~0x879E) ①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ・㍉㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻㎜㎝㎞㎎㎏㏄㎡・・・・・・・・㍻〝〟№㏍℡㊤㊥㊦㊧㊨㈱㈲㈹㍾㍽㍼≒≡∫∮∑√⊥∠∟⊿∵∩∪・・ 89区(0xED40~0xED9E) 纊褜鍈銈蓜俉炻昱棈鋹曻彅丨仡仼伀伃伹佖侒侊侚侔俍偀倢俿倞偆偰偂傔僴僘兊兤冝冾凬刕劜劦勀勛匀匇匤卲厓厲叝﨎咜咊咩哿喆坙坥垬埈埇﨏塚增墲夋奓奛奝奣妤妺孖寀甯寘寬尞岦岺峵崧嵓﨑嵂嵭嶸嶹巐弡弴彧德 90区

  • Unicode の文字列をソースコードに埋め込む方法 - bkブログ

    Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指

  • JIS X 0201 - Wikipedia

    JIS X 0201は、日産業規格 (JIS) の制定している文字コード規格で、初版は1969年6月1日の制定であり、現存のJISにおける最も古い文字コードである。規格名称は7ビット及び8ビットの情報交換用符号化文字集合。名称が示す通り、7ビット符号と8ビット符号での運用が予定されている。図形文字の集合を規定するための規格であり、JIS X 0211 (ISO/IEC 6429) で規定される制御文字集合と組み合わせて使用する。 現在の規格番号はJISの部門X(情報処理)の新設に伴って1987年3月1日に変更されたもので、旧規格番号はJIS C 6220。俗称はANKコードで、'ANK'はこのコードの主要構成文字であるアルファベット (Alphabet)、数字 (Numerical digit)、片仮名 (Katakana) の頭文字より来ている。 JIS X 0201はラテン文字用図形

  • 半角カナ - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "半角カナ" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年11月) 半角カナ(はんかくカナ)、半角片仮名(はんかくかたかな, Halfwidth Katakana)とは、コンピュータで使用される文字集合のひとつで、もっぱら幅が通常の半分(半角)で表示または印刷される特殊な片仮名のことである。 日におけるパーソナルコンピュータの黎明期から存在し、後に平仮名や漢字など多様な文字が利用可能になるまではコンピュータ上で日語を書き表すことができる唯一の手段だった。 歴史[編集] ASCII普及前、大型コンピュータ(メインフレーム)で使

    半角カナ - Wikipedia
  • ASCII文字コード : IT用語辞典

    当サイト「IT用語辞典 e-Wordsイーワーズ」はIT(Information Technology:情報技術)用語のオンライン辞典です。コンピュータ・情報・通信などを中心とする各分野の用語について、キーワード検索や五十音索引から調べることができます。用語の意味や定義、概要や要約、略語や別表記、英語表記や綴り、フルスペル、読み方や発音、仕組みや役割、歴史や由来、語源、構造や構成、要素、特徴、機能や性能、諸元、規格や仕様、標準、原因や要因、手法や方法、方式、種類や分類、利点やメリット、欠点やデメリット、問題点、対義語や類義語との違い、用例や事例、具体例、画像や図表、関連用語、外部資料や別の辞典による解説へのリンクなどを掲載しています。

  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ

  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

    波ダッシュ・全角チルダ問題 - Wikipedia
  • 波ダッシュ Unicodeに関連する問題 - Wikipedia

    波ダッシュ(なみダッシュ、wave dash[注釈 1])とは、日語表記における約物のひとつで、波線「」(はせん、なみせん)を指している。ダッシュ記号(—)の波形であることからそう呼ばれる[注釈 2]。 日語における用法の多くはダッシュ記号としての用法と長音符としての用法であり、中国語でも長音符などとして使われることがある。 Windows XP等における日語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。 用途[編集] 範囲[編集] 波ダッシュは、範囲を表すために用いられる[注釈 5]。 場所に対して: 東京〜大阪 時間に対して: 5時〜6時(もしくは5〜6時) 数量に対して: 10

  • 1