タグ

文字に関するGuroのブックマーク (202)

  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
  • マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題

    重い腰を上げマイナンバーカードを作成しようと申請したところ、気になることが発生しました。 代替文字とはなんでしょうか。 署名用電子証明書は、コンピュータで使用されるものであるため、氏名、住所は、文字化けせずにコンピュータで表示されるものとする必要があります。このため署名用電子証明書で利用可能な文字は、JIS(日工業規格)の漢字の規格の内、日常的に使用頻度の高い常用漢字と人名用漢字を含むJIS第一水準、第二水準(JISX0208)と補助漢字(JISX0212)の範囲としています。 住民基台帳の氏名または住所が電子証明書に記載するコード取扱範囲外の場合は、コンピュータでの表示に類似の字形を指定し、代替文字として登録します。(公的個人認証サービスポータルサイトより) 平たく言えば、「パソコンで普通に打てない名前は置き換えるよ」という意味です。 名字が旧字体で変換しても出てこない人も多いでしょ

    マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題
    Guro
    Guro 2023/11/18
    うわあ
  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
    Guro
    Guro 2023/05/11
  • ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた

    「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ

    ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
  • キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】

    キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】
    Guro
    Guro 2023/04/17
    (まさか)
  • ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ

    今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。 こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。 外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。(世田谷区の紋章、シンボル | 世田谷区ホームページより) 「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。 前回の記事 記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示/非表示 前回の記事 異体字とは 異体字の認識 異体字の使われ方 どこまでが同じ漢字か 誤字か異体字か 異体字はどうできるのか よく使う字は略字化する 画数の多い字は正確でなくても読める

    ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ
    Guro
    Guro 2023/03/10
  • 旧字体とは?【レトロデザインのための近代日本語講座〈1〉】 - マチポンブログ

    はじめに 私はレトロデザインが好きです。 しかし、仮名遣いが「美しゐ」となっていたりして、もったいない、と思うことがあります。(当時も歴史的仮名遣いが厳格に用いられていたわけではありませんが、「美しゐ」と書く人はいないでしょう。) そこで、レトロデザインのために近代(明治~昭和初期)の日語についてここにまとめることにしました。 自分の勉強のためという意味もありますが、デザインの際の一助となれば幸いです。書いてみてから思いましたが、デザイン以外の時代考証にも有用かもしれませんし、単純に「旧字体」のことを知りたい人も読める記事になっています。 一気に書き上げるのは難しいと考え、少しずつ、連載のような形式で書き進めようと思います。 さて、最初のテーマの中心は「旧字体」です。 目次の表示/非表示 はじめに 旧字体とは 戦前の漢字の形は多様すぎる 活字の状況 現在の漢和辞典でも「旧字体」は一定では

    旧字体とは?【レトロデザインのための近代日本語講座〈1〉】 - マチポンブログ
    Guro
    Guro 2023/03/10
  • 多くの自治体が直面する「人名外字問題」の対応が急務【前編】

    GIGAスクール構想を足掛かりに、各自治体で学校のデジタルトランスフォーメーション(DX)を進める機運が高まっている。ところが、その裏で人名外字に起因する厄介な問題が起こっている。学習系のアプリ・ツールと校務支援システムとの間で姓名の不一致が生じ、連携がうまくいかなくなる恐れがある。この「人名外字問題」を2回に分けて解説する。 戸籍通りの字形で名字を表示・印刷できるようにという配慮から、多くの地方自治体において外字が作られているという。ところが、名簿の姓名に外字(ユーザー定義文字)が使われていると、データを渡した先のアプリなどで正しく表示できない「文字化け」が起こる。例えば、校務支援システムで管理する名簿から児童・生徒用端末の学習アプリなどに氏名のデータを渡す際、外字が使われていると端末側で名前を正しく表示できなくなる。 こうした問題が2023年度以降も、児童・生徒の氏名を更新するたびに発

    多くの自治体が直面する「人名外字問題」の対応が急務【前編】
    Guro
    Guro 2022/12/05
  • 波ダッシュ Unicodeに関連する問題 - Wikipedia

    波ダッシュ(なみダッシュ、wave dash[注釈 1])とは、日語表記における約物のひとつで、波線「」(はせん、なみせん)を指している。ダッシュ記号(—)の波形であることからそう呼ばれる[注釈 2]。 日語における用法の多くはダッシュ記号としての用法と長音符としての用法であり、中国語でも長音符などとして使われることがある。 Windows XP等における日語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。 用途[編集] 範囲[編集] 波ダッシュは、範囲を表すために用いられる[注釈 5]。 場所に対して: 東京〜大阪 時間に対して: 5時〜6時(もしくは5〜6時) 数量に対して: 10

  • 文字化けに関するトラブルに強くなる【基礎編】

    今回は、「文字化け」に関する問題について説明します。コンピュータが扱うデータの中で文字データは最も親しみやすいものですが、歴史的な経緯や内部処理の関係から、残念ながら文字化けトラブルなどが発生することがあります。文字化けが発生したとき、オープンシステムではさまざまなソフトウェア製品が処理に介在することから、問題の切り分けに非常に時間を要し、対処が困難な場合が多いです。稿で説明するOracle内部の文字データと文字コードの処理の方法を理解し、問題の切り分けと、一般的な問題への対処方法を理解しましょう。 (3/3)

    文字化けに関するトラブルに強くなる【基礎編】
  • 文字化けに関するトラブルに強くなる【実践編】

    JavaベースのWebアプリケーションのシステム構成と変換表 Javaは、文字列の内部処理をUnicode(正確にはUTF-16と呼ばれるUnicodeの表現方法の1つ)を用いて行っています。図1では、クライアントのWebブラウザとのデータのやりとりをWindowsのシフトJIS(MS932/Windows-31J)で行っていますから、JavaはシフトJISとUnicodeのデータ変換を行う必要があります。 一方、Oracle側、すなわち図1におけるOracle JDBC Thin DriverとOracle Databaseの部分に着目してみましょう。Oracle JDBC Thin DriverはJavaのコンポーネントですから、Java VMとの間のデータのやりとりはUnicodeとなります。このため、Oracle側での文字コード変換では、UnicodeとシフトJIS(JA16SJI

    文字化けに関するトラブルに強くなる【実践編】
  • JavaScript: 文字数を正確にカウントするには? - Qiita

    この投稿ではJavaScriptで文字数をできるだけ正確にカウントする方法について取り上げます。 文字数とは? 要件で「文字数を表示してほしい」「○文字以上はバリデーションエラーにしたい」と文字数を考慮しないとならないことがあります。 そもそも文字数とは何でしょうか。 たとえば、アルファベットの「A」は1文字と数えられそうです。 次の絵文字は、何文字になるでしょうか? この絵文字はiOSであれば14.5の環境では、UI上では上のように1文字のように表示されます。しかし、それ以前のバージョンでは、同じ文字列データでも😵💫のように2文字で表示されます。なお、この絵文字は3つのコードポイントU+1F635 U+200D U+1F4ABからなります。この絵文字の「文字数」はいったい何文字として扱ったらよいのでしょうか。 以上のように、ひとことで文字数と言ってもデータと見た目と環境の3つのややこ

    JavaScript: 文字数を正確にカウントするには? - Qiita
    Guro
    Guro 2022/04/12
    (もう「文字数」という言葉づかいを死語にしたい。無理か。)
  • 「絶滅危惧種」と思われた家業 活版印刷を継いだ娘の〝意外な再生〟

    床に散乱した、おびただしい数の活字 時代遅れでも、拾い集めた父の仕事道具 「責任をもって、後世に伝えていきたい」 大阪府の印刷所が投稿した、とあるツイートが好評を博しています。二度の震災で崩落してしまった、大量の活字。何とか無事だったものの、利用できない状態となった一を、意外な形で活かしていると伝える内容です。「たとえ業務に使えなくても、人々に文字の魅力を届けたい」。職人としての情熱を、創業者の父から受け継いだ2代目社長に、思いを聞きました。(withnews編集部・神戸郁人) 「阪神淡路大震災の日、会社に行ったら活字が崩落していました」 18日、印刷会社山添(大阪市城東区)の野村いずみ代表取締役(50・ツイッター:@Izumi_Nomura)が、一のツイートを投稿しました。 1995年1月17日の大震災で、活字が地面に落ち、印刷に使えなくなったこと。震災を機に、活字を組み替えて行う、

    「絶滅危惧種」と思われた家業 活版印刷を継いだ娘の〝意外な再生〟
  • 文字化けに関するトラブルに強くなる【実践編】

    1.Oracleの変換ルールをJava VMの変換ルールに合わせる 具体的には、シフトJISの0x8160(「~」)をU+301Cではなく、U+FF5Eに双方向変換するようにする(→Oracle側での対処:後述) 2.Javaのアプリケーション側に変換ロジックを組み込む Javaのアプリケーションに、Oracleから受け取った文字データにU+301Cが含まれていた場合、U+FF5Eに変換するロジックを組み込む(→アプリケーション側での対処) なお、上記ではデータベースキャラクタセットがJA16SJISの場合について説明しましたが、JA16EUCでも同様の問題が発生します。 JA16SJISTILDE/JA16EUCTILDEによる対処 上記の問題にOracle Database側で対処する方法として、Oracle Database R9.x以降の版では、JA16SJISとJA16EUCに替

    文字化けに関するトラブルに強くなる【実践編】
  • Oracleデータベースで、~波ダッシュ~の文字化けはなぜ起きるのか?

    複数のデータベースや業務アプリケーションから取得したデータを扱うときに、「文字化け」に遭遇することはままあることだと思います。 文字コードを考えずに読み込んでしまい、データ全体が文字化けしてしまう 読み込み側のシステムで外字を使っていたことに気付かず、書き出し側でその外字が欠落してしまう 読み込み側の文字コードにだけ存在する特定の文字があり、書き出し側でその文字が欠落してしまう 文字コードの変換ロジックによる影響で、特定の文字だけ文字化けしてしまう 文字の16進コードは変わっていないが、OSの世代が新しくなったことで文字コードのバージョンが変わり、その結果、新OS側で表示される字形が変わってしまう などなど、さまざまな原因があります。 今回は、Oracleデータベースに格納されたテキストの中にある~波ダッシュ~の文字化けを取り上げ、なぜ文字化けしてしまうのかを説明します。 なぜ~波ダッシュ

    Oracleデータベースで、~波ダッシュ~の文字化けはなぜ起きるのか?
  • 不便で仕方ない「住所入力の全角・半角問題」はなぜなくならないのか 専門家に原因を聞く(ITmedia NEWS) - Yahoo!ニュース

    ECサイトやSaaSのアカウントを作るため、入力フォームに全角で住所を打ち込み。番地や郵便番号などの数字は半角で書き、情報を登録しようとしたら「この情報は半角では入力できません。全角で入力してください」。よく見るとページ内に「番地は全角で入力してください」という注意書きがあったので、再度打ち直し──入力フォームを使ったことがある人なら、多くの人がこんな面倒な経験を味わっているのではないだろうか。 【画像】InputManJSの概要 こういった仕様は巷(ちまた)にあふれており、ネットで「全角・半角問題」などと呼ばれている。ユーザーに不便を強いているにもかかわらず、このような入力フォームはなぜなくならないのか。 この課題のソリューションとして、ユーザーが入力フォームに打ち込んだ文を自動で半角・全角に統一するなどの機能を持つJavaScriptライブラリ「InputManJS」を提供するグレープ

    不便で仕方ない「住所入力の全角・半角問題」はなぜなくならないのか 専門家に原因を聞く(ITmedia NEWS) - Yahoo!ニュース
    Guro
    Guro 2021/11/07
  • 不便で仕方ない「住所入力の全角・半角問題」はなぜなくならないのか 専門家に原因を聞く

    ECサイトやSaaSのアカウントを作るため、入力フォームに全角で住所を打ち込み。番地や郵便番号などの数字は半角で書き、情報を登録しようとしたら「この情報は半角では入力できません。全角で入力してください」。よく見るとページ内に「番地は全角で入力してください」という注意書きがあったので、再度打ち直し──入力フォームを使ったことがある人なら、多くの人がこんな面倒な経験を味わっているのではないだろうか。 こういった仕様は巷(ちまた)にあふれており、ネットで「全角・半角問題」などと呼ばれている。ユーザーに不便を強いているにもかかわらず、このような入力フォームはなぜなくならないのか。 この課題のソリューションとして、ユーザーが入力フォームに打ち込んだ文を自動で半角・全角に統一するなどの機能を持つJavaScriptライブラリ「InputManJS」を提供するグレープシティ(仙台市)の若生尚徳さん(ツー

    不便で仕方ない「住所入力の全角・半角問題」はなぜなくならないのか 専門家に原因を聞く
    Guro
    Guro 2021/11/05
  • 異体字の世界 【サイトウ】 - Qiita

    ここも考慮すると 斎藤 と書くと 69.3% 正解で、 斉藤 と書くと 30.7% 正解になります。 また子供のころに 斎 が難しかったので 斉 と書いていたケースも考えると、この二つの差は少し縮まりまるかもしれません。 とりあえず確立論的には 斎 と書けば…なんとなく、あたるかも…しれない? (ちゃんと人に確認とりましょう!!!) 斉 | 法務省 戸籍統一文字情報 詳細表示 の正字 斎 | 法務省 戸籍統一文字情報 詳細表示 の正字 人数情報 「斎藤」「斉藤」「齋藤」「齊藤」・・この差って何? | 東洋経済オンライン 拝啓 斎藤さん 先日エンジニアとしてサイトウさんが入社したときに「サイトウのサイってどう書きますか…? Unicodeで教えてください。」という、いつものあれが発生したのでそろそろサイトウについて理解してみようと思いました。 また以前に 『異体字の世界”ワタナベ”』| 漢

    異体字の世界 【サイトウ】 - Qiita
    Guro
    Guro 2021/10/20
  • “戸籍氏名に読みがな 新たに届け出” デジタル化へ報告案 | NHKニュース

    行政手続きなどのデジタル化に向けて、政府が戸籍の氏名に読みがなを付ける方向で検討を進めていることを受けて、有識者らによる研究会は5200万件に上る現在の戸籍の読みがなを新たに届け出てもらうことなどを盛り込んだ報告の案をまとめました。 戸籍の氏名には、漢字しか記載されておらず読みがながないため、デジタル化の妨げになっているとして、政府は戸籍の氏名に読みがなを付ける方向で検討を進めていて、有識者らによる研究会は戸籍法の改正に向けた報告の案をまとめました。 それによりますと、名前の表記や読み方が多様化する中、読みがなを付けるにあたっては、漢字そのものの意味や読み方にかかわらず、どの程度まで自由に認めるかについては、多様な意見があることを踏まえ、十分に検討する必要があるとしています。 そのうえで、これから生まれる子どもは出生届などをもとに戸籍に読みがなを記載するとした一方、5200万件に上る現在の

    “戸籍氏名に読みがな 新たに届け出” デジタル化へ報告案 | NHKニュース
    Guro
    Guro 2021/08/03
    これは。。戸籍の根幹にかかわるので、デジタル化だけで議論しないほうがよい気がするけど。人名用漢字ほか住民基本台帳とマイナンバーにも。/てか5200万件て?筆頭者だけ読みをつけるの??
  • 3D×紙の繊維×漢字字形:イベント盛りだくさんな土曜日でした - digitalnagasakiのブログ

    3/13(土)は、参加したいイベントが盛りだくさんな日でした。 なんとか少しでも参加できたのは、3Dと紙の繊維と漢字字形を扱う3つのイベントでした。他にも 日語コーパスのイベントと舞台芸術アーカイブのイベントがありましたが、残念ながら、これは参加できませんでした…。 特に3次元データと紙の繊維のイベントで 共通しているように思われたのは、人文学において新たに取り込もうとしている 認識の様式をどのようにしてこれまでの文脈のなかで共有可能な言語、あるいは記号に置き換えるべきか、 という点でした。3次元データイベントの方では、ディスカッションの 時間に、考古学における計測と観察の関係についての議論等で特にそういう話が出ていたように思われました。 一方、紙の繊維のイベントの方では、 とくに、舟見一哉氏の発表でそういった 問題意識が丁寧にまとめられていたように感じました。後者のイベントは、実践女子

    3D×紙の繊維×漢字字形:イベント盛りだくさんな土曜日でした - digitalnagasakiのブログ
    Guro
    Guro 2021/03/15