タグ

pdfに関するLhankor_Mhyのブックマーク (9)

  • PDFに文字化けを起こさせない対策法 もらったファイルは正規化で、作成ツールは対応済みを使え

    NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。続いては、文字化けが起きたPDFの修正方法と、文字化けを起こさない対策方法について。前回はこちらから。 もらったPDFの文字化けを修正するには? 細田真道氏(以下、細田):文字化けを修正するにはどうすればいいかを説明します。誰かからもらったPDFが文字化けしていたとします。データ分析したいとか、検索したいときに困りますね。一番簡単なのは、正規化しちゃう。これはテキストを抽出してから、問題のブロックの文字を対応する通常の漢字に置き換えるように正規化すれば、データ分析ということならこれでできると思います。 あとはちょっと荒

    PDFに文字化けを起こさせない対策法 もらったファイルは正規化で、作成ツールは対応済みを使え
    Lhankor_Mhy
    Lhankor_Mhy 2023/02/18
    「源ノ角のAJ1」→「げんのかくのあじ」ってことなのかな?
  • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

    NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDX仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

    PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
    Lhankor_Mhy
    Lhankor_Mhy 2022/02/18
    フォント内蔵の文字コード→グリフマッピングがN対1なのが原因、と。/ その2→https://logmi.jp/tech/articles/324412
  • PDFから表データをぶっこ抜く「Nitro Cloud」

    DATA GO JPに並んでいるデータセットが「PDFばかりじゃないか!」とお嘆きの方へ。 Nitoro Cloud PDF to Excel PDFで公開されているデータというのは、わりと扱いにくかったりします。 ドキュメント内で表組みされているデータを取得しようと、表を選択してExcelにコピペしても表のレイアウト情報はコピーされないため整形しなおす必要があったりするので、しごくメンドウです。 「Nitro Cloud」は、PDF内の表データをぶっこ抜いてExcelファイルに変換してくれるクラウドサービスです。 かなりの精度で表データを抜き出してくれるため、非常に便利です。 サンプル 月5ドキュメントまで無料で使用できるので、PDFからデータを取得したいと考えている方は、利用してみてはいかがでしょうか。 関連記事 ひとりオープンデータソンやってみました。

    PDFから表データをぶっこ抜く「Nitro Cloud」
  • 抹茶SNS・請求書 - アイシーズが提供するビジネスオープンソース

    特定のテーマで会話をするときは「グループ」を作りましょう。テーマに興味をもったユーザ同士で会話することができます。 Word、ExcelPowerPoint、自分で撮影した画像など、タイムライン上にファイルをアップロードすれば、つながっているユーザ、所属しているグループに対してファイルを公開することができます。

    Lhankor_Mhy
    Lhankor_Mhy 2011/05/07
    CakePHPを使った請求書・見積書PDFを作成・共有するwebアプリケーション。
  • PDF編集

    Lhankor_Mhy
    Lhankor_Mhy 2010/09/04
    オンラインPDF編集サービス。フリーでも↓で言ってるようなADは入らなかった。仕様変更したのかも。
  • PDFの分割、マージを行う·PDF Split and Merge MOONGIFT

    PDFは編集が容易でないところに利点がある。またどの環境に置いてもAdobe Readerのような共通のビューワーで見れば同じように見えるのが利点だ。だが、時にはその編集の難しさが仇となることがある。一部のページだけを抜き出したり、二つのPDFをマージしたいと言ったニーズもあるだろう。 PDFの分割やマージができる スキャンしてPDF化したら、全体が回転してしまっていた…なんて事態になった時にも使えるのがPDF Split and Mergeだ。 今回紹介するオープンソース・ソフトウェアはPDF Split and Merge、PDFの分割、マージを行うソフトウェアだ。 PDF Split and MergeはWindowsMac OSX(おそらくLinuxも)で動作するソフトウェアで、Javaで作られている。各機能はプラグイン化されており、マージ/抽出、回転、ミックス、分割といった機能

    PDFの分割、マージを行う·PDF Split and Merge MOONGIFT
  • JavaScript++かも日記 - 1997年からの

    前回、Web上でLibraのwalletやclientを作る(6)-残高を見るに追記したのだけど、実は、前回成…

  • Apache FOP

    Apache FOP にさわる 作成 2002/10/19 ちょっと仕事で使いそうなので、下準備で調べてみることにしました。 XMLからPDFが出来ちゃうなんて驚きです。 Apache FOPとは? 準備 コマンドラインから使ってみる Javaプログラムから使ってみる 日フォントを使ってみる プリンタに印刷してみる FOの書式入門 改行、折り返し問題 サンプル Apache FOPとは? Apache FOPとは? FOPとは、XSL FOからPDF文書を作成するJavaライブラリです。 hello.fo →(FOP)→ hello.pdf XMLとXSL(XSLT)でFOを作り、それをPDFに変換することも可能です (というかそっちが主流?)。 hello.xml + hello.xsl → (FOP) → hello.pdf XSL FOとは? W3Cで制定された、XMLで文書のス

    Lhankor_Mhy
    Lhankor_Mhy 2008/02/24
    XSL FOからPDF文書を作成するJavaライブラリ。
  • 画像内の文字をコピー&ペーストする

    資料をもらったら画像だった──。そんなときもあきらめず。無償の「クセロReader ZERO」を使えば、画像をPDFに変換してOCRをかけ、テキストデータを抜き出すことができる。 資料を引用したいのだが、手元にあるのは画像ファイル。ここから文字を抜き出すにはどうしたらいいか。画像を見ながら、手で打っていくしかないのか。 クセロが新しくリリースする「クセロReader ZERO」を使えば、画像ファイルをドラッグ&ドロップで読み込ませて、OCRをかけることが可能だ。これを使えば、画像内の文字を簡単にテキストデータに変換できる。あとは、Adobe Readerなどで開いて、コピーすればいい。 この機能は、11月初旬に無償配布を開始するクセロReader ZEROに新機能として盛り込まれたもの。画像からPDFファイルを簡単に作成する機能や、画像PDFファイルにOCRをかけてテキストの透明レイヤーを

    画像内の文字をコピー&ペーストする
  • 1