ブックマーク / zenn.dev/tomioka (1)

  • OpenAIのGPT-4oを日本語OCRとして使ってみる

    昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

    OpenAIのGPT-4oを日本語OCRとして使ってみる
    kotetsu306
    kotetsu306 2024/05/14
    「7年間」→「七年間」とか「話したい」→「話ししたい」とか、画像を認識してるだけでは出て来ないような表記揺れが起きている
  • 1