エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術(EE Times Japan) - Yahoo!ニュース
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術(EE Times Japan) - Yahoo!ニュース
NTTは2024年4月12日、大規模言語モデル(LLM)の活用により、文書に含まれる図表やグラフなども含めて理... NTTは2024年4月12日、大規模言語モデル(LLM)の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解/応答する「視覚読解技術」を実現したと発表した。今後、カスタマーサポート業務の補助や自然言語指示による作業の自動化など、オフィスDX(デジタルトランスフォーメーション)の推進への貢献が期待できる。 テキストベース読解と視覚読解の比較[クリックで拡大] 出所:NTT 視覚読解技術とは、実世界の文書を視覚的に(画像として)理解し読解する技術だ。今日では、図表やグラフ、文字の見た目、レイアウトなどの視覚情報を用いた文書が多く扱われているが、従来のテキストベースの読解技術では、それらの視覚情報を読み取ることが難しかった。また、従来の視覚読解技術では、請求書に関する情報抽出のタスクなど、任意の文書やタスクに対応することが難しいため、目的のタスクや文書ごとに一