はじめに AWS re:Invent 2023で、Amazon Transcribeは、次世代の数十億パラメータの音声基盤モデルを搭載した自動音声認識 (ASR)を発表しました。 搭載したことにより、バッチモードでTranscribe を使用する場合、APIエンドポイントや入力パラメータを変更することなく、100 以上の言語で精度向上を実感できるようです。 下記でも紹介されていました。 こちらのAWSのブログでも下記のことが記載されています。 Amazon Transcribe は音声基盤モデルを活用することで、ほとんどの言語で 20% から 50% の大幅な精度向上を実現します。困難でデータが不足している分野である電話音声では、精度が 30% ~ 70% 向上しました。この大規模な ASR モデルでは、大幅な精度の向上に加えて、より正確な句読点と大文字の使用により可読性も向上します。 1