導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、サービスのシステム開発を行なっています。サービスではLLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 本記事では、入力するプロンプトの圧縮を効率的に行うための技術、LLMLingua-2について解説します。 LLMLingua-2は、いくつかの手法を組み合わせることによって、品質を下げないままプロンプトを圧縮してくれます。 サマリー LLMLingua-2は以下の方法で、情報の欠落を抑えた上でプロンプトのトークン数を大幅に減らすことに成功しています。 ターゲットとなるLLM(GPT-4など)にプロンプトの圧縮タスクを行なってもらう そのデータを基に入力したプロンプトを構成するトークンの不要、必要を判断する機械学習モデルを作成する 入力に対して上記機械学習