[B! AI] GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか？

napsucks 4ビット量子化で充分性能が出るという話は数ヶ月前から出回ってたな。GPUもそのうち演算機でパックド4bitをサポートし始めるのかも知れない。

2023/06/03 リンク

issyurn “LoRAをベースに、追加で3つのテクニックを利用することで650億(65B)パラメーターのモデルを48GBしかメモリを搭載していないGPUでトレーニング可能にしたうえ、24時間のトレーニングでChatGPTの99.3%に匹敵する性能を引き出す

2023/06/03 リンク

nicht-sein GPUの並列計算能力使い道として機械学習が使われている現状なんだけど、最近の4bit演算とかになると既存のGPUの得意とすることろから外れてきてしまってジレンマがある、って話題になってたなー

2023/06/04 リンク

yamadar これは凄い。コンピュータ資源がカツカツになってる現在、この手法は一気に広まるポテンシャルがあるのでは。

2023/06/03 リンク

T-norf GPT-3.5クラスの性能が、48GのGPUメモリでファインチューニングできそうで、これは論文全文ちゃんと読まないと。と、日本語でがっつりファインチューニングしたベースモデルが欲しい。

2023/06/03 リンク

misshiki QLoRA “650億(65B)パラメーターのモデルを48GBしかメモリを搭載していないGPUでトレーニング可能にしたうえ、24時間のトレーニングでChatGPTの99.3%に匹敵する性能を引き出すことに成功”

自然言語処理

2023/06/05 リンク

harumomo2006 NVIDIAとしては驚異だろうね

2023/06/04 リンク

2023/06/03 リンク

isrc 追加で3つのテクニックを利用することで650億(65B)パラメーターのモデルを48GBしかメモリを搭載していないGPUでトレーニング可能にしたうえ、24時間のトレーニングでChatGPTの99.3%に匹敵する性能を引き出すことに成功

機械学習

2023/06/03 リンク

yamadar これは凄い。コンピュータ資源がカツカツになってる現在、この手法は一気に広まるポテンシャルがあるのでは。

2023/06/03 リンク

so-apps 教科学習って…新用語じゃないよな…？人間ならではの誤字だよな？

2023/06/03 リンク

GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか？

GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター... GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく増加してしまいます。そんな中、メモリの消費量を激減させつつ少ないデータでトレーニングできる手法「QLoRA」が登場しました。 [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs https://arxiv.org/abs/2305.14314 artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs https://github.com/art