タグ

gpuに関するsh19910711のブックマーク (66)

  • 【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】

    はじめに GMO NIKKOの吉岡です。 みなさん、生成AIは活用してますか? ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。 自分も使ってはきましたが、課金が気になってしまいます。 これではサービスに組み込むことは難しいですよね。 そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。 ローカルLLMを動かす上で一番重要なのはGPUVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが

    【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】
    sh19910711
    sh19910711 2024/06/07
    "NVIDIAのサーバー用GPUだったため、BIOSからResizable BARやAvobe 4G Decodingなどの設定ができる新しめのマザーボードを用意する必要がありました / 高性能なGPUは複数スロットを占有してしまう"
  • ChainerでTensor Coreを使ってみる - Qiita

    計算速度が一気に8倍速くなるらしいTensor Coreが使えるということで、昨年9月にTuring世代のGPUを買ってみたものの、Tensor Coreが簡単に使えて一気に早くなるわけでもなく、しばらくTensor Coreが使えているかどうかもよくわからない状態でした。今回一部修正もあって、Chainer v7.0.0a1でTensor Coreが使えることがほぼ確認できました。 また、Google ColaboratoryのGPUもTesla T4とTuring世代となり、Tensor Coreが使えそうなので試してみました。 環境 環境 GPU Cuda Core数 FP32 FP16

    ChainerでTensor Coreを使ってみる - Qiita
    sh19910711
    sh19910711 2024/06/07
    "Tensor Core: 計算速度が一気に8倍速くなるらしい / Chainerの対応などでTensor Coreを使うだけなら簡単に / Convolutionを使う場合はチャンネルの並び(NHWC)とかも考慮しないと遅くなることがある" 2019
  • Raspberry PiのGPUで数値計算: (2)QPUの特徴 - Qiita

    http://qiita.com/Terminus-IMRC/items/7406fa835d6510790406 の続きです. QPUコア 前回説明した通り,QPUはVideoCore IV内に存在するプロセッサです./boot/config.txtで指定されたgpu_freqの周波数で動きます.デフォルトではRaspberry Pi 1,2では250MHz,Raspberry Pi 3では400MHzです.QPUは物理的に3*4=12基あり,その中に物理的に4コアあり,それぞれのコアが4クロックで4コアをエミュレートします.すなわち,QPU全体をみるとgpu_freq/4=62.5または100MHzで動作する仮想的なコアが12*4*4=192個存在することになります.後述の通り,ALUが1命令で32ビットの加算と乗算を同時に行えるので,192*2*62.5=24000または192*2*

    Raspberry PiのGPUで数値計算: (2)QPUの特徴 - Qiita
    sh19910711
    sh19910711 2024/06/06
    "QPU: /boot/config.txtで指定されたgpu_freqの周波数で動き + デフォルトではRaspberry Pi 1,2では250MHz,Raspberry Pi 3では400MHz / 物理的に3*4=12基あり,その中に物理的に4コア" 2016
  • Unified Memoryを使ってGPUメモリよりも大きなモデルをChainerで扱う - Qiita

    ... cupy.cuda.memory.OutOfMemoryError: out of memory to allocate 8589934592 bytes (total 17179869184 bytes) などとエラーを吐かれて泣いた記憶はないでしょうか。 最近は様々な分野で深層学習のモデルの巨大化が激しいです。学習時間が長くなるのは致し方ないとして、モデルによってはGPUメモリにのらず、そもそもまともに動かすことができないという問題に直面することがあります。特に、Graph Convolution系のアルゴリズムでは、ミニバッチ学習方法が確立されていない1ため、GPUメモリの大きさの制約を受けやすいです。 記事では、Pascal以降のNVidia GPUから機能が拡張された2Unified Memoryを使って、GPUメモリよりも大きなモデルをChainerで扱う方法を紹介し

    Unified Memoryを使ってGPUメモリよりも大きなモデルをChainerで扱う - Qiita
    sh19910711
    sh19910711 2024/06/06
    "Unified Memory: Pascal以降のNVidia GPUから機能が拡張 / GPUメモリよりも大きなモデルをChainerで扱う方法 + パフォーマンス改善につながらないので、ミニバッチの大きさを大きくする目的では使わない" 2019
  • ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

    はじめに こんにちは。ELYZA のML Engineeringチームの堀江 (@eemon18)、村山 (@zakktakk)です。 記事では、弊社が2024/03/11にリリースした下記のデモについて、どのように70Bという巨大なモデルをホスティングしているのかを解説します。 まだデモを直接触れたことがないという方はぜひ一度以下のURLからアクセスし、140GBを超えるバイナリファイルからなるモデルがどのくらい高速に動作するのかを確かめてみてください。 記事ではまず弊社推論アーキテクチャについて説明し、その後70Bを運用する際の技術選定や高速化の工夫について解説します。 推論アーキテクチャ 弊社のLLMアプリケーションのアーキテクチャは、平易に表すと以下の図のように構成されています。LLMの推論処理には時間がかかるため、アプリケーションと推論インスタンスはメッセージキューを介して非

    ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤
    sh19910711
    sh19910711 2024/05/31
    "機密性の高いデータの暗号化・復号化など推論処理以外に実装が必要な部分が多く / A100, A10Gインスタンスは特に日本リージョンで確保が難しい / 現実的に運用可能なラインとしてA10G, L4, そしてinf2インスタンスに絞り"
  • 3Dゲームファンのためのプレイステーション 3 GPU講座~「PS3のGPUは1つではない。全部で1+7個ある」

    3Dゲームファンのためのプレイステーション 3 GPU講座 ~「PS3のGPUは1つではない。全部で1+7個ある」 5月18日~20日(現地時間) 開催 会場:Los Angels Convention Center プレイステーション 3のグラフィックサブシステムには謎があった。それは (1) UMAを採用せず、CPU(CELLプロセッサ)に接続されるメインメモリをXDR DRAMを256MB、グラフィックスチップ(GPU:RSX、以下RSX-GPU)にGDDR3 SDRAMを256MB……という構成にしたこと。 (2) NVIDIA社長のJen-Hsun氏のプレゼンでRSXが、自身のビデオメモリ容量256MBを超える512MBのレンダリングが行なえるという記述があったということ。 この2点だ。

    sh19910711
    sh19910711 2024/05/28
    "David Kirk: NVIDIAの全てのGPU開発に携わる「GeForceの父」の異名を取る / SPE: 4要素の32ビット浮動小数点実数ベクトル演算に特化した128ビットSIMD型RISCプロセッサ / SLI: 複数のGPUでレンダリングを行なう技術" 2005
  • MLXと⌘R+ (Command R+)でローカルチャットbotを動かしてみた

    はじめに 96GB以上のUnified Memoryを積んだApple Siliconマシーンをお持ちの人向けのニッチな記事です。 MLXを使って、話題の⌘R+ (Command R+)を使ったローカルで動作するチャットbotをクイックに作ってみました。途中で何点かつまづいたので、困っている人に届いたら嬉しいです。 以下の記事を参考にさせてもらいました。 環境 Apple M3 MAX (128GB) 推論中のpythonプロセスのメモリ消費量は62GB程度でした。Unified Memory 64GBでスワップしながらギリ回るくらいですかね Python 3.10 (3.11, 3.12でも動作しました) 最初、Python 3.9環境で動かそうとしてコケました。エラーメッセージは以下の具合です。 ValueError: Received parameters not in model:

    MLXと⌘R+ (Command R+)でローカルチャットbotを動かしてみた
    sh19910711
    sh19910711 2024/05/27
    "mlx_lm: MLXを用いてhugging faceのLLMを動かし ~ / M3 MAX: 推論中のpythonプロセスのメモリ消費量は62GB程度 + Unified Memory 64GBでスワップしながらギリ回る"
  • mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita

    Whisperでのリアルタイム文字起こしの手法は「Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介」を参考にした。 mlxのwhisperセットアップは前回の記事を参考ください。 題 ストリーミング処理を行うには音声の無音検知が必要となるので調べたところ、faster-whisperでもVAD(Voice Activity Detector)にSilero VADを使っている。 それのJS版であるricky0123/vadで書かれているコードがあったのでmlx用に一部書き直して試してみた。 ファイル構成 import os import time from flask import Flask, request, render_template import whisper import threading UPLOAD_FOLDER = 'uploads' ALLOWED

    mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita
    sh19910711
    sh19910711 2024/05/27
    "ストリーミング処理を行うには音声の無音検知が必要 / 結構いい感じにかつシンプルなコードで作れることがわかった / mlxもv0.10.0で少し速くなった + 手元のM1 Macはメモリ8GBなのでlarge-v3を読み込むとスワップしまくり"
  • 行列の積演算で openBLAS cuBLAS を体感する - Qiita

    Basic Linear Algebra Subprograms (BLAS) の 行列の積 演算が、C の for 文で率直に書いたルーチンに比べ、どれ程のものか体感してみる。 背景 深層学習の実装を理解していくにあたり、行列の積演算を高速に行いたくなった。 BLASは 行列の積演算が速いとの話を目にするが、実際に使ってみたことはなかった。 → 今回 BLAS の性能を体感してみる。 BLAS について 下記Webサイトを参考にしています。 ・Basic Linear Algebra Subprograms(Wikipedia) ・BLASの簡単な使い方 ・CUDA Toolkit cuBLAS ・インテル(R) 数値演算ライブラリ(MKL) リファレンス・マニュアル(PDF)

    行列の積演算で openBLAS cuBLAS を体感する - Qiita
    sh19910711
    sh19910711 2024/05/22
    "深層学習の実装を理解していくにあたり、行列の積演算を高速に行いたくなった / cuBLAS: NVIDIA のグラフィックカードのGPU上で並列演算 / gefoce1050ti な 15K円位のボードでも 率直C版に比べ 500倍以上の差" 2017
  • Jax・Brax・HaikuでGPU引きこもり学習

    sh19910711
    sh19910711 2024/05/19
    "XLA: Tensorflowのバックエンドとして開発された中間言語 / Brax: 物理シミュレーターもJaxで書いてしまえば勝手にGPU上で動いて速いんじゃない?というモチベーション + OpenAI gym風のEnv API" 2021
  • Vertex AI と NeMo Framework で大規模言語モデル(LLM)のマルチノード分散学習を体験する

    はじめに 2024年4月3日に、下記の Google Cloud 公式ブログ記事が公開されました。 GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速 この記事で紹介されているチュートリアル nvidia-nemo-on-gke に従うと、Google Cloud で次の処理が体験できます。 NVIDIA H100 Tensor Core GPU を接続したノードによる Google Kubernetes Engine(GKE)のクラスターを構築する NVIDIA NeMo Framework のサンプルコードを利用して、LLM(Megatron GPT)の事前学習を実行する とはいえ・・・、「わざわざ GKE クラスターを構築するのは面倒なので、Vetrex AI のマネージドサービスだけで LLM の学習処理を体験してみたい!」という方もいるかもしれま

    Vertex AI と NeMo Framework で大規模言語モデル(LLM)のマルチノード分散学習を体験する
    sh19910711
    sh19910711 2024/05/18
    "NVIDIA NeMo Framework のサンプルコードを利用して、LLM(Megatron GPT)の事前学習 / NeMo Framework: ハイパーパラメーターの設定、PyTorch Lightning を用いたチェックポイントの生成、TensorBoard 用のログの出力などをまとめて管理"
  • コモディティ品で GPU 計算ノードを構築したときの障害の記録メモ(2.5 年目) - Qiita

    背景 2019 年コモディティ品で GPU 計算ノードを構築するメモ https://qiita.com/syoyo/items/cffcd64aa09cdb042b5d あたりで GPU 計算ノード(機械学習, レイトレ, マイニング)を構築している 2019 年からだいたい 2.5 年くらい連続稼働させていて(~10 nodes くらい), インシデントも多少たまってきたので記録です. GPU の障害 1~2 週間連続稼働させているとエラーも出やすくなります. Linux(Ubuntu) + GPU エラーメッセージ集 https://qiita.com/syoyo/items/0707daed0295db6a3ffa GPU fallen of the bus がよく出ます: 熱暴走なり, メモリエラーが原因が多い模様. 基リブートすれば治る. 機械学習などで長期間回すときは GP

    コモディティ品で GPU 計算ノードを構築したときの障害の記録メモ(2.5 年目) - Qiita
    sh19910711
    sh19910711 2024/05/11
    "1~2 週間連続稼働させているとエラーも出やすく / エラーが出ると software reboot(/sbin/reboot)できないことが多い + なにかしら物理リセットできる仕組みがあるとよい / SSD も HDD: 10 個かって 1 個が 2 年で壊れる感じ" 2021
  • huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita

    はじめに 学習スクリプトを実行しているときにGPUにメモリが乗り切らなくてCUDA out of memoryで処理が落ちてしまい、学習スクリプトを最初から実行し直すハメになることがよくあります。 特に自然言語処理とかだと、batch毎に最大系列長に合わせて短い系列をpaddingするような処理をしている場合、毎ステップで必要なGPUメモリが変化するため、バッチサイズを大きく設定していると1エポック終わるまで不安で仕方ありません。 さらにTransformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダーなので、ちょっと長い系列長のデータがあったら想定以上にメモリを消費して溢れてしまうケースとかもよくあるんじゃないでしょうか。 huggingfaceのaccelerateというライブラリ内のfind_executable_batch_sizeという機能

    huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita
    sh19910711
    sh19910711 2024/05/10
    "Transformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダー / accelerate: TPU、GPU、CPUでの実行を同じコードで記述できる / accelerate launch {スクリプト名}.pyのように実行" 2023
  • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

    地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B

    1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
    sh19910711
    sh19910711 2024/05/08
    "ディスパッチ: 単一GPUでは処理し切れないものを複数のGPUあるいはCPU、ストレージも含めて余裕あるリソースに対して処理を派遣 / 異なるGPUの組み合わせでも動かすことが出来ます"
  • RISC-VなGPGPUであるVORTEXは、CUDAでプログラミングできるって! - Vengineerの妄想(準備期間)

    はじめに Vortex という GPGPU をこのブログで紹介したのが、2020年4月24日 vengineer.hatenablog.com その後、情報がアップデートされているようなもの、記録として残しておきます。 VORTEX サイトは、ここ 論文もアップデート : A Scalable Multicore RISC-V GPGPU Accelerator for High-End FPGAs (DAC 2021) Bringing OpenCL to Commodity RISC-V CPUs Fifth Workshop on Computer Architecture Research with RISC-V (2021) Supporting CUDA for an extended RISC-V GPU architecture (プレゼン資料) Fifth Worksho

    RISC-VなGPGPUであるVORTEXは、CUDAでプログラミングできるって! - Vengineerの妄想(準備期間)
    sh19910711
    sh19910711 2024/05/07
    "CUDAから VORTEX が使えるようになっているっぽい / NVPTX-SPIR-V Translator を使って、NVPTX を SPIR-V に変更して、SPIR-V -OpenCL Translator でOpenCLに変更してから、POCL に" 2021
  • GPUの祭典・GTC2016に参加しました - Preferred Networks Research & Development

    比戸です。4月4日から開かれていた世界最大のGPUイベント、NVIDIAのGPU Technology Conference (GTC) 2016に参加しました。 GTCは今年もシリコンバレーの南端サンノゼで開催され、昨年に比べて約50%参加者が増えたそうです。日からの参加者もかなりいて、特にゲームやHPCではない業界関係者が多かった、という噂を聞きました。 今年も初日の基調講演にはNVIDIA CEOのJen-Hsun Huangが登壇したのですが、強調していたのは今後フォーカスする領域が、VR、自動車、そしてディープラーニングの3つであることでした。 昨年もGPUを用いた人工知能技術の話が中心で、TeslaのElon Muskとの対談などがありましたが、今年は方向性をより鮮明にしたことになります。グラフィックスやHPCなど既存ビジネスとのバランスを取りながら、新しい事業領域への投資

    GPUの祭典・GTC2016に参加しました - Preferred Networks Research & Development
    sh19910711
    sh19910711 2024/05/03
    "GTC: NVIDIAのGPU Technology Conference / 日本からの参加者もかなりいて、特にゲームやHPCではない業界関係者が多かった / 昨年の同イベント時には、まだChainerもTensorFlowもCNTKもありませんでした" 2016
  • Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER

    LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。 このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。 詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った学習の実装が全面的に書き直されたことが挙げられる。 以前の LightGBM は、GPU を学習に使う場合でも、その計算リソースを利用できる範囲が限られていた。 それが、今回の全面的な刷新によって、利用の範囲が拡大されたとのこと。 ただし、PyPI で配布されている Linux 向け Wheel ファイルは CUDA での学習に対応していない。 対応しているのは CPU と、GPU でも OpenCL の API を使ったもの。 そのため、もし CUDA を使った学習を利用したい場合には自分で Wheel を

    Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER
    sh19910711
    sh19910711 2024/04/30
    "CUDA を使った学習を利用したい場合には自分で Wheel をビルドする必要 / pip: --no-binary で PyPI の Wheel をインストールせず、ソースコード配布物を自身でビルド + キャッシュが効いてしまわないように --no-cache も指定" 2023
  • Flash AttentionとDeep Speedを使ってLLMをGPU1枚でフルファインチューニングする - Qiita

    TL;DR Deep Speedのoffload_optimizer機能を使って、VRAM40GBのGPU1枚で3.6BパラメータのLLMをファインチューニングしました。 さらに、Flash Attentionを使うことで、学習を高速化しつつ使用メモリ量も減らし、より長い系列長で学習を行うことができました。 はじめに Flash AttentionはAttentionの計算で使用するGPUメモリ量を系列長の2乗のオーダーから1乗に削減する技術で、xformersやoptimum、さらにはtransformersライブラリでも簡単に使用できるようになってきています。 前回の記事(1, 2)では、LLMの推論においてFlash Attentionを使ってみたのですが、推論ではあまり効果が見られないという結論を得ました。 今回はFlash Attentionが領を発揮するであろう学習(ファイン

    Flash AttentionとDeep Speedを使ってLLMをGPU1枚でフルファインチューニングする - Qiita
    sh19910711
    sh19910711 2024/04/28
    "Flash Attention: 推論ではあまり効果が見られない / GPU1枚で学習を行うためにDeep SpeedのZeRO-2を使用 / 系列長を長くして1ステップ当たりに含まれるトークン数を増やすと、学習が効率化されて高速化される傾向" 2023
  • TH3P4G3(85W版)とTeslaP40をUbuntu22.04でセットアップした【外付けGPU】

    sh19910711
    sh19910711 2024/04/27
    "ローカルLLM: 量子化したモデルでも賢いのを使おうとすると平気で何十ギガも食ってくる / Tesla P40: VRAM24GB + ebayやアリエクでは 2〜3マソで買える(中古) / 多分、データセンターの世代交代による引退品が大量に流れ"
  • 【ローカルLLM】大規模言語モデルAIのあまりの遅さについカッとなってノートPCにGPUを追加する

    ChatGPT」が世界を席巻するなか、大規模言語モデル(LLM)について相談を受けるようになりました。企業のAI利用ニーズとしてよくある「独自データにより追加学習させたい」という話しをしていると、手元でも試してみたい衝動にかられ、「ファインチューニング」と呼ばれる追加で学習する手法を手元で動かしてみました。 今回、Pythonなどのプログラムを1行たりとも書いていませんので(笑)、「大規模言語モデル(LLM)に興味はあるけどプログラミングはよくわからない」「ごく普通のパソコンしか持ってない」という人の参考になるかと思い、作業メモを書き残します。 いろいろと迷走しますが、最終的に追加投入した費用は「10万円」です。 LLMやファインチューニングなどを試したいが、コードは書きたくない諸兄へ LLMというと多くの解説記事は「Google Colab」などのクラウドサービスを利用して、Pytho

    【ローカルLLM】大規模言語モデルAIのあまりの遅さについカッとなってノートPCにGPUを追加する
    sh19910711
    sh19910711 2024/04/27
    "ノートパソコンにeGPU Box・外付けGPUをThunderbolt接続 + そこそこの速さでローカルLLMやLoRA ファインチューニングを試す / 追加投入した費用は10万円 / Intel UHD Graphics620: 3BだとLoadに失敗するケース多数" 2023