並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 3 件 / 3件

新着順 人気順

tuningの検索結果1 - 3 件 / 3件

  • 【特集】 100%の性能、本当に必要?CPU/GPUに電力リミットを設定してみよう!

      【特集】 100%の性能、本当に必要?CPU/GPUに電力リミットを設定してみよう!
    • ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ

      大規模言語モデル(LLM)において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。 プロンプトに入力する文字数(Token数)と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

        ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ
      • F# developer stories: how we've finally fixed a 9-year-old performance issue - .NET Blog

        Programming language authors have to think about many things at once: overall language design, runtime dangers, possible feature misuse, backward compatibility, forward compatibility, and so on. All these aspects, together with communication hiccups and time constraints, might get in the way of some seemingly clear and manageable problems. The Bug The story began in the summer of 2015 with this is

          F# developer stories: how we've finally fixed a 9-year-old performance issue - .NET Blog
        1