並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 1137件

新着順 人気順

LLMの検索結果121 - 160 件 / 1137件

  • Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も

    Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.05719 Apple teaching an AI system to use apps; maybe for advanced Siri https://9to5mac.com/2024/04/09/ferret-ui-advanced-siri/ ChatGPTのようなチャットボットAIシステムのベースとなっている大規模言語モデル(LLM)は、主にウェブサイトから収

      Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も
    • 【LLMの研究者向け】400本を超えるLLMに関する論文のリストを公開・更新しています - Qiita

      自身の研究のためにLLMに関する論文を表形式でまとめています。 このレポジトリでは特にさまざまな分野の論文を表にする(Comprehensive)ことを目的としています。具体的には以下のキーワードに注目しています。 CoT / VLM / Quantization / Grounding / Text2IMG&VID / Prompt / Reasoning / Robot / Agent / Planning / RL / Feedback / InContextLearning / InstructionTuning / PEFT / RLHF / RAG / Embodied / VQA / Hallucination / Diffusion / Scaling / ContextWindow / WorldModel / Memory / ZeroShot / RoPE / Spe

        【LLMの研究者向け】400本を超えるLLMに関する論文のリストを公開・更新しています - Qiita
      • LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ

        先日福島から大規模言語モデルに触れた記事が出ました。 comemo.nikkei.com この記事の前後から様々な取り組みを続けてきたのですが、この度より会社として本気で大規模言語モデルに取り組もうということでLayerX LLM Labsの立ち上げを決定しました。私も最近多くの時間をLLMに充てています。小規模なチームになりますが、一緒に挑戦いただけるエンジニアやPMの方も募集中です。 prtimes.jp 本記事ではそのLLM Labsの立ち上げ背景について触れていきたいと考えています。 大規模言語モデルという新しいインターフェイス ChatGPTブーム以降急激に認知が広がった大規模言語モデルですが、直近ではこの機械学習モデルを取り込んだサービスも増えつつあります。膨大なテキストデータを学習することで、与えられた文に続く自然な文を予測するというシンプルな仕組みですが、そこからは考えられ

          LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ
        • ChatGPTなどLLMの弱点“ハルシネーション” 「GPTは要素技術だ。商用という意味では遠い」

          ChatGPTのビジネス利用はブームだが、これをビジネスで活用しようとした場合、さまざまな課題がある。AIを活用したチャットボット開発などで知られ、ChatGPTのようなLLMの活用も進めているPKSHA Technologyが、商用利用のポイントについて語った。 PKSHA Technologyでエンジニアリングマネジャーを務める中島真也氏(左)とPKSHA Workplaceでプロダクトマネージャー/プロダクトデザイナーを務める花塚匠氏 「GPTは要素技術だ。そのままでは商用という意味では遠い。検討すべき課題がある」。こう話すのはPKSHA Workplaceでプロダクトマネージャー/プロダクトデザイナーを務める花塚匠氏だ。 課題としては、精度、コスト、レスポンス速度、セキュリティなどが挙げられる。例えば、現在商用利用でほぼ唯一の選択肢となるOpenAIのGPT系APIは、上位のモデル

            ChatGPTなどLLMの弱点“ハルシネーション” 「GPTは要素技術だ。商用という意味では遠い」
          • ELYZA LLM for JP (デモ版)

            「ELYZA LLM for JP」はELYZAが開発する日本語の大規模言語モデル(LLM)シリーズの総称です。今回のデモは2024年3月時点で最高性能のモデル「ELYZA-japanese-Llama-2-70b」を基盤としたもので、日本語による対話・タスクの実行においてグローバルプレイヤーが提供する海外製LLMに匹敵する性能を実現しています。ELYZAでは本モデルシリーズを、グローバルモデル以外の新たな選択肢として、主にセキュリティやカスタマイズ性を重視する企業、自社サービスや事業にLLMを組み込みたい企業に向けて、安全なAPIサービスや共同開発プロジェクトなど様々な形態で提供してまいります。

              ELYZA LLM for JP (デモ版)
            • ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

              はじめに こんにちは。ELYZAの研究開発チームの佐々木 (@hikomimo)、中村 (@tyo_yo_)、堀江 (@eemon18)、平川 (@h__must__) です。 先日弊社株式会社ELYZAでは以下のようなリリースをさせていただきました。 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 上記のリリースには、Metaの「Llama 2」をベースとした以下のモデルが含まれます。 日本語追加事前学習済みモデル ELYZA-japanese-Llama-2-7b ELYZA-japanese-Llama-2-7b-fast 上記の事前学習済みモデルに事後学習 (instruction tuning) を実施したモデル ELYZA-japanese-Llama-2-7b-instruct (デモ)

                ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編
              • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

                国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

                  NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
                • LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox

                  これは2018年発売の私の本「エンジニアの知的生産術」の序文と目次です。LLM技術が発展して文章の理解や生成が機械によって強力に加速している2024年現代の視点で見返してコメントしてください。

                    LLMを使いこなすエンジニアの知的生産術(講演資料) - 西尾泰和のScrapbox
                  • 初学者に贈る、プロンプトエンジニアリング入門 LLMを“効率的”に使うためのテクニック

                    「ChatGPT Meetup」は、プロンプティングからOpenAI API、さらには周辺のライブラリやHubのエコシステムまで広く活用の助けになる知見を共有し、みんなで手を動かして楽しむためのコミュニティです。2回目に登壇したのは、JBアドバンスト・テクノロジー株式会社の新居田晃史氏。プロンプトエンジニアリングの実践について発表しました。 登壇者の自己紹介 新居田晃史氏:みなさんこんばんは。トップバッターということですが、僕はあまりMLに明るくない人なので、今から「ChatGPT」をいったん触ってみて、「この後何をしていったらいいんだろう?」みたいな、本当に初心者の人に向けてプロンプトエンジニアリングの話をしようかなと思います。よろしくお願いします。 (会場拍手) ちょっと自己紹介です。JBアドバンスト・テクノロジーという会社の先進技術研究所に所属しています。人よりちょっと走るのが速いで

                      初学者に贈る、プロンプトエンジニアリング入門 LLMを“効率的”に使うためのテクニック 
                    • 小さなゲーム作りでLLMができること、できないこと - ABAの日誌

                      前にChatGPTなどのLLM(大規模言語モデル)を使って小さなゲームを作るのはまだ難しいのでは、という記事を書いた。 ChatGPT を用いたゲーム考案の方法はいくつか考えられるが、ChatGPT に新しいゲームを考えさせ、それを実装させることは難しい。少なくとも現状の ChatGPT には、以下の課題があるように思える。 ChatGPT に、実装可能なアルゴリズムのレベルまで詳細化された、新しいゲームのアイデアを考えさせるのは難しい。 ChatGPT は、今までにない新しいアルゴリズムを、ソースコードとして実装することを不得意としている。 GPT-〇〇 になればこの辺の問題は解決される? 分からない。 画像生成 AI の急激な改善を見ていると、半年後にはこの辺の問題は解決するのかもしれない。モデルの規模で乗り越えられる課題なのか、そもそもアプローチとして筋悪なのか、どちらかは現時点では

                        小さなゲーム作りでLLMができること、できないこと - ABAの日誌
                      • 大手企業がこぞって進める生成AIの全社導入 日本企業におけるChatGPTとLLMの活用事例

                        海外版のピザ屋のデモ 森正弥氏:海外版のピザ屋のデモを流せればと思います。英語がちょっと流れますが、こんな感じです。 ピザ屋に店員のAIアバターがいて、お客さんが来て……お客さんがだいぶぶっきらぼうですけど(笑)、答えていくのをハンドリングして、最後はペイメントまでやるという感じでした。シナリオは一定はありますが、これは裏がLLMで、ここではNVIDIAのNeMoを使って会話をやっているので、シナリオじゃないアクションにももちろん普通に対応できます。 例えばいきなり「アジャイルって知っている?」と聞いたらきちんと答えてくれます。NeMoは英語とスペイン語がすごく得意なので、このデモは英語のデモになっていますが、日本語でも動きます。 あと、単にこれは単なるマイクロサービスのマッシュアップなので、23個ぐらいのマイクロサービスが立ち上がっていて、そんなに立ち上げるのかと思いながらやっています。

                          大手企業がこぞって進める生成AIの全社導入 日本企業におけるChatGPTとLLMの活用事例
                        • 大規模言語モデル(LLM)に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                          OpenAIのChatGPT、MicrosoftのBing、GoogleのBardなど、言語系のAIサービスが急速に普及し始めました。1ちなみに記事冒頭のアイキャッチ画像は, 会社のロゴ風画像で「GPT」という文字をなんとか表示させようと画像生成AIで1時間悪戦苦闘したが結局、意味不明の文字列しか出てこなかったロゴ」です これらのサービスは、いずれも大規模言語モデル(Large Language Models; LLMs)をベースにしているという共通点があり、社会や産業に極めて大きなインパクトを与えると予想されています。 そこで、このような大規模言語モデル(LLM)に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約について、何回かに分けてまとめてみようと思います。 今回は、まずは総論部分として「大規模言語モデル(LLM)に関連するビジネス3つの領域」と「それぞれの領域におい

                            大規模言語モデル(LLM)に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                          • 「生成AIのハイプ・サイクル」2023年版をガートナーが公開 LLMやプロンプトエンジニアリングは「過度な期待のピーク」に

                            ガートナージャパンは10月12日、「生成AIのハイプ・サイクル」2023年版を公開した。大規模言語モデル(LLM)やプロンプトエンジニアリングといった技術は「過度な期待のピーク」にあると指摘。一方でオープンソースのLLMやマルチモーダル(画像や言語など複数の入力ソースを扱える)な生成AIなどは黎明期にあるとした。 中でも「生成AIに対応したアプリケーション」や、大量のデータでトレーニングし、さまざまなタスクに適応可能な「ファウンデーション・モデル」(基盤モデル)、AIの信頼性を高めリスクに対応する取り組み「AI TRiSM」については「10年以内に組織に大きなインパクトを及ぼすと予測される」(同社)とコメント。 ファウンデーション・モデルとAI TRiSMについては普及のめども示した。前者は「2027年までに、ファウンデーション・モデルは自然言語処理 (NLP)のユースケースの60%を支え

                              「生成AIのハイプ・サイクル」2023年版をガートナーが公開 LLMやプロンプトエンジニアリングは「過度な期待のピーク」に
                            • “和製GPT”競争勃発か サイバーエージェント、独自の日本語LLM発表 「活用を始めている」

                              サイバーエージェント(東京都渋谷区)は5月11日、独自の日本語LLM(Large Language Model、大規模言語モデル)を発表した。すでに130億パラメータまで開発が完了し、広告の制作などに活用を始めているという。 サイバーエージェントは「既存のLLMのほとんどは英語を中心に学習されており、現状では日本語および日本文化に強いLLMは少ない状況」と指摘。日本語に特化したLLMで「従来よりも自然な日本語の文章生成が可能になる」としている。 さらに「国内最大級のLLM開発」を目指し、米NVIDIAのAI開発に特化したスーパーコンピュータ「DGX H100」を国内で初めて導入したことも明らかにした。社内のAI研究開発組織「AI Lab」とプロダクト開発チームが研究開発を進め、今後は産学連携などの取り組みを通して「国内における事前言語処理技術の発展に貢献していく」としている。 大規模言語モ

                                “和製GPT”競争勃発か サイバーエージェント、独自の日本語LLM発表 「活用を始めている」
                              • LLMを利用したRAG(Retrieval Augmented Generation)と著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                                1 はじめに 近時、LLMを利用し、社内外の文書データを用いた精度の高いチャットボットを構築するために、RAG(Retrieval Augmented Generation)という手法が注目されています。 LLMをそのまま利用してチャットボットの構築を行うと、通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができないか、あるいは正しくない回答を返してしまいます。 この問題を解決する手法として注目されているのがRAGです。 この手法は、あらかじめ社内外の文書データをデータベース(DB)として準備しておき、ユーザからの質問がなされた場合には、当該質問と関連性が高い文書データを検索し、その文章データを質問文に付加してLLMに入力することで、精度が高い、かつ実際の文書データに紐付いた回答を生成することができるというものです。 ここで、プロンプトに入力するためにDBとして

                                  LLMを利用したRAG(Retrieval Augmented Generation)と著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                                • ジャンクノートパソコンにPythonと日本語LLMのRinnaを入れてメモリ16GBとSwapフルでローカル質問してみた。メモリ足りなくてもSwap積めばなんとかなる。ローカルLLM最高

                                  GPUがなくてもRinnaいけました。メモリさえ合計32GBあればなんとかなります。ZramやZwapつかって圧縮しても良いです。日本語ローカルLLMはやっぱりいいですね。高性能ハイエンドPCは動かすだけならいらないです。初心者向けの解説を入れました。

                                    ジャンクノートパソコンにPythonと日本語LLMのRinnaを入れてメモリ16GBとSwapフルでローカル質問してみた。メモリ足りなくてもSwap積めばなんとかなる。ローカルLLM最高
                                  • Googleが公開したローカルLLMのgemma.cppをLinuxとAndroidのTermuxで動かしてみた。とりあえず2bだけど日本語で返事が帰ってくる程度に賢い。llama.cppでGGUF版があるけどこちらもチャット形式で良い。NetBSD上でもビルドし動作しました

                                    Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 Googleが公開したローカルLLMのgemma.cppを参考サイトを見ながら動かしてみた。先駆者に感謝 とりあえず2bだけど日本語で返事が帰ってくる程度に賢い。llama.cppでGGUF版があるけどこちらもチャット形式で良い note.com/ngc_shj/n/n3f5… pic.twitter.com/8bfoGYRrnF 2024-02-26 22:28:22

                                      Googleが公開したローカルLLMのgemma.cppをLinuxとAndroidのTermuxで動かしてみた。とりあえず2bだけど日本語で返事が帰ってくる程度に賢い。llama.cppでGGUF版があるけどこちらもチャット形式で良い。NetBSD上でもビルドし動作しました
                                    • 日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development

                                      大規模言語モデル (LLM) は日進月歩で進化しており、日本語の理解能力についても多くの言語モデルがしのぎを削っています。先日PFNからも、日英2言語を併せた能力で世界トップレベルの性能を示す言語モデルPLaMo-13Bを公開*しました。 一方で、LLMを実際のタスクに適用する場合には、事前学習モデルやファインチューニングによる改善もさることながら、プロンプトの違いが性能を大きく左右します。本稿ではプロンプトを自動的にチューニングすることによって、LLMの能力を最大限に引き出し、与えられた課題の精度をどこまで高められるのかを検証します。 * 本稿で解説するプロンプトチューニング技術は、PLaMo-13B公開時の性能評価には用いていません。 プロンプトエンジニアリングについて LLMを使ったチャットシステムでは、ユーザーからの問い合わせ内容を改変してLLMに入力することがあります。例えば、図

                                        日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development
                                      • 大規模言語モデル(LLM)に関するビジネスと法律~LLMやデータセットの構築と提供(レイヤー1)~|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                                        第1 はじめに 前回の記事で大規模言語モデル(LLM)に関するビジネスは3つのレイヤーに分けると理解しやすいというお話をしました。 このうち、レイヤー1は「大規模データセットや大規模言語モデルを自ら開発して公開・提供するレイヤー」です。 このレイヤーに関する最近の話題としては、自民党が公表したホワイトペーパー(案)や、OpenAIのサム・アルトマンCEO来日+日本への7つの提言などがありますね。 【関連リンク】 ▼ 自民党AIの進化と実装に関するプロジェクトチーム ▼ 来日したOpenAIのアルトマンCEO、日本へ7つの提案–自民党の塩崎議員が明かす 今回の記事は、このレイヤー1に取り組む際の法的な留意点について解説をしたいと思います。 レイヤー1に関する論点の全体構造は以下のとおりですが、全部を解説するとボリュームが大きくなりすぎるため、とりあえず最も良く問題となる①に絞ります。 ① デ

                                          大規模言語モデル(LLM)に関するビジネスと法律~LLMやデータセットの構築と提供(レイヤー1)~|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                                        • 文系非エンジニアがChatGPT / LLMを数式なしで解説してみる|Yuichiro.ito@Finatext(フィナテキスト)

                                          先日、社内でChatGPT / LLMを活用した実証実験をしていたら、一部感動するほど結果が出たことで、今更ながら俄然興味を持ってしまいました。 これからビジネスユースケースを考えていくうえで、「本質的にどういうものなのか」を理解しておくことがとても大切だと思い、改めてChatGPT / LLMの基本的な仕組みを整理してみました。 私みたいな文系で行列や統計はわからないけど、もう少し根本的なところを理解しておきたい!という方に是非です。 それでは、GPTをはじめとするLLM(大規模言語モデル)がどのような背景から生まれてきたのかを振り返りながら、LLMの特徴を理解していきましょう!(最後に参照したおススメの動画・記事を貼っていますので、それだけでも是非ご覧ください。) 1. ベースは、ディープラーニングを用いた自然言語処理モデル2015年頃、日本でも"AI"がバズワードになり、ディープラー

                                            文系非エンジニアがChatGPT / LLMを数式なしで解説してみる|Yuichiro.ito@Finatext(フィナテキスト)
                                          • イーロン・マスク氏のxAI、LLM「Grok-1」をオープンに

                                            イーロン・マスク氏が昨年7月に立ち上げたAI企業xAIは3月17日(日曜日)、同社のLLM「Grok-1」の基本モデルの重みとアーキテクチャをリリースすると発表した。GitHubで、Apache 2ライセンスで配布されている。 Grok-1は、同社が昨年11月に発表したチャットbot「Grok」のベースとなるLLM。マスク氏がオーナーである米Xの「Xプレミアムプラス」のユーザーは、Grokと会話できている。 xAIは「3140億パラメータのMixture-of-Experts(MoE)」モデルと説明しているが、トレーニングデータについては「特定のタスク用に微調整されていない大量のテキストデータ」としか開示していない。ちなみに、Grok-1と競合する米OpenAIの「GPT-3」のパラメータ数は約1750億で、「GPT-4」については公表されていない。 マスク氏は2月、OpenAIを“契約違

                                              イーロン・マスク氏のxAI、LLM「Grok-1」をオープンに
                                            • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

                                              地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B

                                                1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
                                              • LLMを効率的に再学習する手法(PEFT)を解説 - Platinum Data Blog by BrainPad

                                                本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。今回は、効率的にLLMのような事前学習済みモデルを再学習する手法(PEFT)についてご紹介します。 問題意識 ビジネスで利用する際に乗り越えるべき壁 PEFTとは何か? PEFTのコンセプト分類 トークン追加型 Prefix Tuning P Tuning Prompt Tuning Adapter型 Adapter LoRA型 LoRA Ada LoRA まとめ 参考文献 こんにちは、アナリティクスサービス部の辻です。 今回は、LLMを効率的に再学習する手法として今後

                                                  LLMを効率的に再学習する手法(PEFT)を解説 - Platinum Data Blog by BrainPad
                                                • 最近の7B小型日本語LLMはエージェントになれるのか?

                                                  あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた

                                                    最近の7B小型日本語LLMはエージェントになれるのか?
                                                  • Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life

                                                    なお、評価に使ったコードはこちらの eval_xxx というコードである。 https://github.com/hotchpotch/youri-7b-stf-qa-context-jaqket/ Supervised Fine-tuning Trainer(SFT) を使った学習 STFは手軽な方法で指示に対して特定フォーマットの出力(Instruction Tuning)を学習させることができる方法である。学習のさせ方も簡単で、例えば ### 指示: 今日の天気は何ですか? ### 入力: 本日は大雨ですね。 ### 応答: 大雨 のような例文を用意する。例では「### 応答:」以降がうまく出力されるように学習して欲しいデータである。この時、例文と「### 応答:」だけ与えれば、よしなに学習してくれる。実際の学習時には、「応答:」以降を推論し、望ましい回答である「大雪」のtokenの

                                                      Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life
                                                    • 【書籍出版記念】LangChainから学ぶLLMを使ったアプリケーションの工夫

                                                      書籍はこちら:https://www.amazon.co.jp/dp/4297138395 === ■なぜLangChain? ChatGPTのAPIが公開されたころから、多くの組織が大規模言語モデル(LLM)を使ったアプリケーション開発に取り組むようになりました。 LLMを使ったアプリケーション開発で、最も注目されているフレームワークが「LangChain」です。 LangChainはLLMを使ったアプリケーション開発の幅広い分野を扱っており、論文などで発表された新しい手法も次々実装しています。 そのため、LangChainを学ぶことは、LLMを使ったアプリケーション開発の様々な工夫を学ぶことになるのです。 ■この勉強会のテーマ この勉強会では、LangChainからLLMを使ったアプリケーションの工夫の例を学んでいきます。 とくにRAG (Retrieval Augmented Gen

                                                        【書籍出版記念】LangChainから学ぶLLMを使ったアプリケーションの工夫
                                                      • Stability AI Japanが公開した30億パラメーターの日本語向けLLMを動かしてみた【生成AIストリーム】

                                                          Stability AI Japanが公開した30億パラメーターの日本語向けLLMを動かしてみた【生成AIストリーム】
                                                        • 日本語LLM祭りで課金するどころか、めちゃ勉強になってしまった話|しらいはかせ(Hacker作家)

                                                          「風が吹けば桶屋が儲かる」と申しますが、 日本語LLM祭りが起きると{Google/AWS/NVIDIA}が儲かるのでございます。 Llama_indexを触っていたとき、僕はこんなことを言っていました。 llama_indexおもしろい これは寝れなくなるし OpenAIじゃなくても動くの素敵 誰か日本語おすすめのLLM教えて https://t.co/Xme7iRIe5v — Dr.(Shirai)Hakase #AI神絵師本 #技術書典14 (@o_ob) May 14, 2023 llama_indexおもしろい これは寝れなくなるし OpenAIじゃなくても動くの素敵 誰か日本語おすすめのLLM教えて しらいはかせ 2023/5/14の発言実はLlama_indexには最近、OpenAI以外のLLMも渡せるようになったのです。ほかのLLM、特にAPI費のかからないオープンソース型

                                                            日本語LLM祭りで課金するどころか、めちゃ勉強になってしまった話|しらいはかせ(Hacker作家)
                                                          • GitHub - nat/openplayground: An LLM playground you can run on your laptop

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - nat/openplayground: An LLM playground you can run on your laptop
                                                            • 【Youri 7B】日本最高峰の精度を叩き出す!学習量2兆トークン超えの最強日本語LLM | WEEL

                                                              【Youri 7B】日本最高峰の精度を叩き出す!学習量2兆トークン超えの最強日本語LLM 2023 11/09 Youri 7Bは、2023年10月31日に日本のrinna社が公開した最新の日本語LLMです。 このモデルは、Llama2 7Bをベースに開発され、目的や環境に合わせて複数のモデルが用意されており、より多くのAI研究に活用されることを目的としています。 また、量子化された軽量モデルもあるので、一般の方でも気軽に試すことができます! 今回は、Youri 7Bの概要や使ってみた感想をお伝えします。 是非最後までご覧ください! なお弊社では、生成AIの開発について1時間無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる Youri 7Bの概要 Youri 7Bは、2023年10月31日に日本のrinna社が公開した最新の日本語LLMで、Meta社の

                                                                【Youri 7B】日本最高峰の精度を叩き出す!学習量2兆トークン超えの最強日本語LLM | WEEL
                                                              • LLM開発のためにMLOpsチームがやるべきこと | フューチャー技術ブログ

                                                                はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野・平野です。 今回は「LLM開発のためにMLOpsチームがやるべきこと」というテーマで、従来のMLOpsとの違い・ツール・構成例等について調査・整理しました。 LLMとはLarge Launguage Model(大規模言語モデル)の略であり、ここでのLLM開発とは、「LLM自体の開発」および「LLMを活用したシステム開発」の両方を含むものとします。LLM開発のフローについては以前にLLM開発のフローで詳細を説明しているので、ぜひ併せてご覧ください。 まず、MLOpsとは「機械学習モデルの実装から運用までを円滑に推進するための手法や考え方」のことです。AIの社会実装が増えるに伴い、MLOpsチームを設ける企業も増えてきました。また、最近ではLLMやその関連技術が急速に発達してきており、今後LLMを用いたアプリケーション

                                                                  LLM開発のためにMLOpsチームがやるべきこと | フューチャー技術ブログ
                                                                • 【西川和久の不定期コラム】 LLMがローカルで動くパラメータ数どこまで?Metaの「Llama 2」を試してみた

                                                                    【西川和久の不定期コラム】 LLMがローカルで動くパラメータ数どこまで?Metaの「Llama 2」を試してみた
                                                                  • 大規模言語モデルを使って自動車走行時の状況説明をさせてみる? -社内LLMハッカソン記-

                                                                    Turing株式会社の自動運転MLチームでエンジニアをしている岩政です。 Turingの自動運転MLチームでは、完全自動運転の開発に向けて、走行データから自動走行が可能な深層学習モデルの作成およびデータ基盤の整備、視覚情報以外にも言語を活用したマルチモーダルな基盤モデルの作成に取り組んでいます。 本記事では、視覚情報を認識するモデルと大規模言語モデルを組み合わせて、「自動車走行時の特に危険な状況を説明することができないか?」という観点から、社内ハッカソンで取り組んだことを紹介します。 社内LLMハッカソン 事の発端は、4月のある1日に急遽開催された大規模言語モデル(以下LLM)を活用した社内ハッカソンでした。高度な自動運転の実現において、一般的な社会常識のもと複雑な状況を理解して適切に行動するための「知能」は必要不可欠です。現在、Turingでは、LLMはその知能として高いポテンシャルがあ

                                                                      大規模言語モデルを使って自動車走行時の状況説明をさせてみる? -社内LLMハッカソン記-
                                                                    • GPT-4を上回るオープンなLLM誕生? 中国研究者らが「Xwin-LM」公開

                                                                      米OpenAIの生成AI「GPT-4」を上回る性能をうたうAI「Xwin-LM」が、AIモデル共有サイト「Hugging Face」に公開されている。言語モデルのベンチマークサイト「AlpacaEval」でGPT-4を追い抜き1位を獲得したとしている。 開発者名は明記されていないが、GitHub上の履歴を参照すると中国科学院や清華大学の博士課程の研究者らが開発したようだ。 Xwin-LMは米Metaが公開したAI「Llama2」をベースにしており、教師ありファインチューニング、報酬モデル、リジェクトサンプリング、強化学習などを使って調整したものという。パラメータ数はLlama2と同じく70億、130億、700億の3つのモデルを用意。中でも最大である700億の「Xwin-LM-70B-V0.1」は、AlpacaEvalの評価基準である「Text-Davinci-003」(GPT-3のモデルの

                                                                        GPT-4を上回るオープンなLLM誕生? 中国研究者らが「Xwin-LM」公開
                                                                      • 科学論文の査読にLLMが使われている?誤字修正目的の範囲を超えての使用も スタンフォード大など調査【研究紹介】

                                                                        研究者らはLLMが使用されているかを調査するために、AIによって生成または修正されたコンテンツを効率的に調査するための新たなフレームワークを開発した。個々のテキストがAIによるものか人間によるものかを判定する従来のAIテキスト検出手法とは異なり、このフレームワークでは、テキスト全体(コーパス)の中でAIによるものがどのくらいの割合を占めているかを推定することに焦点を当てている。 具体的には、人間の専門家が書いた査読(以下、人間レビュー)とLLM(ここではGPT-4を使用)が生成した査読(以下、AIレビュー)を参照データとして使い、それらのデータから推定された単語の出現分布を比較することで、実際の査読コーパスにおけるLLMの使用割合を推定する。 ▲提案フレームワークの概要 実験では、2018年から2024年までのICLR、NeurIPS、EMNLP、CoRLなどのAI関連のトップカンファレン

                                                                          科学論文の査読にLLMが使われている?誤字修正目的の範囲を超えての使用も スタンフォード大など調査【研究紹介】
                                                                        • 次に訪れる新たな前提 〜「世界中のシステムが繋がっていて当たり前」の未来〜|中村 龍矢 | LayerX 事業部執行役員 AI・LLM事業部長

                                                                          LayerX 執行役員の中村龍矢です。ブロックチェーン技術の研究開発をして、論文執筆やOSS開発をしたり、そこで得られた技術や知見を案件に応用していく、ということをやっています。本業以外では、今年度のIPA 未踏IT人材発掘・育成事業に採択していただき、ブロックチェーンのスケーリング技術に関するプロジェクトを進めています。 今回は、僕がLayerXや未踏での研究開発を通して実現したいことについて書こうと思います。といっても、技術的に細かいことを説明するというより、こんな未来が実現したらいいな、という直感的なイメージを伝えられたら嬉しいです。 今日のデジタル私たちは毎日、色々なIT技術を使っています。最近ではデジタル化やDXというワードが広がってきて、電子契約やクラウド会計、モバイルバンキングなど、生活は日々便利になっています。 それでもまだ、直感に反する不便なことはたくさんあります。例えば

                                                                            次に訪れる新たな前提 〜「世界中のシステムが繋がっていて当たり前」の未来〜|中村 龍矢 | LayerX 事業部執行役員 AI・LLM事業部長
                                                                          • Swallow – TokyoTech-LLM

                                                                            Swallow Llama 2の日本語能力を強化した大規模言語モデル (7B, 13B, 70B) です。モデルのパラメータ(重み)が公開されていますので、LLAMA 2 Community Licenseに従う限り、研究や商業利用など自由に利用できます。 View on HuggingFace 大規模言語モデルSwallowは東京工業大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームで開発された大規模言語モデルです。英語の言語理解や対話で高い能力を持つ大規模言語モデルLlama 2 7B, 13B, 70Bの日本語能力を拡張するため、研究チームは言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行いました。研究チームで実施した性能評価では、2023年12月現在オープンな

                                                                              Swallow – TokyoTech-LLM
                                                                            • 四畳半のオフィスで70億パラメータのLLMを事前学習した話|Lightblue

                                                                              はじめにこんにちは、Lightblueの樋口です。 大規模言語モデル(LLM)は大変注目を集めていますが、日本語で事前学習された公開モデルは限定的です。LLMの事前学習は大きなコストがかかるとされており、公開されているモデルは海外のビッグテックが中心で、国内では2件しか例がありません。 ■サイバーエージェント OpenCALM GPT (small, medium, large, 1.4b, 2.7b, 6.8b) 日本語 Wikipedia + Jpanese mC4+ Japanese CC-100 ■rinna rinna GPT GPT (xsmall, small, medium, 1b, neox-small, neox-3.6b) 日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルではさらに Japanese mC4 を追加) その他、日本語

                                                                                四畳半のオフィスで70億パラメータのLLMを事前学習した話|Lightblue
                                                                              • GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs

                                                                                [ English | Français | 日本語 ] 日本語LLM・英語LLMのパラメータ数の推移。日本語モデルの情報は本記事、英語モデルの情報は LifeArchitect.ai の Models table を参照しています(ただし、図のスペース上一部のモデルは省略。また、英語モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。 この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。 ⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします: 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提

                                                                                  GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs
                                                                                • 大規模言語モデル(LLM)の作り方 GPT-NeoX編 Part 1

                                                                                  はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 の藤井(@okoge_kaz)です。 大規模モデルへの注目の高さを肌で感じる今日このごろですが、事前学習の知見については依然として十分に共有されているとは言い難いと個人的に感じています。 Turing株式会社では、次世代の自動運転技術を支える技術の1つとして大規模言語モデルに注目しており、独自に研究開発を行っています。今回は大規模言語モデルを学習する際、用いるライブラリ候補の1つに上がるであろうGPT-NeoXについて解説します。 以下で環境構築方法、学習を行う方法などについて詳しく解説します。 GPT-NeoXとは EleutherAIが管理しているNIDIA/Megatron-LM ベースの大規模言語モデル(Large Language Model: LLM)を学習するためのライブラリです。 Mi

                                                                                    大規模言語モデル(LLM)の作り方 GPT-NeoX編 Part 1