stealthinuのブックマーク - はてなブックマーク

Deep Paint v1.0 - GAKU氏によるGrease Pencilを活用した3Dイラスト・立体絵画制作支援ツールセットBlenderアドオンが遂にリリース！

Blender アドオンプラグイン＆アドオン-Plugin&Addon Easy Shaders - 汚れや劣化表現などを手軽にパラメータ制御可能な15... 2024-05-18 Weybec Studioによる汚れや劣化表現などを手軽にパラメータ制御可能な15のシェーダーが付属したBlenderアドオン『Easy Shaders』がリリースされました！続きを読む Unreal Engine アセットアセット-Asset Korea Dance Challenge Mocap Pack 5 - Tik... 2024-05-16 数多くのモーションアセットパックを販売している韓国のACHID EMOTE STOREによるTikTokなどのショート動画界隈で有名な動きをプロのダンサーによりキャプチャした19個のダンスモーションパック『Korea Dance Challenge Moc

stealthinu 2024/05/15

水彩画を書くみたいにして3Dモデルを作れるツール。立体を認識する部分でdeeplearningが使われているのかな？

リンク

Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説

No one is an island. Learnings from fostering a developers community.

stealthinu 2024/05/14

Embeddingモデルがどうなってるか、主に学習データと学習方法からの説明。

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

stealthinu 2024/05/14

『「GPT-4o」では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドで学習しました』やっぱこれがキモだよな。

リンク

OpenAI、次世代AIモデル「GPT-4o」を発表

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

stealthinu 2024/05/14

「gpt2」はGPT-4oだったとのこと。従来のGPT-4と比べて表現力とか理解力がすごく上がってる感じがしたのは従来モデルでも追加学習でよくなった分ということなのか…　日本語出力速度も上がってる

リンク

【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ｜ChatGPT研究所

5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。注目すべきは、最新モデル「GPT-4o」の登場無料ユーザーへの解放の二つです。これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます！新しく発表されたGPT-4oとは？5月14日のイベントで発表された最新モデル「GPT-4o」（oはomniの略：【omniは「全ての」を意味する】）は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。主な特徴マルチモーダル対応：テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。高速応

stealthinu 2024/05/14

GPT-4.5ではないんだ、と思ったが、音声会話系のアップデートがすごい…　めちゃくちゃ自然に会話出来るようになってる。今度は全二重だし歌も歌える。感情表現も豊か。

リンク

Command R+はどこまで量子化するとアホになってしまうのか？

今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。何故そんな事をする必要があるんですか？まず、LLMのパラメータは本来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAM食う。だから、精度を下げちゃえば省メモリになっていんじゃね？という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit

stealthinu 2024/05/13

Command R+を例にした量子化bit数と手法での性能劣化度合いについて。やはり4bitくらいまでならそんなに遜色ない感じ。3090が3毎あればローカルLLMが実用になる時代に。

リンク

プロダクトマネジメントクライテリア

プロダクトマネジメントを体系化したクライテリアです。企業がプロダクトを成功に導くために必要な要素を多角的かつ具体的に記載してあります。対象はプロダクトマネージャー個人ではなくプロダクトを取り巻くチームとし、プロダクトマネジメント全体をスコープにしています。

stealthinu 2024/05/13

プロダクトマネジメントの指針、考え方についてのまとめ。及川卓也さんが書かれてる。「プロダクトマネジメントのすべて」が元ネタとのこと。

仕事

リンク

自分には「かわいいものを見ると左の親指の根元が疼く」という現象があったが抗鬱剤を飲んだらなくなった→同じような状態になる人が結構いるらしい

Electroni Kurokawa @kkshow おれには「かわいいものを見ると左の親指の根元が疼く」というどうでもいい欠陥があって、それはメンタルとは関係ないと思っていたんだけど、抗鬱剤か抗不安薬のどっちかが効いて完全にその症状が収まった、こんなもんが関係あるとは思わないのでびっくりした 2024-05-11 02:47:51 Electroni Kurokawa @kkshow 心療内科で先生にこの「かわいいものを見ると左手の親指の根元が疼いていたけど、それが治った」ということを説明したら、先生に「かわいいものっていうのはどういうものなの？」と質問され、おれは「白い子犬や歩く小鳥の映像です」と正直に答えた 2024-05-11 02:49:57

stealthinu 2024/05/12

これって共感覚とは違うものなのかな？

心理

リンク

ChatGPTの出力結果が毎回異なる理由｜IT navi

ChatGPTに同じプロンプトを入力しても、毎回同じ出力にはなりません。これは、ChatGPTが多様な文章を生成できるようにランダム性を取り入れているからですが、実は、それだけではありません。また、画像生成AIでも、同一のプロンプト、同一のシード値などを使用しているにも関わらず、生成された画像が同じものにならないことがあります。この問題に関して、MathematicaやWolfram Alphaの開発者であるStephen Wolfram氏が書いたブログ記事に面白い内容が書かれていましたので、これを参考に、解説していきたいと思います。１．ChatGPTへのランダム性の導入ChatGPTのベースとなっている大規模言語モデル（LLM）では、これまでに入力・生成されたテキストに続く次の単語（トークン）を予測して追加していくことによって文章を生成しています。単語の選択は確率に基づいて行われ

stealthinu 2024/05/11

Temperature=0でも結果揺れるのなんでだろ？と思ってたのだけど、GPUの演算順みたいな細かなところからの揺れで発生していたとは…

リンク

「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用

LayerX 部門執行役員・AI・LLM事業部長中村龍矢 2024/5/8 生成AI Conf

stealthinu 2024/05/10

現状のGPTやRAGを使ったシステムの限界や課題がちゃんとわかってる人が書いた内容だった。GPT-4はうまく使えたらそのへんの普通の人より性能高いのだけど、ぼやっとした指示ではぼんくら。

リンク

ChatGPT�人間のフィードバックから強化学習した対話AI

東京大学の研究室内で，今井がChatGPTの知見を共有するために使用したスライド資料です．特に以下のような話題，技術について解説しています．・ChatGPTの凄さ・ChatGPTの技術・言語モデル・プロンプト・GPTとは・InstructGPT ・言語モデルと強化学習・RLFH

stealthinu 2024/05/09

InstructGPTで人間のラベラーを使って強化学習させたのがブレークスルーだったんだな。知性はデータに宿っている。

リンク

最後にKANは勝つのか?MLPに変わると主張されるKANを試す｜shi3z

コルモゴロフ・アーノルド・ネットワークス(KAN;Kolmogorov–Arnold Networks)は、MITとカルテック、ノースイースタン大学、NSF 人工知能および相互作用研究所らの共同研究によって生まれた、これまでの多層パーセプトロン(MLP;Multi Layer Perceptron)に変わるニューラルネットワークだそうな。先週一番話題になったので知ってる人も多いと思う。 AIの世界は恐ろしく、世界の片隅で新発見がされるとそれが一週間もしないうちに世界中でテストされ、改良され、確認され、解析される。 KANの公式な実装には機械学習屋がHello Worldと呼ぶMNIST(手書き数字6万字を学習させて精度を競うモノ)がなかった。それどころかGPUも使われていなかったので、「一体全体どうすれば?」と困惑するしかなかったのだが、さすが世界は広い。すでにEfficient-KANや

stealthinu 2024/05/08

KANが今だとあんまりメリットなくてあと通常の画像認識とかそういうのには向かない（関数推定とかに向く）というテスト結果

deeplearning

リンク

「東北放送（TBC）以外のマスコミはヘタレ」の声、著名人からも「だらしないぞ」などの声が

「東北放送（TBC）以外のマスコミはヘタレ」の声、著名人からも「だらしないぞ」などの声が 2011年7月5日本日5日午前に辞任の考えを明らかにした松本龍復興相。この問題は、3日に宮城県庁を訪問した際、村井嘉浩知事が出迎えなかったことに腹を立て、恫喝とも思える態度で叱責したあげく、現場を取材していたマスコミに向かって「今の最後の言葉はオフレコです。いいですか？　皆さん。絶対書いたらその社は終わりだから」と発言したこと発端となっている。しかし、「書いたらその社は終わり」の脅しを物ともせず、東北放送（TBC）はあっさりとニュースで報道。オフレコ発言のシーンも、そのまま放送した。このニュース映像はYouTubeで公開され、またたく間にネットで話題となり、本誌を含むネットメディアなどが次々と報道。その後、テレビでも報じられて大問題に発展し今に至るといった流れである。もしも東北放送（TBC）が、

stealthinu 2024/05/07

今更知ったのだけど、あの松本龍の「書いたらその社は終わりだから」失言を報道したのってTBCだけだったのか。それはTBC偉かった！

リンク

2023年、AIの影響で『絵に求められる事』が激変してきている話。｜さいとう　なおき｜pixivFANBOX

クリエイターの創作活動を支えるファンコミュニティ「pixiv FANBOX」

stealthinu 2024/05/05

よりハイコンテキストなものが評価されるようになると予想していたのでまさにその流れ。でも将棋で互角だった時期が一瞬だったのと同じく、この互角な時間は貴重な体験だったんだなと思う日がすぐくるはず。

リンク

RAFT: Adapting Language Model to Domain Specific RAG

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain su

stealthinu 2024/05/02

RAGとfine-tuningを組み合わせて通常のRAGよりも性能が出る手法。

リンク

草津フラワーデモへの連帯撤回/スプリングが見解

群馬県草津町の黒岩信忠町長から性被害を受けたと訴えていた新井祥子・元町議が、民事裁判のなかで、レイプ被害の訴えは虚偽だと認めたという報道がありました（「朝日」１１月１６日付など）。これを受け、元町議に連帯を表明していた性被害の当事者団体「一般社団法人Ｓｐｒｉｎｇ」は５日、見解を発表し、性暴力の虚偽の訴えは人権侵害だとして元町議への、連帯の表明を撤回し、草津町長ら関係者に謝罪を表明しました。同団体は、元町議がリコールされたことに抗議して、２０２０年１２月１１日におこなわれた「草津町フラワーデモ」にたいして、ＳＮＳ上で連帯を表明していました。草津デモの記事は削除します「しんぶん赤旗」は２０２０年１２月１２日付で、全国４６都市で行われたフラワーデモのうち、東京と草津町のフラワーデモを紹介しました。草津町のデモは「訴え排除しない社会に」の見出しで報道しましたが、新井氏の訴えが虚偽であったこと

stealthinu 2024/05/01

最低限このくらいはしないとおかしいよね。

リンク

RAGに質問分類させる「Adaptive-RAG」の解説

本記事では、「Adaptive-RAG」についてざっくり理解します。軽めの記事です。株式会社ナレッジセンスでは普段の業務で、生成AIやRAGシステムを活用したサービスを開発しています。この記事は何この記事は、Adaptive系で現在、最も「コスパ」が良いとされる「Adaptive-RAG」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。本題ざっくりサマリー RAGの回答精度を高めるための手法です。韓国科学技術院（KAIST）の研究者らによって2024年3月に提案されました。「Adaptive-RAG」という手法を使うメリットは、ユーザーからの入力としてシンプルな質問・複雑な質問、どちらも想定される場合に、「そこまで遅くなりすぎずに、ある程度の回答精度がでる」という点

stealthinu 2024/04/30

Adaptive-RAGはT5とかの言語モデルを使って分類器を作って簡単な質問か程々の複雑さかすごく複雑かをわけてRAGの手法を切り替える。

リンク

GitHub、「Copilot Workspace」テクニカルプレビューを開始。ほとんど全ての開発工程をAIで自動化

GitHub、「Copilot Workspace」テクニカルプレビューを開始。ほとんど全ての開発工程をAIで自動化テクニカルプレビューは上記のCopilot Workspaceのページからウェイトリストボタンをクリックして申し込みます。 Copilot Workspaceはほとんど全ての工程を自動化 Copilot Workspaceは、自然言語で書かれたIssue（課題）を基に、Copilotが仕様案と実装計画を示し、コーディングや既存のコードの修正を行い、ビルドをしてエラーがあればデバッグも行うという、プログラミングのほとんど全ての工程をCopilotが自動的に実行してくれる、というものです。人間は各工程でCopilotから示される内容を必要に応じて修正するか、そのまま見守ることになります。 GitHub CEOのThomas Dohmke（トーマス・ドムケ）氏は、Copilot

stealthinu 2024/04/30

Issue立てるとそれにあわせて実行計画を立ててその後コーディングも行う（途中で人間がチェック入れることができる）現時点の性能でどこまでできるか楽しみ。

リンク

kotoba-tech/kotoba-whisper-v1.0 · Hugging Face

","eos_token":"<|endoftext|>","pad_token":"<|endoftext|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":1177,"downloadsAllTime":1177,"id":"kotoba-tech/kotoba-whisper-v1.0","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-04-22T01:56:19.000Z","likes":27,"pipeline_tag":"automatic-speech-recognition","library_name":"transf ormers","librariesO

stealthinu 2024/04/27

kotoba-tech社がReazonSpeechで日本語部分を追加学習で強化したwhisperで速度も6倍くらい速い（パラメータ数が減らしてある distil-whisper由来）

リンク

Pythonの Ruff (linter) でコード整形もできるようになりました - Qiita

要約: Flake8 + Black + isort はもうすべて Ruff だけで置き換えられる。 PythonのLinterとして、すでに Ruff を使われている方は多いと思います。Ruffは Rust で実装された高速なPython用Linterで、従来よく使われていた Flake8 に比べて数十倍短い時間で処理が終わります。その圧倒的な性能によって成功が約束されている（？）ためか、Ruff の知名度がまだ低いころから GitHub Actions公式のPythonチュートリアルは即座に Flake8 を Ruff に置き換えています。そして、2023年10月末にリリースされた v0.1.2 あたりから、ついにLintだけでなく、コードフォーマット（コード整形）の機能も正式に搭載されました。公式のブログ記事はこちら： Pythonのコード整形といえば今まで Black が主流で

stealthinu 2024/04/26

Pythonのlinter/formatterはRuffがよいらしい。vscodeから使える。

python

リンク

はてなブックマーク

タグ

stealthinuのブックマーク (25,663)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス