[B! 研究][*algorithm] sh19910711のブックマーク

相互推薦システムの研究動向のサーベイ | Wantedly Engineer Blog

こんにちは。ウォンテッドリーのデータサイエンティストの市村 (@chimuichimu1) です。ウォンテッドリーでは、テクノロジーの力で人と仕事の最適なマッチングを実現するために、推薦システムの開発に取り組んでいます。この記事では、Wantedly Visit で活用されている「相互推薦システム」という技術に注目し、その概要や近年の研究動向を紹介したいと思います。相互推薦システムとは？相互推薦システムとは一言で言うと「サービス内のユーザーを互いに推薦し合う」システムのことです。一般的な推薦システムでは、ユーザーからアイテムへの嗜好に基づいて、ユーザーに対してアイテムを推薦します。一方で相互推薦システムでは、推薦されるユーザーと推薦を受け取るユーザーの両方の嗜好に基づき、ユーザーに対してユーザーを推薦します。相互推薦システムのユースケースとしては、ジョブマッチングやオンラインのデーティ

sh19910711 2024/06/04

"Lai'24: 同じ知識グラフで表される関係であっても候補者側と募集側とでその情報の持つ意味が変わる / 損失関数に ~ 「候補者をスカウトしたが断られた」というような片方向の嗜好の情報を組み込む" doi:10.1609/aaai.v38i8.28708

リンク

論文での疑似コードの書き方 - 大人になってからの再学習

以前のエントリで、TeXを使って疑似コードを記述する方法を紹介した。 ■TeXでのアルゴリズム（擬似コードの記述） algorithms パッケージ http://d.hatena.ne.jp/Zellij/20110421/p1 一般に疑似コードは「特定のプログラミング言語の知識を持たない人でも理解できるように、自然言語に近い形で記述する」ということになっているが、いざ論文を作成する時になると、具体的なアルゴリズムをどのような疑似コードで表現すべきか悩ましいことが多い。そこで、疑似コードの書き方のガイドラインが参考になる。 ■ PSEUDOCODE STANDARD http://users.csc.calpoly.edu/~jdalbey/SWE/pdl_std.html ■ Pseudo Code Guide http://ironbark.bendigo.latrobe.edu.

sh19910711 2024/05/02

"論文を作成する時になると、具体的なアルゴリズムをどのような疑似コードで表現すべきか悩ましい / 疑似コードの書き方のガイドラインが参考 / LaTeXを使うのだから、Algorithms パッケージの解説を参考にするのもよい" 2011

リンク

自然言語理解とそのモデリング - Reproc.pnz

はじめにさいきん自然言語処理分野では「自然言語理解」なるものをどう考えるかについて議論があったりします。膨大なパラメータを大量のコーパスで訓練したシステム（ GPT-3 とか）を用いると言語理解が関わるようなさまざまなタスクで高い性能が達成できることがわかってきた今日このごろ、そうしたシステムが本当に「言語理解」なるものを実現しているのかということが焦点です。これは言語理解である、言語理解ではない、そもそも言語理解ってなんやねん……などなど、考えさせられる議論が論文やブログ記事などで展開されています。読んでいても何もわからん……状態になったので、ともかく自分の理解を整理してみようというのがこの記事を書き始めた動機です。こうした議論から得られる帰結（あるいは教訓）のひとつは、結局は理想的な言語理解なるものを定義しようと試みても決着しないので、具体的にどういった振る舞いがそれに含まれるのか

sh19910711 2024/04/28

"理想的な言語理解なるものを定義しようと試みても決着しない / どういった振る舞いがそれに含まれるのかを適切に切り出してタスクとして評価 / 現実的な制約から妥協したり部分問題に落としたりして定式化" 2021

リンク

Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

2.3k{icon} {views} 複数のLLM（GPT/Claude3）とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題（TSP）が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。できたもの Arxivの検索APIを使って検索拡張生成（RAG）したらサーベイを自動生成できたやっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題（TSP）を解いてソートをかける論文の要旨をGPT-3.5-Turboで要約ソートした

sh19910711 2024/04/28

"GPT-4-TurboのJSONモードを使い、検索ワードを生成 + 「Arxiv検索で」と明示させればそれっぽい / Embeddingに対してTSPを解いてソート + テーマ内での近しい内容同士が数珠つなぎで並べ替えた上で与えられたほうが良い"

リンク

Kazuma HASHIMOTO (橋本和真)

sh19910711 2024/03/23

"word2vec: 文脈窓の大きさを変えると, 学習後に単語ベクトルが捉える情報が変わってくる / 窓長が小さいとPOS的な類似度が捉えられていて, 窓長が大きいとトピック的な類似度" 2015

リンク

ネットワーク科学研究会2022 での発表報告 | CyberAgent Developers Blog

技術本部 Data Science Center の武内です。普段は、メディアサービスのデータ分析業務に携わっております。今回は、2022年8月23-25日に同志社大学で開催された「ネットワーク科学研究会2022」に弊社から2名が参加しポスター発表を行いましたのでレポートしたいと思います。ネットワーク科学研究会についてネットワーク科学研究会は、「ネットワーク」を研究キーワードにもつ学生・若手研究者を中心に構成され、分野横断的な情報共有の場を提供することを目的とし、毎年開催されています。今回は現地＋オンラインのハイブリッド形式で開催され、約120人の参加登録があり、現地参加は50人を超えたそうです。例年、口頭講演とポスター講演があります。分野横断的な交流を目的に掲げていることもあり、口頭講演では異分野の人にもわかりやすく研究背景が説明され、いつも大変勉強になっています。ポスター講演は

sh19910711 2023/08/27

"オンライン上でのユーザー同士のコミュニケーションネットワークを結合振動子系とみなす / 繋がりのあるユーザー同士の利用リズムが類似していることを示し、実際に同期現象が起きていることが確認できたとのこと"

リンク

修士課程で機械学習が専門ではない指導教員の下で機械学習を学ぶために

会津大学から東大情報理工へ進学して早2年、この春無事に修士号をゲットした。めでたい。この2年間はこれまでの人生で最も濃く、楽しい時間だった。関わったすべてのみなさんに感謝したい。積もる話は山ほどあるけど、ここでは研究活動でこの2年間を振り返ってみる。修士課程で僕が置かれた状況は標題の通りで、この分野の人気が高まっている昨今、卒業論文や修士論文のテーマ設定に際して同じような境遇のひとは少なくないと思う。この記事がひとつの事例として、そんなみなさんの参考になれば。 ※個人の経験を述べるだけで、『機械学習を学ぶ際のオススメテキスト』とか『数学の知識はこれさえあればOK!』といった内容ではない。 TL;DR 大学院の外に“先生”を求めるガチっぽい機械学習関連のインターンに参加する（3社；e.g., 『Treasure Dataインターンにみる機械学習のリアル』）機械学習サマースクールに行く

sh19910711 2023/04/02

2017 / "単著でも論文を書いて発表 / 「自分はある程度“正しい”方向に進んでいる」ということを定期的に実感することが重要 / テーマを決めるまでの流れ: 分野全体を俯瞰 + ある程度“世界地図”ができたらサーベイ"

リンク

Web・ソーシャルメディア関連の気になった論文ピックアップ (NLP2023編)｜Maya Kimura

2023 年3月13～17 日に自然言語処理関連の国内会議である言語処理学会第 29 回年次大会（NLP 2023）が開催されています（沖縄開催）。自然言語処理という分野は、いわゆる「人間が日常的に使っている自然言語（日本語など）をコンピュータに処理させる一連の技術」のことを指し、英語から日本語に翻訳する技術などの基礎となっている手法を研究していたりします。最近流行りのChatGPTも自然言語処理という分野で生まれた技術の１つです。この自然言語処理技術は、私達が普段紹介しているWebやソーシャルメディア関連の論文や、計算社会科学分野においても重要な位置づけを占めるものとなっています。例えば、ソーシャルメディアでどのような投稿が多いのか、どういった感情表現（ポジティブ or ネガティブ）をしているのか、などを理解することは、ソーシャルメディア分析において重要ですが、これらも自然言語処理の手法

sh19910711 2023/03/24

"NLP2023: 無料で予稿原稿（会議で発表される論文・原稿など）が読める / [H2-5] 人間同士の雑談における話題遷移モデリング / [C5-5] 事実検証モデルのためのラウンドトリップ翻訳を利用した疑似フェイクデータ生成"

リンク

KDD 2022 の論文とチュートリアルの紹介 - Insight Edge Tech Blog

こんにちは！データサイエンティストの伊達です。今回は、データマイニング分野におけるトップカンファレンスの一つである KDD 2022 で気になった論文とチュートリアルを紹介します。 KDD とは論文 (Research Track): Wu et al., Non-stationary A/B Tests 背景論文内容チュートリアル：Counterfactual Evaluation and Learning for Interactive Systems チュートリアル：New Frontiers of Scientific Text Mining: Tasks, Data, and Tools まとめ KDD とは KDD 2022 (28th ACM SIGKDD International Conference on Knowledge Discovery and Data

sh19910711 2022/12/28

"KDD 2022: アメリカのワシントンD.C.で現地開催 + 3年ぶりのオフライン開催 / 科学文書に対するテキストマイニングの基礎、固有表現抽出や関係抽出等の技術 / New Frontiers of Scientific Text Mining: Tasks, Data, and Tools"

リンク

KDD'16に参加しました - Yasuo Tabeiの日記

8月13日から17日にサンフランシスコで開催されたKDD'16に参加しました。よくも悪くもTutorialの日とWorkshopの日が分かれて2日になりました。 Research Trackはオーラル+ポスターとポスターのみの採択に分かれていて、採択数はそれぞれ70と72で採択率18%(=142/784)ととても競争激しい。僕も運良く採択された印象。今年はResearch Trackのトピックを12に絞ったそうです。セッション内容もデータマイニングの代表的な分野に絞られていました。ポスターセッションが夜19時から24時の間の5時間になり、どこかの機械学習の国際会議のポスター発表形式に近くなった。私のポスター発表はおかげさまで盛況でした。いかんせん時間が長く一人で発表していたせいか、何話したか覚えていない。名刺渡したしよしとする。セッションがResearch TrackとAppli

sh19910711 2022/09/11

2016 / "企業に移った研究者が多いせいか、好みの発表が減ってしまった / 昨年のKDDではb-bit MinHashのLiとSmolaが同じセッションで発表 / 初日のkeynote speakerは数学者でいきなり理論の話をするのでみんな引き気味だった"

リンク

大学の研究で役に立ったもの（勉強編） - Kesinの知見置き場

大学の研究に役に立ったものシリーズ第2弾です。今回は、研究に関係する技術の勉強に役に立ったものを紹介したいと思います。ちなみに、自分の研究は情報系で、研究室のテーマは自然言語処理、音声言語処理、機械学習関係でした。あくまで自分には役に立った、ということで情報系以外の分野の人には当てはまらないことも多いと思います。（特に今回は自分の研究分野に特化した記事になってしまっています。すいません）サービス編研究のプログラミングにおける悲劇を無くすためのGitとテスト武蔵野日記大学で自然言語処理の研究をされている小町さんのブログで、ほぼ毎日分の更新があります。すごい。自然言語処理についての話題も勉強になりましたが、それよりも大学の運営や研究者の生活について色々知ることができました。大学に通っていても大学の運営や、研究室のボスが普段何をしているのかについては意外と知る機会がないもので、

sh19910711 2022/08/24

2014 / "『言語処理のための機械学習入門』: 最後の章で、実験のやり方や、精度/適合率/F値、検定といった論文の実験結果を読み解くのに必要な知識の解説 + 本格的に論文を読む前にこの本を読んでおくと確実に役に立つ"

リンク

【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出する - Qiita

【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出するPythonmecab自然言語処理科研費申請書を書いている研究者のみなさま、お疲れ様です。ご存知の通り、過去に採択された研究は科研費データベースに載っています。が、全部見るのはなかなか大変です。過去の傾向をざっくり把握してみよう！　ということで、今回は科研費データベースの研究の概要から自然言語処理でキーワードを抽出してみました。形態素解析パッケージMeCabと専門用語抽出ツールのtermextractを使っています。環境構築 PythonとJupyter Notebookを使います。 OSなど MacOS Mojave 10.14.5 Anaconda 2020.02 Python 3.7.6 Jupyter Notebook 6.0.3

sh19910711 2022/08/11

2020 / "科研費申請書: 過去に採択された研究は科研費データベースに載っています + csvでダウンロードできる / 専門用語抽出: MeCabで形態素解析のみした結果よりtermextractの方がよりキーワードらしい単語抽出ができました"

リンク

自分の研究を自腹で広告した体験談 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

皆さんは自分の研究成果をどうやって広めていますか？ひとつの研究は実働時間だけでも最低数ヶ月、全出版プロセスを考えると一年単位で取り組むこととなります。そうして手塩にかけて育てた研究が誰にも認知されない、というのはなんとも悲しいことです。僕が所属している機械学習分野は人工知能ブームにより、日々洪水のように論文が発表され、その中で存在感を発揮するのは難しくなっています。一昔前であれば、名のある国際会議やジャーナルに採択されればそれなりに存在感を発揮できたようですが、今では一つの会議に数千本の論文が採択されるため、採択された後にも競争に勝たなければ目立てないという事態になっています。論文のクオリティを上げて名のある国際会議に採択されるだけでは不十分、となれば一体どうすれば良いでしょう。有望な策は無く、天に祈って運に任せる、というのが最も一般的なパターンではないでしょうか。広く読まれる論

sh19910711 2022/07/04

"機械学習分野は人工知能ブームにより、日々洪水のように論文が発表 / 今では一つの会議に数千本の論文が採択 / キーワードとしては "Machine Learning" と "Data Mining" を指定 + 推定オーディエンス数は約 800 万と 200 万"

リンク

スロベニアに行ってきた話をする - kensuke-miの日記

自然言語処理データセット系の国際会議LRECに参加してきた。立ち位置は微妙な会議なのだが、データセット（コーパス）という視点で見ると、間違いなく世界最大である。自然言語処理という立ち位置で見ると、上から６番目くらいの会議だろうか。（個人的には、EM NLP, ACL, NAACL, EACL, COLING, LREC くらいの並びだと思っている）今回はスロベニアのポルトローシュで開催された。スロベニア？ポルトローシュ？知らないでしょ？スロベニアはイタリアの東の国。かつてはユーゴスラビアの一部だった国だ。ユーゴスラビアはご存知の通り、内紛で分裂したが、国によってその後の発展度がまったく違う。東のセルビアあたりは戦争の爪痕が大きく残り、いまも禍根を残している。セルビア人の知り合いが１人いるが、彼も従軍してた話を時々してくれる。一方で、スロベニアは、そもそも戦争はなかった。勝

sh19910711 2022/07/03

2016 / "LREC: 自然言語処理という立ち位置で見ると、上から６番目くらいの会議だろうか + 個人的には、EMNLP, ACL, NAACL, EACL, COLING, LREC くらいの並び + データセット（コーパス）という視点で見ると、間違いなく世界最大"

リンク

ニューラル言語モデルの�研究動向（NL研招待講演資料）

論文解説 EfficientViT: Memory Efficient Vision Transf ormer with Cascaded Group Attention

sh19910711 2022/06/16

2019 / "小規模データセット: Penn Treebank (PTB), WikiText-2 + ベンチーマークデータとして利用 / 大規模データセット: WikiText-103, 1 billion word corpus + 埋め込み表現の学習に利用 / PTBの最高性能争いが混沌化 + 再現性のない結果報告"

リンク

Google Researchの実験は大規模過ぎて他で追随不能 - Itsukaraの日記

久しぶりにAI関連の記事を読みたいと思い、Google Reseachの2020の纏め記事を見て初めて知ったのですが、Googleは機械翻訳の実験として600 Billion個のパラメータを持ったモデル(1パラメータが4Byteとすると2.4TB)を2048台のTPU v3で学習させるという超大規模な実験をやってますね。 2048代のTPU v3を4日間使ったので、一般の人が使った場合の利用料金を計算すると、2048[TPU]/32[TPU/v3-32-pod]*32[$/hours]*24[hours/day]*4[day]=$196,608=約2000万円です。一回の試行でこれだけのお金が掛かり、1回で成果が得られるとは限らないので、大学などの教育機関ではとても無理ですね。というか、これを上回る実験をできるのは中国くらいかも。中国は目的を達成するためならば資金に上限を感じさせないの

sh19910711 2022/06/15

"機械翻訳の実験 / 2048台のTPU v3で学習 / 利用料金を計算すると、2048[TPU] / 32[TPU/v3-32-pod] * 32[$/hours] * 24[hours/day] * 4[day] = $196,608 = 約2000万円 / 一回の試行でこれだけのお金が掛かり、1回で成果が得られるとは限らない"

リンク

機械学習で解く問題の考え方、解き方を私なりにまとめる｜Hayata Yamamoto | 山本隼汰

みなさんは、樹海で迷ったことはあるだろうか？山梨や長野、どこでもいいが、山脈で一面が木の中、どこに行ったら出られるかわからないあの樹海である。私には経験はないが、樹海に迷った友人を捜索したことはある。幸いにも、迷った友人を路上で見つけることができ、誰も遭難することはなかったのだが、その時、友人が言っていたことが忘れられない。樹海の中ってさ、「あっちが正解かな？」と思って進んでも、全然景色が変わらないわけ。遠くの山は見えてるのに、全然近くならない。不安になって戻ると、自分はどこから来たのか、どこに向かっていたのか、自分の居場所と方向がわからなくなる。そしてパニックになるんだよ。大学時代の友人が、山梨の森に遭難した時に言ったセリフ研究開発の色が濃い、機械学習のプロジェクトも同じような毛色があると、私は考えている。適当に進むと、パニックになって終わる。そんな辛いことが起きないように備忘録を

sh19910711 2022/06/09

"樹海: 「あっちが正解かな？」と思って進んでも、全然景色が変わらない + 遠くの山は見えてるのに、全然近くならない + 不安になって戻る > 自分の居場所と方向がわからなく / 機械学習のプロジェクトも同じような"

リンク

数学嫌いが深層学習の査読付き論文を通すまで - Qiita

はじめに大学・大学院まで画像系の深層学習の研究をしていました。結果的には、国内発表3回・査読付き論文1本・修士卒業・（学術の課外活動で）学長賞受賞、という感じで、よい大学院生活を送れたと思っているのですが、元々自分は機械学習・深層学習に必須であるはずの数学が苦手でした。数学IIBぐらいまでは辛うじてついていけた数学ⅢCで数学にはセンスの壁がありそうだと感じる研究室の恩師のデジタル信号処理・統計学の講義は最低評価の可微分方程式の講義に関しては、欠席0にも関わらず落とす微積分の授業中の課題はWolfram Alphaで解くという感じで、数学に関しては今も苦手意識がややあります。ただ、ネット上を見ていると、数学がもともと得意だった人が機械学習に取り組む例が多いなと感じ、数学が苦手な人（端的に言えば文系の人）でも、やる気があれば学術的なレベルもできるよということを書くために、自分

sh19910711 2021/12/22

"深層学習モデルの中で何が起こっているかは基本的にブラックボックスで誰にも分かりません。もはやそれを解釈しようとするのをやめろという論文すらあります / わからないけど手を動かす、でいいと思います"

リンク

DEIM2021報告

皆さんこんにちは．北山です．研究室としては毎年参加しているDEIM（データ工学と情報マネジメントに関するフォーラム）に今年も参加しましたので，その報告です．今年は昨年に引き続き，完全オンラインの開催ということで，私は運営側でもなかったので自宅からの参加をしていました．ちなみに昨年は運営側だったのと，初のオンライン開催でてんやわんやだったのを思い出します．北山研としては11件の発表を行いました．共著の発表がもう1件あるので，北山の名が入っている発表は12件ということになります．こうなってくると，ほぼすべての時間帯が，発表 or コメンテータのお仕事という状態で，一日中張り付いているような形になりました…ちょっとやりすぎ感もありますので，来年からは考えたいと思います．これ，いつも言ってるような…まあええか．ありがたいことに，そのうち「ユーザのシチュエーションと振る舞いに基づく提示タイミング

sh19910711 2021/10/10

"「技術ブログにおける単語出現の順序構造を用いた全容把握型検索結果の生成」 / 検索結果を本の目次のように構造化したいというモチベーションのもと，技術用語に限定したものの手軽にキーワード間の構造を得て"

リンク

自然言語処理の研究に悩むその２ - Reproc.pnz

前置き自然言語処理分野の博士課程の学生です。言語理解みたいなものが興味の対象です自然言語処理の研究に悩むの続きのつもりです（あらすじ参照）まだ悩んでいるあらすじ自分の研究的なトピックは「機械による読解 machine reading comprehension 」です。雑に言うと、言語理解のモデル化のひとつの手段として「国語の文章題が解けるようなシステムを作る」のがこのトピックの目標です。ここ2,3年でそれなりな流行を見せており、大規模（問いが数万個、の単位）なデータセットが数多く出てきて、それを解くようなニューラルなシステムがたくさん提案されています。中には人間の精度に匹敵する性能を出せたものもあります。しかしこのような進展を見ても、システムに人間と同等の文章読解力があるとは到底思えない感じがします。システムを評価する側のデータセットが簡単そうに見える、というのが大きな理由

sh19910711 2021/09/28

"どんなタスクでもコーパスを評価の基軸としている > ぶれ・ノイズが大きくて汎用的な知見として確立するところまでいかない / 言語というなんかよくわからんものに取り組む以上、持っている道具の総体として解釈"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

研究と*algorithmに関するsh19910711のブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス