[B! 研究][NLP] sh19910711のブックマーク

自然言語理解とそのモデリング - Reproc.pnz

はじめにさいきん自然言語処理分野では「自然言語理解」なるものをどう考えるかについて議論があったりします。膨大なパラメータを大量のコーパスで訓練したシステム（ GPT-3 とか）を用いると言語理解が関わるようなさまざまなタスクで高い性能が達成できることがわかってきた今日このごろ、そうしたシステムが本当に「言語理解」なるものを実現しているのかということが焦点です。これは言語理解である、言語理解ではない、そもそも言語理解ってなんやねん……などなど、考えさせられる議論が論文やブログ記事などで展開されています。読んでいても何もわからん……状態になったので、ともかく自分の理解を整理してみようというのがこの記事を書き始めた動機です。こうした議論から得られる帰結（あるいは教訓）のひとつは、結局は理想的な言語理解なるものを定義しようと試みても決着しないので、具体的にどういった振る舞いがそれに含まれるのか

sh19910711 2024/04/28

"理想的な言語理解なるものを定義しようと試みても決着しない / どういった振る舞いがそれに含まれるのかを適切に切り出してタスクとして評価 / 現実的な制約から妥協したり部分問題に落としたりして定式化" 2021

リンク

#DEIM2023 にて技術報告、研究発表、スポンサー展示を行いました - Gunosyデータ分析ブログ

こんにちは、GunosyTechLab の上村、飯塚です。今回の記事は、3/5〜3/9の5日間にかけて開催された第21回日本データベース学会年次大会（DEIM2023）の参加レポートになります。 DEIM2023 について DEIMはデータ工学と情報マネジメントに関するフォーラムという名で毎年3月上旬に開催される学会です。検索や推薦、データベースシステムからビッグデータ、SNSなど幅広い分野のトピックにまつわる研究が発表されています。今年は、前半がオンライン、後半がオフラインでの開催となりました。オンラインの参加者数は800名程度、オフラインの参加者数は400名程度でした。オフラインの会場は、岐阜県の長良川国際会議場でした。 Gunosyの発表内容 Gunosyからは技術報告1件、研究発表1件、スポンサー展示を行いました。 [3b-1] Gunosyにおける推薦システムの変遷と

sh19910711 2024/04/11

"DEIM: 毎年3月上旬に開催 + データ工学と情報マネジメントに関するフォーラム / [3b-8] 推薦システムにおける人気バイアスを考慮したランキング評価指標 / 推薦精度と人気度合いの両者を加味した指標を提案" 2023

リンク

Kazuma HASHIMOTO (橋本和真)

sh19910711 2024/03/23

"word2vec: 文脈窓の大きさを変えると, 学習後に単語ベクトルが捉える情報が変わってくる / 窓長が小さいとPOS的な類似度が捉えられていて, 窓長が大きいとトピック的な類似度" 2015

リンク

Web・ソーシャルメディア関連の気になった論文ピックアップ (NLP2023編)｜Maya Kimura

2023 年3月13～17 日に自然言語処理関連の国内会議である言語処理学会第 29 回年次大会（NLP 2023）が開催されています（沖縄開催）。自然言語処理という分野は、いわゆる「人間が日常的に使っている自然言語（日本語など）をコンピュータに処理させる一連の技術」のことを指し、英語から日本語に翻訳する技術などの基礎となっている手法を研究していたりします。最近流行りのChatGPTも自然言語処理という分野で生まれた技術の１つです。この自然言語処理技術は、私達が普段紹介しているWebやソーシャルメディア関連の論文や、計算社会科学分野においても重要な位置づけを占めるものとなっています。例えば、ソーシャルメディアでどのような投稿が多いのか、どういった感情表現（ポジティブ or ネガティブ）をしているのか、などを理解することは、ソーシャルメディア分析において重要ですが、これらも自然言語処理の手法

sh19910711 2023/03/24

"NLP2023: 無料で予稿原稿（会議で発表される論文・原稿など）が読める / [H2-5] 人間同士の雑談における話題遷移モデリング / [C5-5] 事実検証モデルのためのラウンドトリップ翻訳を利用した疑似フェイクデータ生成"

リンク

KDD 2022 の論文とチュートリアルの紹介 - Insight Edge Tech Blog

こんにちは！データサイエンティストの伊達です。今回は、データマイニング分野におけるトップカンファレンスの一つである KDD 2022 で気になった論文とチュートリアルを紹介します。 KDD とは論文 (Research Track): Wu et al., Non-stationary A/B Tests 背景論文内容チュートリアル：Counterfactual Evaluation and Learning for Interactive Systems チュートリアル：New Frontiers of Scientific Text Mining: Tasks, Data, and Tools まとめ KDD とは KDD 2022 (28th ACM SIGKDD International Conference on Knowledge Discovery and Data

sh19910711 2022/12/28

"KDD 2022: アメリカのワシントンD.C.で現地開催 + 3年ぶりのオフライン開催 / 科学文書に対するテキストマイニングの基礎、固有表現抽出や関係抽出等の技術 / New Frontiers of Scientific Text Mining: Tasks, Data, and Tools"

リンク

自然言語処理の研究に悩む卒業編 - Reproc.pnz

前置き 2020年3月に博士課程を修了しました。ちょうどよいタイミングなので、自分がここまでやってきたことと・これからやっていったほうがよさそうなことの簡単なまとめを書こうと思います。関心の核心は自然言語処理の研究に悩むその３ - Reproc.pnz からあまり変わっておらず、恥ずかしながら特に新しい内容を書いているわけではありません。どちらかと言うと年に一度くらいこういう考え直しを繰り返して自分の立ち位置を振り返る、という感覚かもしれません。理解を説明するということ「言語を理解している」という状態について形式的な定義を与えることは簡単ではありません。それを観測する人によって「これはわかっているでしょ」「これはわかっているとは言えないでしょ」と解釈が異なることがありえます。したがって、社会的に必要な場合は何らかのタスクを用意してある一定の基準をクリアしているときに「わかっている」

sh19910711 2022/11/13

"機械の「わかっている」を測る手段のひとつに読解問題を解かせるタスク / 研究上の課題になるのは、あるデータセットで良い成績を示したシステムが具体的にどのような点で優れているのかを説明すること" 2020

リンク

大学の研究で役に立ったもの（勉強編） - Kesinの知見置き場

大学の研究に役に立ったものシリーズ第2弾です。今回は、研究に関係する技術の勉強に役に立ったものを紹介したいと思います。ちなみに、自分の研究は情報系で、研究室のテーマは自然言語処理、音声言語処理、機械学習関係でした。あくまで自分には役に立った、ということで情報系以外の分野の人には当てはまらないことも多いと思います。（特に今回は自分の研究分野に特化した記事になってしまっています。すいません）サービス編研究のプログラミングにおける悲劇を無くすためのGitとテスト武蔵野日記大学で自然言語処理の研究をされている小町さんのブログで、ほぼ毎日分の更新があります。すごい。自然言語処理についての話題も勉強になりましたが、それよりも大学の運営や研究者の生活について色々知ることができました。大学に通っていても大学の運営や、研究室のボスが普段何をしているのかについては意外と知る機会がないもので、

sh19910711 2022/08/24

2014 / "『言語処理のための機械学習入門』: 最後の章で、実験のやり方や、精度/適合率/F値、検定といった論文の実験結果を読み解くのに必要な知識の解説 + 本格的に論文を読む前にこの本を読んでおくと確実に役に立つ"

リンク

【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出する - Qiita

【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出するPythonmecab自然言語処理科研費申請書を書いている研究者のみなさま、お疲れ様です。ご存知の通り、過去に採択された研究は科研費データベースに載っています。が、全部見るのはなかなか大変です。過去の傾向をざっくり把握してみよう！　ということで、今回は科研費データベースの研究の概要から自然言語処理でキーワードを抽出してみました。形態素解析パッケージMeCabと専門用語抽出ツールのtermextractを使っています。環境構築 PythonとJupyter Notebookを使います。 OSなど MacOS Mojave 10.14.5 Anaconda 2020.02 Python 3.7.6 Jupyter Notebook 6.0.3

sh19910711 2022/08/11

2020 / "科研費申請書: 過去に採択された研究は科研費データベースに載っています + csvでダウンロードできる / 専門用語抽出: MeCabで形態素解析のみした結果よりtermextractの方がよりキーワードらしい単語抽出ができました"

リンク

スロベニアに行ってきた話をする - kensuke-miの日記

自然言語処理データセット系の国際会議LRECに参加してきた。立ち位置は微妙な会議なのだが、データセット（コーパス）という視点で見ると、間違いなく世界最大である。自然言語処理という立ち位置で見ると、上から６番目くらいの会議だろうか。（個人的には、EM NLP, ACL, NAACL, EACL, COLING, LREC くらいの並びだと思っている）今回はスロベニアのポルトローシュで開催された。スロベニア？ポルトローシュ？知らないでしょ？スロベニアはイタリアの東の国。かつてはユーゴスラビアの一部だった国だ。ユーゴスラビアはご存知の通り、内紛で分裂したが、国によってその後の発展度がまったく違う。東のセルビアあたりは戦争の爪痕が大きく残り、いまも禍根を残している。セルビア人の知り合いが１人いるが、彼も従軍してた話を時々してくれる。一方で、スロベニアは、そもそも戦争はなかった。勝

sh19910711 2022/07/03

2016 / "LREC: 自然言語処理という立ち位置で見ると、上から６番目くらいの会議だろうか + 個人的には、EMNLP, ACL, NAACL, EACL, COLING, LREC くらいの並び + データセット（コーパス）という視点で見ると、間違いなく世界最大"

リンク

ニューラル言語モデルの�研究動向（NL研招待講演資料）

論文解説 EfficientViT: Memory Efficient Vision Transf ormer with Cascaded Group Attention

sh19910711 2022/06/16

2019 / "小規模データセット: Penn Treebank (PTB), WikiText-2 + ベンチーマークデータとして利用 / 大規模データセット: WikiText-103, 1 billion word corpus + 埋め込み表現の学習に利用 / PTBの最高性能争いが混沌化 + 再現性のない結果報告"

リンク

DEIM2021報告

皆さんこんにちは．北山です．研究室としては毎年参加しているDEIM（データ工学と情報マネジメントに関するフォーラム）に今年も参加しましたので，その報告です．今年は昨年に引き続き，完全オンラインの開催ということで，私は運営側でもなかったので自宅からの参加をしていました．ちなみに昨年は運営側だったのと，初のオンライン開催でてんやわんやだったのを思い出します．北山研としては11件の発表を行いました．共著の発表がもう1件あるので，北山の名が入っている発表は12件ということになります．こうなってくると，ほぼすべての時間帯が，発表 or コメンテータのお仕事という状態で，一日中張り付いているような形になりました…ちょっとやりすぎ感もありますので，来年からは考えたいと思います．これ，いつも言ってるような…まあええか．ありがたいことに，そのうち「ユーザのシチュエーションと振る舞いに基づく提示タイミング

sh19910711 2021/10/10

"「技術ブログにおける単語出現の順序構造を用いた全容把握型検索結果の生成」 / 検索結果を本の目次のように構造化したいというモチベーションのもと，技術用語に限定したものの手軽にキーワード間の構造を得て"

リンク

自然言語処理の研究に悩むその２ - Reproc.pnz

前置き自然言語処理分野の博士課程の学生です。言語理解みたいなものが興味の対象です自然言語処理の研究に悩むの続きのつもりです（あらすじ参照）まだ悩んでいるあらすじ自分の研究的なトピックは「機械による読解 machine reading comprehension 」です。雑に言うと、言語理解のモデル化のひとつの手段として「国語の文章題が解けるようなシステムを作る」のがこのトピックの目標です。ここ2,3年でそれなりな流行を見せており、大規模（問いが数万個、の単位）なデータセットが数多く出てきて、それを解くようなニューラルなシステムがたくさん提案されています。中には人間の精度に匹敵する性能を出せたものもあります。しかしこのような進展を見ても、システムに人間と同等の文章読解力があるとは到底思えない感じがします。システムを評価する側のデータセットが簡単そうに見える、というのが大きな理由

sh19910711 2021/09/28

"どんなタスクでもコーパスを評価の基軸としている > ぶれ・ノイズが大きくて汎用的な知見として確立するところまでいかない / 言語というなんかよくわからんものに取り組む以上、持っている道具の総体として解釈"

リンク

Nグラムを使った未知語の抽出（仮） - Men talking over coffee with smoking Ark Royal.

n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。森信介, 長尾眞, 1998, 「nグラム統計によるコーパスからの未知語抽出」, 『情報処理学会論文誌』, 39:7, 2093-2100. 「品詞ごとに、前後にくる文字にはパターンがある」という仮定に基いて未知語を探すらしい。名詞の場合、コーパスを分析すると「ご＜名詞＞の」とか「、＜名詞＞し」とかいうパターンが多かった、みたいな。この論文だと、このパターンの辞書を各品詞について作成したあとに、各単語についても同様のパターンを作成して、なんだか最適化問題を解いているのだけど、まず、各単語についてそれぞれ辞書をつくるほどコストを掛けていたら朝になってし

sh19910711 2021/08/27

"「品詞ごとに、前後にくる文字にはパターンがある」という仮定に基いて未知語を探す / 森信介, 長尾眞, 1998, 「nグラム統計によるコーパスからの未知語抽出」"

リンク

前処理が単語埋め込みに与える影響 A Comprehensive Analysis of Preprocessing for Word Representation Learning in Affective Tasks

ACL2020 に採択された A Comprehensive Analysis of Preprocessing for Word Representation Learning in Affective Tasks という論文を読んでいます。特に感情認識系のタスクにおいて前処理が単語埋め込みに与える影響を調べ、よく行われる実験設定が本当に正しいのかを検証しています。

sh19910711 2021/08/21

"negation が最も効果があり、一般的な stopwords や stemming はスコアを下げることが多い / A Comprehensive Analysis of Preprocessing for Word Representation Learning in Affective Tasks (ACL2020)"

リンク

https://www.jstage.jst.go.jp/article/jsicr/36/2/36_111/_pdf/-char/ja

sh19910711 2021/06/27

"三大都市を対象に「暇」と共起関係が認められる単語の位置情報を日本地図に可視化 / 暇ツイートが集中しているスポットではどのようなつぶやきがされていて，それらがポジティブもしくはネガティブのどちらの意味で"

リンク

自然言語処理系の国際会議を雑に説明してみる(修正あり) - Qiita

自然言語処理業界では、業績という面では国際会議が主戦場となっています。12 NLP分野外の人のために、簡単に主な国際会議を紹介したいと思います。元々のモチベーションは以下のツイートをうけて、NLP系の会議の読み方を紹介しようと思ったことです。せっかくなら簡単な説明も書こうかなと。 IJCNLPって普通どう発音するんでしょうか？ — Hideki Nakayama (@n_hidekey) 2017年7月12日なお、読み方については、僕の周りはこう発音していた、というだけなので、他の発音してる人もいると思います。基本的にはACL Anthologyに載ってる国際会議3を紹介していきますし、興味のある人はACL Athologyで実際に論文を読んでみてください。並びは、なんとなく僕が上位だと思ってる順ですが、人や分野によって割れると思ってます。4 突っ込みは大歓迎です。 2017.08

sh19910711 2017/08/17

研究
NLP

リンク

github上で論文をまとめてくれているサイトまとめ（メモ） - あおのたすのブログ

(06/13 19:25 追記：バイオ系を追加しました) (06/23 : 画像系を追加しました) (09/30 : RNNのまとめを追加しました) 最近、github上でarxivの面白い論文（主にdeep learning系）をまとめている人が多いので、自分の知っている有用なリンクをまとめておきます。自然言語処理、強化学習とカテゴリごとにまとめてくれる人が居て有り難いですね。自然言語処理系 NLPの論文 github.com NLPの論文（感想も載せているので有り難い） github.com 画像系 github.com 強化学習系 GitHub - junhyukoh/deep-reinforcement-learning-papers: A list of recent papers regarding deep reinforcement learning github.c

sh19910711 2016/06/14

リンク

大規模データで単語の数を数える - ny23の日記

大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の