[B! 自然言語処理] nikokapuのブックマーク

自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！

概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ

nikokapu 2014/03/10

自然言語処理

リンク

なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか？ - あんちべ！

件名：主人がオオアリクイに殺されて1年が過ぎました。差出人：久光いきなりのメール失礼します。久光さやか、29歳の未亡人です。お互いのニーズに合致しそうだと思い、連絡してみました。自分のことを少し語ります。昨年の夏、わけあって主人を亡くしました。自分は…主人のことを…死ぬまで何も理解していなかったのがとても悔やまれます。主人はシンガポールに頻繁に旅行に向っていたのですが、それは遊びの為の旅行ではなかったのです。収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。一年が経過して、ようやく主人の死から立ち直ってきました。ですが、お恥ずかしい話ですが、毎日の孤独な夜に、身体の火照りが止まらなくなる時間も増えてきました。主人の残した財産は莫大な額です。つまり、謝礼は幾らでも出きますので、私の性欲を満たして欲しいのです。お返事を頂けましたら、もっと詳

nikokapu 2011/11/26

人間よりマルコフ連鎖なついったーbotの方が面白いし、PCや携帯電話の誤変換の方が面白いし、人類はいつかコンピュータに滅ぼされる。

自然言語処理

リンク

エブログマルコフ連鎖で文章生成（JavaScript）

マルコフ連鎖で文章生成（JavaScript）マルコフ連鎖による文章生成。マルコフ連鎖と言っていいのかあまり自信はないのだが、とりあえず文章を作ってはいる感じ。テキストエリアに入力された文章を解析して、その中の単語を使って、自動生成します。文章生成ボタンを何度か押すと文章が変わっていくと思います。意味不明であったり、そのままの文、同じ文が続けて出たりはしてしまいますが。メロスは激怒した。必ず、かの邪智暴虐（じゃちぼうぎゃく）の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。笛を吹き、羊と遊んで暮して来た。けれども邪悪に対しては、人一倍に敏感であった。きょう未明メロスは村を出発し、野を越え山越え、十里はなれた此（こ）のシラクスの市にやって来た。ここに文章が作成されます。 posted by knit at 19:45 | Comment(9)

nikokapu 2010/05/13

リンク

増井 / 類語をみつける方法

というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したいたとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

nikokapu 2009/09/28

自然言語処理

リンク

マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

nikokapu 2009/06/30

自然言語処理

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

nikokapu 2009/06/16

自然言語処理

リンク

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve

nikokapu 2009/06/16

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

nikokapu 2009/06/01

自然言語処理

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

nikokapu 2009/03/14

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

自然言語処理に関するnikokapuのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス