タグ

自然言語処理に関するfragarach_the_swordのブックマーク (8)

  • 大量のテキスト情報を課題解決に役立てる - 大量のテキスト情報を課題解決に役立てる:ITpro

    企業は顧客の声などの大量のテキスト情報を容易に収集し蓄積できるようになった。だが、その全体像や動向を効率的に把握する手段を持たなければ、業務改善や課題解決には役立てられない。そこでテキストマイニングツールを「VOC(Voice of Customer=顧客の声)への対応」「僅かな予兆への対応」「ウェブマーケティング」といった課題解決に役立てるコツを、事例をベースに解説していく。 目次

    fragarach_the_sword
    fragarach_the_sword 2011/07/14
    ITpro連載:大量のテキスト情報を課題解決に役立てる:目次
  • 第4回 類似話題を自動抽出して時系列観察すれば予兆は見つかる

    前回の第3回では、B to Cビジネスにおいて、トラブルの予兆管理が不可欠な課題になってきたことと、予兆発見のヒントについて解説した。さらに予兆発見のヒントとして、(1)予兆を補足するキーワードは事前に設定できない、(2)「類似する意見が複数あること」が予兆の手かかりになる、(3)複数の類似意見があるだけでなく、時系列で急増していることを示せれば、「おかしい!」と気づける可能性が増える――の3点を説明した。 今回は、テキストマイニングツールのどんな機能をどう活用すれば、予兆管理が現実になるのかを解説していく。 予兆の発見は、テキストマイニングの分野では古くから取り組まれてきた課題である。ただし、ツールが普及し始めたおよそ10年前に提案された活用法はこのようなものだった。 もちろん方法(a)では、予兆を抽出できない。この方法は、過去にあった事象を見つけるだけであり、実務で役に立つことはほとん

    第4回 類似話題を自動抽出して時系列観察すれば予兆は見つかる
    fragarach_the_sword
    fragarach_the_sword 2011/05/24
    第4回 類似話題を自動抽出して時系列観察すれば予兆は見つかる - 大量のテキスト情報を課題解決に役立てる:ITpro
  • 第10回 全文検索システムの「Kabayaki」と「Namazu」の特徴

    今回から,全文検索システムの「Kabayaki」を紹介します。Kabayakiは,日語文書用に作られた全文検索システムです。オープンソースの全文検索エンジン「Namazu」に対してWebブラウザで各種設定を可能にするなど,使いやすく改良したものです。 全文検索は,文書の全情報が検索対象となります。ファイル名や見出し,文書中の特定の要素に限定しません。また,ファイル内の文字列検索が単一ファイルを対象にしているのに対し,全文検索は複数の文書が対象となります。操作は,検索キーワードを入力し「検索」ボタンを押すのみです。 Kabayakiは誰でも簡単に使えることを目指して開発されています。“Namazuをおいしくする”という意味からKabayakiと名付けられました。Linux対応のKabayaki-1.0.0が2001年6月に公開され,2003年6月にはWindows版のKabayakiも発表

    第10回 全文検索システムの「Kabayaki」と「Namazu」の特徴
    fragarach_the_sword
    fragarach_the_sword 2010/08/25
    ITPro連載:企業システムで有効なオープンソース活用法(10)
  • しゃべった内容を21言語に翻訳、NICTが無料iPhoneアプリ公開 

    fragarach_the_sword
    fragarach_the_sword 2010/08/15
    しゃべった内容を21言語に翻訳、NICTが無料iPhoneアプリ公開 -INTERNET Watch
  • 全文検索システム Hyper Estraier

    概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種

  • 形態素解析の茶筅

    ChaSen -- 形態素解析器 はじめに 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。 新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布 ダウンロード あらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日語辞書 UniDic 日語辞書 NAIST-Japanese-dic 日語辞書(奈良先端大より公開予定) NAIST-Chinese-dic 中国語語辞書(奈良先端大より公開予定) 著作権および仕様条件について 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松研究室)が保持する.ソフ

  • ChaSen's Wiki

    メニュー 茶筌の配布 Anonymous CVS による配布 ソースからのインストール 辞書の作り方 FAQ 新着情報 茶筌バージョンアップ履歴 MailingList 関係者一覧 LINK 最新の20件 2007-03-23 FrontPage 2006-09-20 ソースからのインストール 2005-10-24 Anonymous CVS による配布 2005-08-20 LINK 2005-07-22 質問箱 SideMenu 2005-03-09 WinChaのインストール 2004-11-10 茶筌の配布 2004-11-09 新着情報 茶筌サーバ 2004-03-26 MailingList 2004-01-26 制約つき解析 2003-12-26 辞書定義ファイルのフォーマット 2003-12-25 辞書の作り方 2003-11-27 バグ情報 2003-10-24 FAQ:

  • 形態素解析・構文解析入門

    back 注意: このページの内容には、おそらく多くの間違いがあります。 リンクされているので残しておきますが、利用には注意してください。(2008年3月、新山) 目次 背景知識 形態素解析とは 構文解析とは 練習問題 言語処理関係の論文によく出てくる重要語 1. 背景知識 まず「形態素」、「構文」などといった用語は、ほとんどが 現在の科学的な「言語学」という分野に帰するものであることを 最初に知っておく必要がある。体系だった言語学は、おもに チョムスキー言語学の創始とともに始まった。 チョムスキーは 1960年代に、世界じゅうの数多くの言語には、 実はそのすべてに共通する「普遍文法 (universal grammer)」がある、と言った。 またチョムスキーはそのような文法を数学的な人工言語で 厳密に表現する方法をも開発した。彼によれば、言語にはその理想化された かたち (言語が言い間違

  • 1