タグ

形態素解析に関するyosshi1202のブックマーク (5)

  • UniDic - 総合

    形態素解析辞書UniDic UniDicは日語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 UniDic(現代語版)は次のダウンロードサイトから入手できます。 UniDicダウンロードサイト ↑

    yosshi1202
    yosshi1202 2009/08/15
    形態素解析に使用する辞書
  • UniDic/近代文語UniDic - 総合

    近代文語UniDic ver.0.8 利用条件 † 近代文語UniDic ver.0.8 の著作権は,小木曽智信,小椋秀樹,近藤明日子 および The UniDic consortiumが保持する。 近代文語UniDic ver.0.8 を複製又は改変することは,個人的な利用に限り認める。 近代文語UniDic ver.0.8 及びこれを改変したものを再配布してはならない。 近代文語UniDic ver.0.8 を利用して行った研究等の成果を公表する場合は,近代文語UniDic ver.0.8 を利用したことを明記すること。 営利を目的として,近代文語UniDic ver.0.8 を利用する場合は,事前に著作権者と協議すること。 近代文語UniDic ver.0.8 を利用することによって,直接的・間接的に生じたいかなる損害についても,著作権者は賠償する責任を負わない。 文書に定めのない

  • 日本語形態素解析 - Japanese Morphological Analyzer

    Visited: 5294 アルゴリズムによる日形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

    yosshi1202
    yosshi1202 2008/06/21
    辞書を使わずに、アルゴリズムだけで形態素解析を行う。"語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さ
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • 形態素解析の茶筅

    ChaSen -- 形態素解析器 はじめに 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。 新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布 ダウンロード あらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日語辞書 UniDic 日語辞書 NAIST-Japanese-dic 日語辞書(奈良先端大より公開予定) NAIST-Chinese-dic 中国語語辞書(奈良先端大より公開予定) 著作権および仕様条件について 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松研究室)が保持する.ソフ

  • 1