nlpに関するtakumikabuのブックマーク (2)

  • 人工無脳レビュー

    現在稼動している人工無脳を運用形態で分類すると,cgiやircを母体として複数ユーザによって操作されるネットワーク型と,一人のユーザを対象にしたアプリケーションであるスタンドアロン型に分けられる.ネットワーク型の人工無脳はひとつのオリジナルにアレンジを施して作られた子孫がいくつもあり,複数のユーザから教育される機会があるために辞書の成長が期待できる.またチャットを母体としているため人間同士の会話の添え物的位置付けであるので,いいかげんな応答でも許容される.スタンドアロン型は派生型が少なく,一対一の会話を行うため,比較的複雑な会話を挑んでくるタイプが存在する.特に日産のものは吹き出しを伴うデスクトップキャラクタとしての機能を併せ持っている. さらにこれらの人工無脳をスクリプトの形式で分類すると,ひとつまたは複数の知識ファイル(=辞書ファイル)を用意し,乱数によってしゃべる内容を決める乱数型

  • コーパス紹介 - コーパス日本語学のための情報館

    はじめに 現在、日国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日語用例・コロケーション抽出システム『茶漉』によ

    コーパス紹介 - コーパス日本語学のための情報館
  • 1