先月から作成中のウェブコーパス(Amazon EC2 を使ってウェブコーパスを作成中 - やた@はてな日記)について,現状でのまとめです. はじめに 統計的言語処理の研究において,大規模な言語資源(コーパス)はとても貴重なデータです.特に,ウェブコーパスは規模や多様性の面で魅力的であり,いろいろな研究で利用されています.しかし,現状では共有資源として利用できるウェブコーパスがなく,各組織・研究者が個別にウェブコーパスを作成・管理しているため,研究成果を単純に比較できないという問題があります.また,ウェブページの収集方法や排除ルールなど,詳細が明らかにされていないことも問題だと思います. そこで,共有資源として利用可能なウェブコーパスの作成を目的として,ウェブページを収集しています.現在,進捗は 25% くらいで,ウェブコーパスの規模は 3000 万ページを超える程度です.完成までには,後