タグ

ブックマーク / s-yata.hatenadiary.org (2)

  • ウェブコーパスの作成方法と内容,現状での課題 - やた@はてな日記

    先月から作成中のウェブコーパス(Amazon EC2 を使ってウェブコーパスを作成中 - やた@はてな日記)について,現状でのまとめです. はじめに 統計的言語処理の研究において,大規模な言語資源(コーパス)はとても貴重なデータです.特に,ウェブコーパスは規模や多様性の面で魅力的であり,いろいろな研究で利用されています.しかし,現状では共有資源として利用できるウェブコーパスがなく,各組織・研究者が個別にウェブコーパスを作成・管理しているため,研究成果を単純に比較できないという問題があります.また,ウェブページの収集方法や排除ルールなど,詳細が明らかにされていないことも問題だと思います. そこで,共有資源として利用可能なウェブコーパスの作成を目的として,ウェブページを収集しています.現在,進捗は 25% くらいで,ウェブコーパスの規模は 3000 万ページを超える程度です.完成までには,後

    ウェブコーパスの作成方法と内容,現状での課題 - やた@はてな日記
  • std::string の正体(gcc-4.4.3)と細かい話 - やた@はてな日記

    # 環境依存な内容な上,無駄に細かい話なので,「そういうこともあるかもねー」くらいに流しちゃってください. (追記 2011-01-11)新しい規格では std::string の Copy on Write(CoW: 書き込み時に複製)が実質禁止になるとのことです.後,gcc 4.5 の時点で CoW はやめてしまうみたいですし,「そんな時代もあった」くらいに軽く流しちゃってください.id:gintenlabo さん,コメントありがとうございます. (追記の続き)個人的には,std::string の CoW 動作は挙動が分かりにくくなるので止める方に賛成です.でも,std::vector なんかを拡張するときはどうするのかな…?コピーしてしまうのか,swap() を使うようにするのか…. (さらに追記 2011-01-11)おおっと,ムーブコンストラクタにムーブ代入演算子なんてものが…

    std::string の正体(gcc-4.4.3)と細かい話 - やた@はてな日記
    rin51
    rin51 2011/01/11
  • 1