[B! mysql] kudakurageのブックマーク

kudakurage id:kudakurage

mysqlに関するkudakurageのブックマーク (4)

第19回　転置インデックスの実装 | gihyo.jp
先ほどの表2のデータが文書ID順だったのに対して、表3は見出し語順になっています。文書IDと見出し語のデータの並び順がひっくり返っているために、転置インデックスに「転置」という語が付けられます。転置インデックスの形式であれば見出し語ごとに求めるべきデータが固まっているので、求めるべき文書IDと出現位置の集合が高速に得られます。Googleでは複数台のマシンを使った分散処理で表2の形式から表3の形式にデータを変換しており、この操作をMapReduceと呼ぶしくみを通じて実現しているということです。 FINDSPOTの転置インデックス構造 FINDSPOTの転置インデックスを設計する際には、いくつかの前提条件について吟味する必要がありました。まずは扱うデータの分量です。FINDSPOTで扱うデータ量は平均500字程度の文書で100万件というのが当初の目標値でした。トータルの文字数は、500字
kudakurage 2009/12/07
開発

mysql
リンク
転置インデックス - Wikipedia
転置インデックス（てんちインデックス、Inverted index）とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。概要[編集] 情報処理テクノロジにおける転置インデックスとは、単語や数字といった内容から、それが含まれているデータベースやドキュメント群へのマッピングを保持するという、インデックス型データ構造である。ドキュメント群へのマッピングの場合、検索エンジンが実現される。転置インデックスファイルは、インデックスというよりはデータベースと呼んだほうがふさわしい場合もある。また、検索キーが単語（文字列）であり、連想配列の値が位置情報である場合、ハッシュテーブルの形態を取ることもある。転置インデックスには大きく分けて2通りの手法がある。レコード単位転置インデックス（record level inve
kudakurage 2009/12/06
mysql
リンク
MySQL InnoDBだけで全文検索 - SH2の日記
実験エントリです。予習してみる「転置インデックス」というキーワードで検索して、しばらく勉強してみます。転置インデックス - Wikipedia mixi Engineers’ Blog » 転置インデックスを実装しよう ASCII.jp：悟空、秘剣「転置インデックス」を手に入れる｜Googleはなぜ的確に探せるのか？ [を] 転置インデックスによる検索システムを作ってみよう！転置インデックスで学ぶ検索エンジンの中身アプリ - 睡眠不足？！うーんなるほど。分かったような分からないような。作ってみるとりあえず、Twitter4Jを使ってこんなデータを用意しました。ちなみに人選は漢(オトコ)のコンピュータ道: MySQLerのTwitterアカウントまとめ。を参考にさせていただきました。 5707049458,2009-11-14 20:28:34,sakaik,@hbstudy
kudakurage 2009/12/06
mysql
リンク
bayashi.jp
This domain may be for sale!
kudakurage 2009/11/16
mysql
リンク
1