タグ

検索技術に関するpantingclimberのブックマーク (81)

  • 音声検索の現状の課題と普及の可能性 :渡辺隆広のサーチエンジン情報館

    ここ1~2年ほど、検索技術やそのエマージング・テクノロジーemerging technology)に着目しつつ、特にデジタルネイティブ世代(1990年生まれ以降と定義)の検索に対する意識や日常生活における検索行動・役割にフォーカスした、様々な調査・研究を行っています。今回はその中で、「音声検索」について、簡単に取り上げたいと思います。 話しかけることで検索できる「音声検索」 音声検索とは、文字列ではなく、皆さんの発話する声により検索できる技術やサービスを指します。有名なところでは、Apple iOS に搭載される Siri や、 Google音声検索が挙げられるでしょう。まだ一般発売されていませんが、Google Glass も音声で操作ができますね。最近では、カーナビでも音声操作できるものがありますし、一部メーカーが販売する液晶テレビでも音声による操作や番組検索ができるもの、携帯電話や

    音声検索の現状の課題と普及の可能性 :渡辺隆広のサーチエンジン情報館
    pantingclimber
    pantingclimber 2013/06/18
    個人的には音声検索の継続利用者だけれど, スマホ本体をポケットから取り出さずに blutooth ヘッドセットから使えればもっと利用頻度が増える気がしている.
  • Googleのサジェスト機能の「詐欺」や「ブラック」といったネガティブキーワードを削除申請に成功!その方法・手順をご紹介します | ホームページ集客のススメ

    つい先日、クライアントから、「株式会社WEB企画」と検索をすると、サジェスト機能で「株式会社WEB企画 詐欺」と出るが、大丈夫なのか?という質問をいただきました。 もちろん全くの事実無根です。なぜサジェストで出てしまっているのかについては、 「株式会社WEB企画 詐欺」と検索予測キーワードが出現する件について 上記記事で以前にご説明させていただいた通りです。 しかし、やはりマイナスイメージをお客様に与えてしまう可能性は否定しきれませんでしたので、どうにかして消すことはできないかと考えていた矢先、 Google検索の「サジェスト機能」を巡る訴訟でGoogle敗訴 こんなニュースが飛び込んできました。 これはもしかしたら、弊社もGoogleに申請することで消してもらえるのはないかと思い、ダメ元で挑戦してみたところ・・・ ●●様 Googleへご連絡いただきありがとうございました。 お客様よりい

  • Google rel="author" 普及で実現できる、人物基準のレリバンシー評価 :渡辺隆広のサーチエンジン情報館

    かつてはウェブ全体をクロールして、そこで取得した情報をアルゴリズムで自動的に解析するというアプローチで一貫してきたGoogleも、近年はウェブマスターから提供される情報を上手に活用して検索サービスの品質改善に取り組むようになってきました。たとえば構造化データの活用(最近なら>Schema.orgの話)、XMLサイトマップなどはその代表的なものです。そして直近で新たに発表されたのが、rel="author" です。 rel="author" は標準HTML5の1つなので検索エンジン(またはGoogle)独自というものではありませんが、一応、検索エンジンの立場として皆さん使ってみてね、という位置づけですので、ウェブマスターから提示された情報を活用する、というスタンスは同じです。 メリットがわからない規格は普及しづらい さて、こうした新しい規格が出てきた時にウェブマスターを悩ませるのが、対応すべ

    Google rel="author" 普及で実現できる、人物基準のレリバンシー評価 :渡辺隆広のサーチエンジン情報館
  • 発見探地図エリアダス

    エリアダスとは スマートフォンの画面に表示した地図(エリア)にマッチした「話題の言葉」を表示するAndroidアプリケーションです。 その「話題の言葉」をタップするだけで、そのエリアについて書かれているブログ記事を簡単に検索できます。 新しいブログ記事が投稿されると、表示される「話題の言葉」が変化するため、従来のクチコミサイトにないお店の情報や、タウン情報誌より新しい話題にスマートフォンから簡単にアクセスできるようになります。

  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • Googleアルゴリズム200項目全てを特別公開 – マーケティングブログ

    Googleアルゴリズムの200の要素を発見しましょう!(Let’s Try to Find All 200 Parameters in Google Algorithm) は2009年に書かれた記事ですが、パンダアップデートが適用された今現在(2011年4月)でも重要項目が多く書かれているもので。 多くはGoogleの特許(合衆国特許出願0050071741)に基づいていますが、筆者のアンが自身の解析結果や予測を盛り込んでいる事で、より実践に近い内容になっています。 SEO初心者の方は、これからのウェブ制作の軸に、SEOエキスパートの方はもう一度自身のサイトを見直す目次として確認してみてはいかがでしょうか。 ドメインに関する13要因 ドメイン年齢 ドメイン取得からの長さ ドメイン登録情報(Who is情報)の表示/非表示 ドメイン種類(サイトレベルドメイン(.com や co.uk) ト

    Googleアルゴリズム200項目全てを特別公開 – マーケティングブログ
  • Googleが評価したいオーソリティサイト(権威性)とは ::SEM R (#SEMR)

    Googleが評価したいオーソリティサイト(権威性)とは SEO(検索エンジン最適化)の世界では、安定して多数の検索キーワードで上位に表示されるようなサイトのことを「オーソリティ・サイト」ということがあります。オーソリティサイトについて、改めて概念を理解しておきましょう。 公開日時:2011年03月11日 16:49 欧米の検索エンジンマーケティング系の文献を読んでいると、時折、「オーソリティ・サイト」(Authority site、権威性)という言葉に触れることがあります。検索エンジン、とりわけGoogleにおいて、多数の検索キーワードで安定してランキング上位に表示されているようなサイトを指したり、外部リンク構築戦略において、優良なリンクを獲得できるソースの1つとして言及されることがあります。米Google Matt Cutts氏はかつて、オーソリティサイトからのリンクは、サイト/ページ

    Googleが評価したいオーソリティサイト(権威性)とは ::SEM R (#SEMR)
  • Google、おとり捜査でBingの「カンニング」を発見。マイクロソフトを非難 - Engadget Japanese

    Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

    Google、おとり捜査でBingの「カンニング」を発見。マイクロソフトを非難 - Engadget Japanese
    pantingclimber
    pantingclimber 2011/02/02
    パッと見言いがかり. 「ツールバーで検索」→「次に訪れるURL」 で関連性フィードバックをかけてるだけやん.
  • Web Science and Social Computing Research Group (UPF)

    The web has become the biggest and most dynamic information repository in the world, presenting an opportunity to develop and improve search and mining techniques for web information, including text, semistructured data, images, sound, hyperlinks, and user behavior information. Our group seeks to advance the state of the art in web science, the interdisciplinary study of the web as a natural objec

  • 米Google、コンテンツスパム対策の強化を発表 ::SEM R (#SEMR)

    Google、コンテンツスパム対策の強化を発表 米グーグル、検索エンジンスパム対策強化のためにアルゴリズムを改良したことを公式ブログで発表した。 公開日時:2011年01月24日 09:26 米Googleは2011年1月21日、検索エンジンスパム、とりわけ近年増加傾向にあるコンテンツスパム対策のためにアルゴリズムを改良したことを明らかにした。 Principal EngineerのMatt Cutts氏によると、近年、純粋なウェブスパムが減少傾向である一方、新たに内容が薄っぺらで低品質なコンテンツを掲載する「コンテンツファーム」に関心が集まっている。2010年にGoogleはこうしたサイトが検索上位に表示されないようにアルゴリズムの改良を実施しているが、必ずしも十分に機能しているわけではないのが実情だ。検索利用者からのこうした声を受けて、アルゴリズムの更なる改善に踏み切った。 今回、同

    米Google、コンテンツスパム対策の強化を発表 ::SEM R (#SEMR)
  • Solrとは - Solr, Python, MacBook Air in Shinagawa Seaside

    Solrって? Solrはオープンソースの検索エンジンです。 JAVAで記述されていてサーブレットとして実装されています。TomcatやJettyなどのサーブレットコンテナの上で動きます。 Apacheプロジェクトで開発が進められています。 http://lucene.apache.org/solr/ 同じくApacheプロジェクトで開発されているLuceneをベースにしています。 よく聞かれる質問「SolrとLuceneって何が違うの?」 SolrはLuceneを内包しています。だからLuceneでできることは全てできます。 SolrのインデックスをLuceneを使って操作することも可能です。 LuceneはJAVAのライブラリです。使用する場合にはJAVAでコーディングすることが必須になります。 SolrにはPython,Ruby等のバインディングが用意されている上に、RESTなので実

    Solrとは - Solr, Python, MacBook Air in Shinagawa Seaside
    pantingclimber
    pantingclimber 2010/07/21
    Solr による実績紹介 CPU:クアッドコア2.6×2 Mem:16GB のブレードサーバ6台 2億ページ 約 92.6 QPS
  • バックリンク

    SEO:バックリンクをチェックする方法 新年度企画。検索エンジンで自分のサイトや競合サイトのバックリンク(被リンク)を調査する方法の基。 公開日時:2010年04月01日 00:10 バックリンクをチェックする 検索エンジンは、ウェブページの重要性や人気度、信頼度を決定するために、ページの内部要因(構造分析によるキーワードの重要度や関連性、キーワードの出現位置、頻度、回数、その他のキーワード含めたコンテンツ分析など)と、ページ外要因(ページに張られたリンクの分析。リンクの数、質、信頼性、サイト全体におけるリンクの多様性(ばらつき)、時間、年齢など)を中心とした多数の項目から総合的に判断する。最近はパーソナライズ検索のように検索ユーザの行動履歴や嗜好性など、要素が複雑に絡み合うわけだが、とりわけSEO担当者が頻繁に行う機会が多いのは「リンク分析」だ。 リンク分析は、SEOの戦略方針を決定す

    バックリンク
  • 楽天版MapReduce・HadoopはRubyを活用 - @IT

    2008/12/01 楽天は11月29日、東京・品川の社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」(ローマ)と「fairy」(フェアリー)について、その概要を明らかにした。 レコメンデーションの処理自体はシンプル 楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション(商品の推薦)を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。 レコメンデーションの仕組みとして同社は、一般的でシンプルなア

  • Social Trustrank and User Annotations as Anchor Text

  • 国立情報学研究所の市民講座「膨大な文書の処理技術」に参加:ナレッジ!?情報共有・・・永遠の課題への挑戦:オルタナティブ・ブログ

    うちの会社から歩いて直ぐのところに国立情報学研究所がある。そこでは一般に公開した市民講座を開催しているのだが、情報学の研究機関だけあって私にとっては結構興味深いテーマが扱われることが多い。 その市民講座の2月の回が「膨大な文書の処理技術 ―テキストの山を斬って見えてくるものは?―」というテーマだったので早速今日参加してきた。 高須先生により講演内容は、最近のテキストマイニング技術についての解説だったが非常に面白く、そして為になった。以下講演内容からトピックをメモ的に紹介しておく。 テキストマイニング技術を使って大学生のレポートにおけるWikipedia等の記事のコピー率を調べて見たところ、最小は0%最大が87.3%平均は7.2%だった。長さ60文字での一致で見るとほとんどのレポートはオリジナル(コピー率10%以下)と判別できた。但し8割~9割コピーしている学生も若干名。 独特のフレーズをW

    国立情報学研究所の市民講座「膨大な文書の処理技術」に参加:ナレッジ!?情報共有・・・永遠の課題への挑戦:オルタナティブ・ブログ
  • [解説] グーグルのリアルタイム検索への取組みと今後の課題:渡辺隆広のサーチエンジン情報館

    グーグル・リアルタイム検索が日語に対応 2月15日16時時点でグーグル社から正式なアナウンスがありませんが、先週12日時点で日語(google.co.jp)でのリアルタイム検索が始まっています。TwitterやFacebookに数分以内に投稿された書き込みが、ウェブ検索結果に表示されるようになりました。 以前、QDF (query deserves freshness)の仕組みに触れつつ、グーグルが検索結果の「鮮度」を大切にしている点について解説しました。リアルタイム検索が表れる条件も同様に、「その話題が、いま旬なものか」が判定されています。 ただし、私が観察している限り、ニュース検索ほど頻繁に表示されるわけではありません。Yahoo!トピックスに掲載されているなど、旬な話題に対してセンシティブかというとそういうわけでもなく、単純にTwitterで頻繁に利用される語句だからリアルタイム

    [解説] グーグルのリアルタイム検索への取組みと今後の課題:渡辺隆広のサーチエンジン情報館
  • 2009年、検索業界重大ニュースの振り返りと今後の業界予測 (前編) αSEO

    変化が激しいといわれる検索業界。とりわけ2009年は、過去10年を遡っても変化の大きい1年だったと言えます。そこで、大きな変化のあった1年の振り返りと今後の業界予測を、「2009年、検索業界重大ニュースの振り返りと今後の業界予測」と題し、前編・中編・後編の3部に分け、SEM総合研究所 所長 渡辺隆広が語ります。 リアルタイム検索への対応を進めた検索エンジン 2009年、Twitterをはじめとしたソーシャルメディアサービスの人気の興隆に端を発し、米国ではGoogleYahoo!、Bing共にリアルタイム検索の提供を開始しました。リアルタイム検索とは、TwitterやFacebook、MySpaceなどのソーシャルメディアに投稿されたコンテンツのリアルタイム検索を可能にするサービスです。 尚、米Googleと米Microsoftは2009年10月、Twitterと提携し、同社のデータベース

    2009年、検索業界重大ニュースの振り返りと今後の業界予測 (前編) αSEO
  • [大学]の検索結果から考える URL と SEO ::SEM R (#SEMR)

    [大学]の検索結果から考える URL と SEO Yahoo!JAPANで[大学] と検索した時、ある予備校のサイトがずっと上位に表示されているのは何故? 公開日時:2009年12月16日 17:15 Yahoo! 検索で『大学』と検索してみてほしい。1ページ目には、大学公式サイトのほか、title 要素に「大学」を含み、大量の外部リンクを集めた一部の情報サイトが表示されている。その中で、ある不思議なページが上位表示され続けている。 長期間5位以内に表示され続けているのは、ある予備校のサイトの大学入試情報ページである。このページは title 要素に「大学」を含んでいないなど、格的な SEO は行われていないと推測される。 2009年11月22日現在、上位30位までの間で title 要素に「大学」を含まないサイトはこのサイトだけである。そしてこのサイトは、弊社の記録では2年以上前から5

    [大学]の検索結果から考える URL と SEO ::SEM R (#SEMR)
    pantingclimber
    pantingclimber 2009/12/17
    ドメインやURLが獲得したリンクおよびリンクビルドの価値について
  • 解説:Googleパーソナライズ検索、全てのユーザに適用へ ::SEM R (#SEMR)

    解説:Googleパーソナライズ検索、全てのユーザに適用へ 「検索結果を個々のユーザに最適化する」 - Googleパーソナライズ検索の2009年12月時点でのまとめ。 公開日時:2009年12月08日 03:46 パーソナライズ検索(Personalized Search)とは、検索結果の適合性(Relevancy)を高めるために、ユーザの興味や関心にあわせて検索結果をカスタマイズする検索技術です。 たとえば「SOX」と検索したユーザのインテント(検索意図)は、(1) Sarbanes-Oxley Act(サーベンス・オクスリー法)と(2) MLBの球団・ボストンレッドソックスの可能性があります。この時、Googleは当該ユーザの過去に入力したクエリやクリックしたページなどの検索行動データを参照して、インテントに適した情報を他のページよりも上位に表示することで最適な検索結果を表示します。

    解説:Googleパーソナライズ検索、全てのユーザに適用へ ::SEM R (#SEMR)
    pantingclimber
    pantingclimber 2009/12/08
     Cookieベースといってもユーザトラッキングのみで閲覧履歴はサーバ側に保存. つまり保守的な Google アカウントと同じパーソナライズメカニズムを適用していると思われる
  • Google Mapsの“全地点”に、まとめページ「Place Pages」設置へ 

    pantingclimber
    pantingclimber 2009/09/28
    この PlacePages の広告枠を Google が販売するのは予期できるけれど, Place のオーナー以外に出稿を認めるかどうか注目.