タグ

統計に関するhiroyuki1983のブックマーク (20)

  • econdays.net - econdays リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • Ring

    Ringとは、リクルートグループ会社従業員を対象にした新規事業提案制度です。 『ゼクシィ』『R25』『スタディサプリ』など数多くの事業を生み出してきた新規事業制度は、 1982年に「RING」としてスタートし、1990年「New RING」と改定、そして2018年「Ring」にリニューアルしました。 リクルートグループの従業員は誰でも自由に参加することができ、 テーマはリクルートの既存領域に限らず、ありとあらゆる領域が対象です。 リクルートにとって、Ringとは「新しい価値の創造」というグループ経営理念を体現する場であり、 従業員が自分の意思で新規事業を提案・実現できる機会です。 Ringフロー その後の事業開発手法 Ringを通過した案件は、事業化を検討する権利を得て、事業開発を行います。 さまざまな事業開発の手法がありますが、例えば既存領域での事業開発の場合は、 担当事業会社内で予算や

  • ニューヨーク市に学ぶ大規模データ活用の真髄

    ブルームバーグ市長が推進するニューヨーク市政府の大規模データ活用に携わっていた筆者が、さまざまな実例を基に、企業が今後いっそう注力すべきデータ解析のキーポイントをお伝えする。 近年、ブログやSNSを活用したユーザー主体の情報交換が盛んである。「YouTube」をはじめとする動画投稿サイトでやり取りされる情報は、さらにほかのユーザーからのフィードバックを受け、巨大な集合知を形成している。また、これまで活用することがなかった非構造化データや、自由度の高い準構造化データへの期待も高まっている。センサーデータ、空間情報やバイナリ情報、音声、画像、動画情報など、これまでの常識的な解析対象の蓄積型構造化データの枠組みを越え、多様化するデータ(調査会社IDCのレポートによると、2020年に世界で作成されるデータ量は、35.2ゼタバイトに達すると予測されている)は、総量で2020年までにおよそ現在の44倍

    ニューヨーク市に学ぶ大規模データ活用の真髄
    hiroyuki1983
    hiroyuki1983 2012/09/05
    「条件付き確率モデルを用いた線形分類器に代表される統計モデル手法が、自然言語処理の世界から徐々に高度化して、近年ビッグデータの解析に対する一つの解として注目を集めている」
  • PRML復々習レーン#3に参加して発表しました - シリコンの谷のゾンビ

    PRML復々習レーン#3に参加して発表しました.会場係と会場を提供してくださった@showyouさんとDeNAさんに感謝申し上げます.毎度ながら素晴らしい会場,そして素晴らしい景色. 今回から新しい試みで前回の復習内容をまとめてみることにしてみた.いちsubsectionを1枚程度にまとめて,「よーするに」というポイントをまとめてみたもの.資料をまとめて喋ってみてはじめて気が付くことがあったので次回もぜひやってみたい. 発表資料は以下のとおり 前回までのあらすじ PRML復々習レーン#3 前回までのあらすじ View more presentations from sleepy_yoshi 3.1.3-3.1.5 (代打) PRML復々習レーン#3 3.1.3-3.1.5 View more presentations from sleepy_yoshi 日程の都合で今回参加できない方の代

    PRML復々習レーン#3に参加して発表しました - シリコンの谷のゾンビ
    hiroyuki1983
    hiroyuki1983 2012/07/28
    Robbins-Monroアルゴリズム、LMSアルゴリズム、L2正則化LMSアルゴリズム
  • 綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み

    付き合いたくないスパムと付き合うために 受信者の意向を無視して、一方的に送りつけられる迷惑メール(スパム)は、いまやメールボックスを雑音でいっぱいにしてしまい、大事なメールを見過ごしかねないほどの量に膨れ上がり、大きな問題となっています。 残念ながら、このようなスパムを発生源から断つような根的な対策はいまだになく、私たちは、せめてメールサーバで受け取った大量のメール群からスパムと大事なメールを仕分けしてくれる仕組みに頼らざるを得ません。 スパムを判定する方法は、次の2つに大別することができます。 稿では前者の方法に着目します。メールを受け取った人にとっては、メールの中身を読めば、そのメールがスパムかそうでないかを判定するのは容易なことです。スパムの定義は、メールを読む人によって変わる可能性があります。例えば、まったくゴルフをしない人にゴルフの勧誘メールが来た場合はスパムといえるでしょう

    綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み
  • はてなブログ | 無料ブログを作成しよう

    恋人と別れて30年が過ぎ、その元恋人の娘と出逢う夜 古い友人であるShellyからメッセージが届いた。「私の娘のAdrienneが日に行くのだけれど、時間取って彼女と会ってくれるかしら?」 Shellyはアメリカ在住の白人女性だ。Shellyと俺との関わり合いは、過去に書いた。こちらを参照のこと。25歳に戻れた夜~ブライアン・…

    はてなブログ | 無料ブログを作成しよう
  • A Plan for Spam (スパム対策)

    スパムへの対策 ---A Plan for Spam Paul Graham, August 2002 これは、Paul Graham:A Plan for Spam を、原著者の許可を得て翻訳・公開するものです。 <版権表示> 和訳テキストの複製、変更、再配布は、この版権表示を残す限り、自由に行って結構です。 (「この版権表示」には上の文も含まれます。すなわち、再配布を禁止してはいけません)。 Copyright 2002 by Paul Graham 原文: http://www.paulgraham.com/spam.html語訳:Shiro Kawai (shiro @ acm.org) <版権表示終り> Paul Graham氏のエッセイをまとめた『ハッカーと画家』の 邦訳版が出版されました。 出版社の案内ページ Amazon.co.jp サポートページ 2003/01/

    A Plan for Spam (スパム対策)
  • (9月〜最近分) - デー

    5月くらいにやるよって書いて、ずっと進んでなかったけど、少し前の連休でgaーと進めた。今ちょっと仕事がアレなのでデモサイトを作る余裕がないけど、その2としては余裕できたら置きますってところまではできてます。 今回の内容は、前回ので候補を絞って、それに対してBag of visual-wordsの類似でソートして上位N件を表示するという方法。アニメ顔に特化させるための前処理など特徴ベクトルを作るまでの過程がたくさんあるけど、そのあたりの説明はデモサイトを作ってから。 とりあえずスクショ。検索対象は4chan /c/という画像掲示板に投稿された画像からImager::AnimeFaceを使って自動で切り取った顔画像4万件。old verが前回の部品の色によるもので、new verが今回の。 正直まだまだだけど、 上位の人率が上がった 人ではないなりに「髪形はちょっと似てる」「前髪のみ激似」

    (9月〜最近分) - デー
  • コサイン類似度を求める

    研究でコサイン類似度を求めなくてはならなくなりました。コサイン類似度ってなんだ??どうやるんだ??まったく検討つかない!というレベルから、計算式はわかった!とりあえず値を出す関数まで作ろう!というレベルに達したのでメモしておきます。あんまりコサイン類似度自体の質はわかってないかもしれませんが、遅延評価勉強法というかんじです。 コサイン類似度とは 2つのデータが似ているかどうかを、文字列が似てるのを調べる分野では距離などで換算します。ちょっとよくわからないかもしれませんが、ぴいことぴいたろう君の類似度は、なんらかの測定器を使うと60mくらいの距離です。ぴいこと弟の類似度は、その測定器では30mくらいの距離でした。弟とぴいこは近いので、ぴいたろう君より似ています。 みたいなかんじ。 コサイン類似度ではベクトルというものを使います。ベクトルってなんだ!!わけわかんねーこと言うな!!!と思ってい

  • 混合ガウス分布モデルのクラスタをk平均法とEMアルゴリズムと変分ベイズでそれぞれ推定 - 西尾泰和のはてなダイアリー

    「クラスタは球状だ」と想定しているk平均法が苦労するように、細長くて交差したクラスタのデータを使った。また変分ベイズの「クラスタの個数を自動調整する」というメリットを確認するために、クラスタの個数は2, 4, 8個で行った。EMアルゴリズムと変分ベイズでは、k平均法ができていない「長細いクラスタだ」という推定ができている。またEMアルゴリズムではクラスタの個数は人間が与えないといけないが変分ベイズでは自動調整されている。ただし、自動調整に失敗することも結構あるので「何回か実行して一番良かったものを取る」というアプローチが必要だろうな。変分ベイズの8クラスタでの実験は10回やって一番良かったものを取っている。4クラスタの実験は6回。それぞれ初期状態から20ステップの学習過程を動画にしている。 k平均法 k平均法では細長いクラスタを見つけられないのでこれが限界 4クラスタの例。クラスタの個数を

    混合ガウス分布モデルのクラスタをk平均法とEMアルゴリズムと変分ベイズでそれぞれ推定 - 西尾泰和のはてなダイアリー
  • メモ:大量データをプロットするときの濃淡プロット - データサイエンティスト上がりのDX参謀・起業家

    データが多くなってくると散布図が真っ黒になってしまうので、濃淡を付けることでどこに集中しているかが分かります。マイクロアレイ系でよく使われる Bioconductorというプロジェクトのパッケージを使うので、通常のパッケージをインストール方法が違います。 インストール source("http://www.bioconductor.org/biocLite.R") biocLite("prada") プログラム例 library(prada) n <- 10000 x1 <- matrix(rnorm(n), ncol=2) x2 <- matrix(rnorm(n, mean=3, sd=1.5), ncol=2) x <- rbind(x1,x2) smoothScatter(x) pairs(iris, panel = function(...) smoothScatter(...,

    メモ:大量データをプロットするときの濃淡プロット - データサイエンティスト上がりのDX参謀・起業家
  • 統計的機械学習 | 中川研究室

    統計的機械学習 統計的機械学習とは、観測されたデータから統計的手法を用い新たな知識を導出することである。 統計的機械学習についての教科書的な内容はこちらを参照してほしい。 統計的機械学習には種々の分類がある。主要なものを説明しよう。 教師あり学習と教師なし学習 教師あり学習(supervised learning)では、観測データと、そのデータの意味が与えられる。例えば、文書分類問題であれば、観測された文書とその文書の属するカテゴリー(スポーツ、芸能、など)の対のデータ集合(これをtraining dataと呼ぶ。)である。学習によって、観測データの持つ属性と意味の関係を推定し、未知のデータ(これを test data と呼ぶ。)が与えられると、そのデータの意味を出力する。 教師なし学習(un-supervised learning)では、観測データだけが与えられる。観測データたちの

  • どれほどグーグルが世界の情報を握っているか知ってる?

    もはやグーグルなしでは世界も回らない...? すでに1996年の始まりの時点でも、グーグルはインターネット上の2500万ページもの情報をインデックス化して検索ビジネスをスタートしたんですけど、なんと2010年現在にグーグルがカバーしているインデックスページ数は優に400億を超えちゃってるみたいですよ! この10年ほどで1600倍にも情報量が膨れ上がっているんですってね。 もしこのグーグルがインデックス化している全サイトを1個のモニター画面に表示しようと思ったら、なんと画面サイズは600万マイル(約970万km)にも達し、赤道を241周できちゃうくらいの超ビッグサイズのディスプレイを用意しないといけないんだって! ちなみにインターネット上には現在でも100兆個もの単語数に匹敵する情報が並んでおり、1分間に40語のスピードでタイプしていくならば、全部を打ち込むのに475万年を要するそうですよ。

    どれほどグーグルが世界の情報を握っているか知ってる?
  • Twitterで株式市場を予測:「86.7%の精度」 | WIRED VISION

    前の記事 台所で生じる「ホワイトホール」:物理学者が検証 Twitterで株式市場を予測:「86.7%の精度」 2010年10月22日 サイエンス・テクノロジー コメント: トラックバック (0) フィードサイエンス・テクノロジー Lisa Grossman Image: flickr/Perpetualtourist2000 ある1日に『Twitter』の世界(Twitterverse)がどのくらい平穏だったかを測定することで、3日後の『ダウ・ジョーンズ工業株価平均』の変化の方向性を86.7%の精度で予測できるという研究成果が発表された。 この発見は、(別の研究から派生した)ほとんど偶然によるもので、研究者たち自身が驚いている。インディアナ大学のJohan Bollen准教授(社会科学)らによる研究論文は、プレプリント・サーバー『arXiv.org』に掲載された。 これまでの研究によって

    hiroyuki1983
    hiroyuki1983 2010/11/01
    論文読まないとな
  • 連載:はじめMath! Javaでコンピュータ数学|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:はじめMath! Javaでコンピュータ数学|gihyo.jp … 技術評論社
  • 機械学習 × MapReduce - ny23の日記

    個人的な興味というより,雑用絡みで眺めた論文の紹介.機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ.全然網羅的ではないけど,誰かの役に立つかも知れないので,幾つかメモしておく.まず古典的にはこれ, Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム(バッチ学習)の多くは,Statistical Query Model で記述できて,それらは summation form で記述できる (から,MapReduce で並列化できる).実装は Mahout.ただ最近は,バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて,バッチアルゴリズムを並列化することのメリットはあまり無い.オンラインアルゴリズムだとパラメタが連続的に更新されるので,MapR

    機械学習 × MapReduce - ny23の日記
  • BLOG::broomie.net: 無料でよめる機械学習・自然言語処理の教科書

    夏いですね.最近この手の記事ばかりで大変恐縮ですが,機械学習に関するウェブ上で手に入る無料のテキストが紹介されていたので,共有したいと思います.ほとんどは以前に僕が紹介している(時々更新しています)「機械学習・自然言語処理のリソースリンク集」に入っているのですが,改めて紹介いたします.おそらく,他ブログでも紹介しているようにも思えますが,このサイトの紹介がてら引用させていただこうと思います. MetaOptimize / 最近ちょっと話題になっている「MetaOptimize /」という機械学習のサイトのQ&Aで紹介されていました.まじめに見ていなかったのですが,このサイト非常に有用でおもしろいですね. 特に同サイトの「qa」はかなり有用かと思いました. フリーの機械学習テキスト 話を戻しますと,興味深いQuestionsがたくさんあるのですが,今回注目したのは「Good Freely A

  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • 相関マイニング(バスケット分析)

    強化学習勉強会・論文紹介(第30回)Ensemble Contextual Bandits for Personalized RecommendationNaoki Nishimura

    相関マイニング(バスケット分析)
  • 次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

    The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ

    次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
  • 1