タグ

統計に関するsurume000のブックマーク (26)

  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • なるほど統計学園高等部

    はじめに 統計のできるまで データの探し方(初級編) グラフの作り方(初級編) 特徴を捉える(初級編) 統計クイズ王!

  • 聞いてはいけない 残酷すぎるデータ4

    自殺率 昭和30年代は20代が高かったが、今世紀は…… いつの間にか、連載も18回目になりました。「データで社会を読み解く論稿」ということで、自由奔放に書かせていただいていますが、「たまには、読者のビジネスマンの参考になるようなネタを……」というのが編集部さんのホンネでしょう。 私はビジネスのノウハウなど微塵も知りませんが、データを効果的に表現するユニークなグラフ技法の紹介はどうかな、と考えました。現代は「エビデンス」の時代。企画立案の会議などでは、データを交えたプレゼンテーションが求められることが多いでしょう。 その時に力を発揮するのがグラフですが、このような見せ方のグラフ技法はどうか、という提案をしてみようと思います。私のエゴが入った作品ばかりで、皆さんの参考になるか分かりませんが、気軽に読んでいただければ幸いです。 まずは、自殺率のグラフです。 初っ端から物騒な話題ですが、社会病理

    聞いてはいけない 残酷すぎるデータ4
    surume000
    surume000 2016/09/29
    等高線グラフ
  • 経済指標ダッシュボード

    経済の動向を把握するのに役に立つ経済指標を一覧できます。国内総生産(GDP)成長率や物価上昇率など政府・日銀が注目する指標から金融市場の指標まで、データやグラフの保存もできます。

    経済指標ダッシュボード
  • 直帰率が0.5%改善したよ!→誤差では?→検定しましょう

    使い方 AとBのサンプル数と比率に値を入力して計算ボタンを押すと、検定統計量を計算して検定を行い、比率Aと比率Bに差があると言えるかかどうかを結果に表示します。 例えば施策前後の直帰率の比較を検定する場合は、施策前をA、施策後をBとして、サンプル数に訪問者数、比率に直帰率を入力します。コンバージョンのA/Bテストを検定する場合は、パターンAをA、パターンBをBとして、サンプル数に訪問者数、比率にコンバージョン率を入力します。 有意水準とは、検定に使う確率のパラメータで、この確率が小さいほど差があるかどうかの判定が厳しくなります。通常は5%でいいでしょう。検定統計量とは、入力値からある公式によって計算される値で、この値が棄却域内に入る確率と有意水準を比べて有意差検定します。検定方法は、二群の比率の差の検定で、z分布を使った両側検定をしています。検定方法の統計的な説明については下の囲みを参照し

    直帰率が0.5%改善したよ!→誤差では?→検定しましょう
  • 競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ

    記事のタイトル通り、競馬で回収率100%を超える方法を見つけたので、その報告をする。 ちなみに、この記事では核心部分はぼかして書いてあるため、読み進めたとしても「競馬で回収率100%を超える方法」が具体的に何なのかを知ることはできない。(私は当に有効な手法を何もメリットが無いのに公開するほどお人好しではないので) 当に有効な手法を見つけたいのであれば、あなた自身がデータと向き合う以外の道は無い。 ただし、大まかな仕組み(あと多少のヒントも)だけは書いておくので、もしあなたが独力でデータ解析を行おうという気概のある人物なのであれば、この記事はあなたの助けとなるだろう。 ちなみに、これは前回の記事の続きなので、読んでない方はこちらからどうぞ。 stockedge.hatenablog.com オッズの歪みを探す さて、前回からの続きである。 前回の記事のブコメで「回収率を上げたいならオッズ

    競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ
  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ

    的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。 また、競馬には技術介入の余地(努力次第で勝利できる可能性)がある。 例えばこんな例がある。 160億円ボロ儲け!英投資会社が日の競馬で荒稼ぎした驚きの手法 - NAVER まとめ 彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が

    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
  • HAD:フリーの統計プログラム | Sunny side up!

    フリーの統計分析プログラムHADについて書いた記事です。 HADは,Excelで動くフリーの統計分析用プログラムです。基礎的な分析から統計的検定,そして分散分析,回帰分析,一般化線形モデル,因子分析,構造方程式モデル,階層線形モデルなどの多変量解析が実行できます。 HADを使った心理統計のが出版されました! ◆HADとは HADについて説明しています。HAD利用前に、必ずこの記事を読んでください。 ◆HADのダウンロード ※リンク先をOneDriveに変えました。 もしリンクがつながらない場合や前のバージョンが欲しい場合は,清水まで連絡ください(simizu706あっとまーくnorimune.net)。 HADの使い方を習得するのに適したサンプルデータも用意しています。 ◆HADの利用についてよくある質問 HADについてよくある質問とその回答をまとめました。順次増やしていきます。 ◆HA

  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • 統計データ・市場調査データを提供するサービス11選

    業界の市場動向を調べる際に、皆さんはどのように根拠データを入手していますか?自社のホームページに新規コンテンツを立ち上げたい時、どの方向に展開をしていけばそのマーケットを押さえることができるでしょうか。これらを解決するのが、Web上で閲覧できる統計や調査データの数々です。各企業が自社で調査した数値を公開しているものもあれば、国が統計データとして公開しているものもあります。 今回は調査や統計データを入手できるサイト、調査機関のサイトをまとめました。皆さんのビジネスにお役立てください。 ※データの引用や利用にあたり制限がある場合があります。詳しくは各サイトの利用規約などをご確認ください。 統計データや市場調査データが公開されているサービスまとめ 総務省統計局 http://www.stat.go.jp/ 今回紹介する中では最も利用され、また目にする機会も多い調査の一つかもしれません。総

    統計データ・市場調査データを提供するサービス11選
  • 東洋経済、月間1億PVの秘密 「ヒットの法則はデータが語る」・上 - withnews(ウィズニュース)

    体制は変えず、手法を変えた ――昨年5月、東洋経済オンラインの当時の編集長だった佐々木紀彦さんにインタビューしました。その時は「PVは月間5千万が現体制での限界だ」と。それが山田編集長になって半年で倍増し、1億PVに届こうとしています。編集部の人員増など、なにか体制を変えたのでしょうか。 「オンライン編集部員の数は、当時も今も8人で変わりません。ちなみに当時の8人のうち、佐々木君を含め3人がニューズピックスで活躍中です(笑)。佐々木君についていったので」 ――人員を増やさないのにPV倍増は驚きです。外部ライターが増えたんでしょうか。 「記事の数は多くても1日15。少ないと10もない。そのうち、外部筆者が書く記事が3分の2というのも、従来から変わっていません」 ――データを見ると、UU(ユニークユーザー=サイトの訪問者)1人あたり、8ページを読んでいます。この数字は佐々木さん時代と変わ

    東洋経済、月間1億PVの秘密 「ヒットの法則はデータが語る」・上 - withnews(ウィズニュース)
    surume000
    surume000 2015/02/10
    データ分析"『iPhone』の記事は見出しに『iPhone』とついただけで伸びる。"“中身がないものを書くとロイヤリティが下がる。読んだお客さんが離れていく”
  • Pythonで統計学を学ぼうとして関数型に打ちのめされる。 – とのログ

    この記事を書いてるのは12/23ですが、カレンダー埋めのため11月で投稿します。 ども、根っからのJavaプログラマー、とのです。 …正確に言うとJavaもまともに書けないへっぽこプログラマーです。 Pythonもやりたいし統計学も学びたい そんな俺ですが、2014年に向けてなにか新しいことしなきゃですね。 新しい言語としてPython、新しい分野として統計学(ひいては金融工学へ)を学ぼうと思っています。 いきさつはテスト手法から ところで、最近EA作ったりしてたのですが、そのやり方に手探り感が強いんですよ。 適当にロジック引っ張ってきてバックテストやって一喜一憂… これじゃまるで素人。 じゃあどうすればいいかと考えて、以前買ってほっぽりっぱなしだったアルゴリズムトレーディング入門とか読んでました。 このではウォークフォワードテストを推奨していて、じゃあそれで検証やってみるかーとか思って

    Pythonで統計学を学ぼうとして関数型に打ちのめされる。 – とのログ
    surume000
    surume000 2015/02/07
    素直な感想に好感
  • データ・サイエンスのプログラミング言語はRからPythonに置き換わる | readwrite.jp

    これまでデータ・サイエンティストの選ぶプログラミング言語はRだったのだが、急激にPythonに置き換わろうとしている。 このシフトの理由はいくつかあるようだが、第一にはPython自体が汎用的で比較的学びやすい言語であるのに対し、Rが習得するにあたってやや複雑であることがあげられるだろう。 データにますます依存しつつある現代社会とデータに飢えたサイエンティストにとっては「簡単さ」こそが鍵となるのだ。 Rは実際にはプログラミング言語ではないRを覚えることに苦労する人が多い理由として考えられるのは、Rが実際にはプログラミング言語ではないからかもしれない。R専門家のジョン・クックいわく、Rとは「統計のためのインタラクティブな環境」であり、厳密にはプログラミング言語ではないのだ。彼はさらに「Rをプログラミング言語だと考るのではなく、Rがプログラミング言語を内包しているのだと考えた方が良いと分かった

    データ・サイエンスのプログラミング言語はRからPythonに置き換わる | readwrite.jp
  • 当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

    どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間

    当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
  • 「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ

    石井准教授の作成した「統計解析ソフトRのスクリプト集」をオンラインで公開します。名古屋大学教育学部の「心理・教育の統計学」の授業で実際に使用されている教材です。学習・研究にご活用下さい。 2016.4.5 Ver. 4.0βを公開しました。棒グラフオプション、オメガ係数、効果量、標サイズの推定などの記述が加わりました。 2015.3.18 Ver. 3.0βを公開しました。記述統計量の算出の部分を統一的にしたのと、データ例を書籍にあわせて変えています。 2014.11.4 Ver. 2.2βを公開しました。 統計解析ソフトRのスクリプト集 (PDF) 下記のサイトでは、シラバスと講義資料が公開されています。あわせてご活用下さい。 「心理・教育の統計学」(名大の授業) 講義資料 (PDF) ーーー はじめに 石井秀宗 この冊子は,心理学や教育学の研究でよく用いられる統計手法に関して,統計解

    「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • 統計解析用フリーソフト・R-Tips

    R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです.さまざまなプラットフォーム(OS)に対応しており,誰でも自由にダウンロードすることができます.それにも関わらず,世界中の専門家が開発に携わっており,日々新しい手法・アルゴリズムが付け加えられています.とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです.このドキュメントは Windows 版 R と Mac OS X 版 R(と一部 Linux 版 R )でコマンドを調べた足跡です. ちなみに,この頁の内容を新しくした書籍は こちら ,電子書籍版は こちら で販売されております.

  • 社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久

    今日は、マーケティングや企画に携わる社会人なら知っておきたい、というよりは、知らないと恥ずかしい、無料で利用できる公的統計データのポータルサイト「e-Stat」の情報と、新しい統計データが自動的に飛んでくる「統計メールニュース」の情報をお届けします。 すでに6月も下旬。新入社員の方も配属部署が決まってバリバリ働いていることだと思います。 マーケティングや企画の仕事をする人にとって、調査データというのは大切なもの。 ネット上で発表される「○○のサービスのユーザー数が○○万人」なんて調査データ、みんな好きですよね。Googleトレンドのような検索ボリュームの情報や、どのブラウザがどれぐらい使われているかといった調査データも人気です。 どれも無料で入手できるデータですが、実は税金でちゃんとした手法でつくられている、質の高い調査データというのが、あるのです。 それが、政府の出している統計データ。

    社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久
  • 勝ち抜きたければ「迷わない人」と組んではいけない。:日経ビジネスオンライン

    原作は『ライアーズ・ポーカー』『世紀の空売り』のマイケル・ルイスが書いたノンフィクション。作品の舞台となっている球団、「オークランド・アスレチックス」は、弱小チームで予算が少ないのによく勝っている。その裏にいた男とは…というお話です。 押井:プロスポーツを舞台に、スポーツクラブのマネージメント映画を作るというのはアメリカではひとつのジャンルになってるんです。日にはなぜかほとんどないんだけど。常々いつか自分でも撮りたいと思ってるんだけどさ。 押井さんが撮りたいのはどういう内容の企画なんですか? 押井:熱海グランスパってJFLで低迷しているサッカーチームがJリーグに昇格するという話。だいたい構想もできてるんだけど、たぶん誰も撮らせてくれないかな(笑)。それこそ日経ビジネスオンラインはこんなに読まれているし、いろんなビジネスが売れてるし、企業小説も流行ったじゃん。なんでこの国ではプロスポーツ

    勝ち抜きたければ「迷わない人」と組んではいけない。:日経ビジネスオンライン