株式会社ブレインパッドの2023年新卒研修資料です。基礎統計学について扱っています。
滅多に起こらない現象を表すポアソン分布はイチローの安打数にも当てはまるのか? 1994年、プロ3年目のイチローはシーズン210安打、打率.385を記録して、一気にスーパースターになりました。 この年の打率10傑は次の通りです。 (年度別成績 1994年パシフィックリーグ|NPB.JP 日本野球機構 より抜粋) 1位と2位以下の差が凄いですね。 いかにイチローが図抜けていたかが分かります。 今年のパ・リーグの規定打席以上の打者29人の安打数を見ると、試合数より少なくなっていて安打数÷試合数=0.93です。 これくらいだと、1試合当たりの安打数は「滅多に起こらない事象の確率分布」であるポアソン分布に従います。 しかし、普通でない打者のイチローは、1試合当たり1.6本以上の安打を打っています。 そのような場合もポアソン分布に従うのでしょうか? それを調べてみました。 比較対象として1994年打率
Answer 同じ実験を何度も繰り返し,その度に平均値が得られたとき,その値にはバラつきが見られますが,この平均値の標準偏差のことを標準誤差と言い,リピート実験の再現性の良さを表します.リピート実験が3~5回程度であれば,標準誤差よりも3~5個の平均値そのものを全て示す方がわかりやすいでしょう. 標準偏差(Standard Deviation:SD)と標準誤差(Standard Error:SE)はそれぞれ, 標準偏差:サンプルのばらつき.1群から計算される. 標準誤差:平均値のばらつき.同じ母集団から得られた(と想定される)多群の場合にだけ計算される. という意味です.ある実験でn個のサンプルを取るとすると,そのサンプル群の平均値と標準偏差が計算できます.このときはまだ,サンプルが1群しかないので標準誤差は計算できません.同じ実験を繰り返すと,繰り返した回数だけサンプル群が増え,多群にな
(Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ
分析を身につけるには実際に「手を動かす」ことが一番の近道です。 分析ソフトと自治体のオープンデータを使った分析の進め方をとことん詳しく、マニュアル風にご説明します。やってみたいけど難しそう、わからない!という方の参考になればうれしいです。 (※あくまでもイメージをつかむためのものですので、詳しくはネットや参考書など他の情報もご覧ください) 今回のゴール地震による津波で浸水が想定されている区域に、子どもが通う施設がどのくらいあるのか。公開データから分析、可視化する。 以前、私が分析に携わったこの記事では、津波によって浸水が想定されている区域に、高齢者施設がどのくらいあるかを調べました。 このときのデータは、県や自治体などから取材で提供を受けたものがベースになっていました。そのままオープンにすることはできないので、今回は高齢者と同じく避難に手助けが必要な、「子どもの施設」に津波のリスクがあるか
東京の多摩川沿いの浸水リスクがある地域で、「なぜか人口が増えている」ことをデータ分析ソフトを使って明らかにして、その背景を探りました。 次にこんな記事も書きました。 南海トラフ巨大地震によって津波の浸水が想定されている区域で、高齢者の施設がすごく増えていることを示した記事です。 どちらの記事も、誰もが入手できる「オープンデータ」と、後述する「GIS」という分析システムを使って隠れた事実を浮き彫りにした、データジャーナリズムのお手本などと紹介されたこともあります。 そしてつい最近手がけたのがNHKスペシャル「〝津波浸水域〟の高齢者施設」。蓄積してきた分析のノウハウを注ぎ込んだ番組です。 「データ分析」というと専門的で、すごく難しく思う方もいるかもしれません。しかし最初に述べたように私は数年前までは、パソコンを満足に使えない、データ分析とは無縁の「ガラケー記者」だったのです。本当に。 そんな私
Review 経済・財政、環境・資源・エネルギー 国土交通省統計問題の第三者委員会が解明したこと及び新たな課題(前編) January 18, 2022 EBPM 経済政策 リアルタイムデータ 経済データ:Review 本問題について取り上げた、朝日新聞社「国土交通省による基幹統計の不正をめぐる一連のスクープと関連報道」が、2022年度日本新聞協会賞に選ばれました。 ▼朝日新聞社・伊藤氏の受賞報告寄稿に、平田主席研究員のコメントが掲載されております。 https://www.pressnet.or.jp/journalism/award/2022/index_7.html (2022年10月11日) 「性急な解決を避け、ガバナンスを含めた問題点を洗い出し、再発防止策を講じるべきだ。」これは、私が昨年12月15日の朝日新聞に寄せた国土交通省(以下、国交省)の「建設工事受注動態統計調査(以下、
建設業の受注実態を表す国の基幹統計の調査で、国土交通省が建設業者から提出された受注実績のデータを無断で書き換えていたことがわかった。回収を担う都道府県に書き換えさせるなどし、公表した統計には同じ業者の受注実績を「二重計上」したものが含まれていた。建設業の受注状況が8年前から実態より過大になっており、統計法違反に当たる恐れがある。 この統計は「建設工事受注動態統計」で、建設業者が公的機関や民間から受注した工事実績を集計したもの。2020年度は総額79兆5988億円。国内総生産(GDP)の算出に使われ、国交省の担当者は「理論上、上ぶれしていた可能性がある」としている。さらに、月例経済報告や中小企業支援などの基礎資料にもなっている。調査は、全国の業者から約1万2千社を抽出し、受注実績の報告を国交省が毎月受けて集計、公表する。 国交省によると、書き換えていたのは、業者が受注実績を毎月記し、提出する
新型コロナウイルスによる影響を調べるため厚生労働省の研究班が、ことし1月から7月までの全死者数を「超過死亡」という手法で分析したところ、例年を上回る水準となっていたことが分かりました。 この分析は、国立感染症研究所などで作る厚生労働省の研究班が行い、今月20日に開かれた厚生労働省の専門家会合の中で示されました。 感染症が流行すると、報告される死者数以外にも医療のひっ迫など、間接的な影響で死者が増えることがあります。 研究班では、新型コロナによるこうした影響を調べるため、過去のデータから統計的に推定される死者数を実際の死者数がどれだけ上回ったかを示す「超過死亡」と呼ばれる手法で、ことし1月から7月までのすべての死因を含む死者数を分析しました。 その結果、この期間の全国の「超過死亡数」は、6352人から3万4483人となり、過去4年間の同じ時期の水準を上回っていました。 この期間に新型コロナに
移動平均は、時系列データ(より一般的には時系列に限らず系列データ)を平滑化する手法である。音声や画像等のデジタル信号処理に留まらず、金融(特にテクニカル分析)分野、気象、水象を含む計測分野等、広い技術分野で使われる。有限インパルス応答に対するローパスフィルタ(デジタルフィルタ)の一種であり、分野によっては移動積分とも呼ばれる。 主要なものは、単純移動平均と加重移動平均と指数移動平均の3種類である。普通、移動平均といえば、単純移動平均のことをいう。 単純移動平均[編集] 単純移動平均 (英: Simple Moving Average; SMA) は、直近の n 個のデータの重み付けのない単純な平均である。例えば、10日間の終値の単純移動平均とは、直近の10日間の終値の平均である。それら終値を , , ..., とすると、単純移動平均 SMA(p,10) を求める式は次のようになる: 翌日の
文系向け「統計学」の授業で、積分・対数・微分を復習する機会があった。その時の「1枚スライド」を公開した。この図をめぐって、「分かる」とはどういうことか、について多くのコメントをいただいた。それを、まとめました。(話が同時並行で進行するので、スレッド風の「まとめ」です。) 注意:積分は、統計学の場合、正規分布表を見るために必要。対数の必要性は、尤度関数(尤もらしさ)の対数をとって計算を簡単にする式変形で使うため。微分の必要性は、確率密度関数の最大値(尤度最大の条件)を求めるため。どれも統計学で必須の内容。 注意2:(追記8/6)ここに出てくる「指数、対数、微分、積分」は「感染症の数理モデル」の基礎となっている。 注意3:(追記8月9日)番外編『「積分」と「源氏物語」〜「晩年の清少納言」から「京都女子大」まで』へのリンクはこちらです。https://togetter.com/li/157284
1日を始める前に押さえておきたい世界のニュースを毎朝お届け。ブルームバーグのニュースレターへの登録はこちら。近日、配信をスタートします。 新型コロナウイルスの新規感染者数がピークを迎えた4月、東京都内の死亡者数は例年と比べて約1割増加したことが東京都の最新の統計で分かった。 東京都が11日発表したデータによると、4月の死者数は10107人。過去4年間の同月の平均死者数(9052人)を12%上回り、1000人程度の超過死亡の可能性が示された。昨年比では7%増加した。4月の新型コロナ感染による死者数は104人だった。 東京慈恵会医科大学の浦島充佳教授は「新型コロナによる死者数を過小評価している可能性は否めない」と指摘した。超過死亡と推測される死亡者1000人の一部には、新型コロナの診断を受けずになくなった人が含まれている可能性があると話した。
こういう人間です ・ 文系(英文学科) ・ Webエンジニア ・ 統計を勉強中モチベーションここ2年ほど統計を勉強しているのですが、そこで毎回立ちふさがるのが数学の壁でした。わたしは文系ということもあって数ⅡB(しかも途中まで)しか履修していなかったため、微分積分や線形代数などが出てくると理解することが難しく時間がかかってしまいます。 でももっと統計を知りたいし理解したい 😭 という気持ちをずっと感じていて今回数学をやり直すことにしました。 高校3年分と考えるとなかなか決心するのに時間がかかりましたが、やってよかったと思います。スケジュール感や実際使った本などを共有することで同じような方の参考になればよいなあ、と思います。 実際使用した本 ・ 講座■ よくわかる数学シリーズ 主にMY BESTシリーズを使用しました。カラーで説明もわかりやすく、目にも心にもやさしい仕上がりになっております
携帯電話、無料Wi-Fiスポット、SNS(ソーシャル・ネットワーキング・サービス)など位置情報の入手手段が多様化している。ではその分析結果をどう伝えることが効果的か──過去の多数の事例と実際に神戸市における分析事例から考察した。 本稿では、最近のデータビジュアライズ事例を構成要素ごとに定量的に分析し、潮流を読み解くとともに、その知見に基づいて作成した「神戸市における、ビッグデータによる観光ナビゲーションシステムの挙動と観光客の動き」のデータビジュアライズ事例を紹介する。 神戸市における、ビッグデータによる観光ナビゲーションシステムの挙動と観光客の動き まずは2009~2017年までのデータビジュアライズのうち、特にデータを地図上にマッピングした事例を50件収集した(本文最後に収集方法)。各事例のビジュアライズは、「円グラフ」「棒グラフ」「パーティクル(粒子)」「アーク(円孤)」など構成要素
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く