タグ

統計に関するsh19910711のブックマーク (445)

  • Rでの生存時間解析 - Qiita

    だいぶ前にRで生存時間分析するとどんな感じなのか学びながら触ってみたメモが残っていたので備忘録として記事化しました。 内容はあまり期待しないでください。ご指摘大歓迎です。 #生存時間解析とは イベントが起こるまでの時間や起こる確率を分析する手法。 薬効の確認、術後の生存日数、部品の故障までの時間、などをデータから分析する。 イベントが起こったかどうかはバイナリで持つと考える。 一般的に死亡をイベントと考えるが、起きて欲しいイベントが観測されるまでの期待的な時間という考え方で使う場合もある。 図にすると、観察開始からガントチャートを書いて死亡した場合に印をつける。 スタートをそろえてロリポップplotを行う場合もある。 生存時間解析の特徴的な考えに「打ち切り(censoring)」がある。 観察が途中で中止になった個体、イベントが発生せず試験期間が終わってしまった場合、が打ち切りとして扱われ

    Rでの生存時間解析 - Qiita
    sh19910711
    sh19910711 2024/06/09
    "生存時間: 薬効の確認、術後の生存日数、部品の故障までの時間 / 起きて欲しいイベントが観測されるまでの期待的な時間 / 生存率の列はより正確には「ある時点での条件付き生存率」と考える" 2022
  • 【Juliaで因果推論】回帰分析 - OLS推定とその仮定

    2つの仮定 E[U]=0, E[U|X]=E[U]が成り立てば,線形回帰モデルY=\beta_0 + \beta_1 X + Uの係数β_1のOLS推定値はXがYに与える(平均的な)因果効果を意味する. 2つの仮定から,Zero conditional mean E[U|X]=0 が成り立つので, CEF: E[Y|X] = \beta_0 + \beta_1 X が母集団で成り立つ. 仮定に基づき線形回帰モデルをモーメント法による推定をすると,結果として最小二乗誤差を最小化するような(OLS)係数パラメータの推定値が得られる. 回帰分析は,他の変数を一定に(コントロール)して推定し,2つの変数間の因果関係を見出す最も代表的な方法の1つです.しかし,推定した結果が因果効果であると信用に値するものとなるためには,ある条件(仮定)が満たされていることが必要となります.仮に仮定が満たされていなけ

    【Juliaで因果推論】回帰分析 - OLS推定とその仮定
    sh19910711
    sh19910711 2024/06/09
    "回帰分析: 推定した結果が因果効果であると信用に値するものとなるためには,ある条件(仮定)が満たされていることが必要 / 因果推論を目的とする回帰分析では,この仮定を理解 ~ " 2022
  • 回帰分析のレベルをどんどん上げる話 - Qiita

    単回帰分析から一つづつレベルを上げることでベイズ回帰モデル, 深層学習, 更に深層ベイズに至るまでにどのように繋がているのかについて簡単に解説します. 普段は python の実装を加えますが今回は数式のみを使って解説するので恒久的な内容になります. もし誤りがあればご指摘よろしくおねがいします. 回帰モデルの定義をここでは 「説明変数 $x$ をインプットとして連続値の目的変数 $y$ を説明するモデルを観測データから作成すること」 とします. つまり観測データを十分に説明できる という具体的な関数$f(\cdot)$を求める事ができれば回帰モデルができたとします. ここでは $x$ 説明変数 $y$ 目的変数 データを識別する添字を $i = 1,\cdots, N$ 観測されたデータ $D = (x_{i},y_{i})$ とします. レベル1:線形単回帰 もっとも初歩的で簡単な回帰

    回帰分析のレベルをどんどん上げる話 - Qiita
    sh19910711
    sh19910711 2024/06/09
    "GLM: 広い確率分布に従うように拡張することでモデルの表現力を向上 / 書籍だとラプラス近似についてページを割いている事が多い / 近似的に解を求める方法を語っているだけでモデルの本質を語っているわけではない"
  • MCMCサンプルを{dplyr}で操る - StatModeling Memorandum

    RからStanやJAGSを実行して得られるMCMCサンプルは、一般的に iterationの数×chainの数×パラメータの次元 のようなオブジェクトとなっており、凝った操作をしようとするとかなりややこしいです。 『StanとRでベイズ統計モデリング (Wonderful R)』のなかでは、複雑なデータ加工部分は場合によりけりなので深入りしないで、GitHub上でソースコードを提供しています。そこでは、ユーザが新しく覚えることをなるべく少なくするため、Rの標準的な関数であるapply関数群を使っていろいろ算出しています。しかし、apply関数群は慣れていない人には習得しづらい欠点があります。 一方で、Rのデータ加工パッケージとして、%>%によるパイプ処理・{dplyr}パッケージ・{tidyr}パッケージがここ最近よく使われており、僕も重い腰を上げてやっと使い始めたのですが、これが凄く使い

    MCMCサンプルを{dplyr}で操る - StatModeling Memorandum
    sh19910711
    sh19910711 2024/06/08
    "apply関数群は慣れていない人には習得しづらい / 図: {ggmcmc}パッケージや{bayesplot}パッケージに含まれる関数を使うと一撃で描くこともできます。しかし、練習のため自分で算出して作図" 2017
  • B.LEAGUE におけるバスケットボールのリアルタイム勝利確率モデルの構築 / Realtime win probability model for B.LEAGUE

    sh19910711
    sh19910711 2024/06/08
    "各試合時刻ごとに得点差に対して勝敗確率が単調性を保つようなモデル化 / w(Δs,t)に対して、各tにおいてシグモイド関数に基づいて一般化線形モデルのあてはめを行うことで予測勝敗確率を構築する" 2022
  • Bayesian GPLVMをStanで実装してみた - StatModeling Memorandum

    この記事の続きです。PRML下の12章に出てくるOil Flowのデータ(データ点1000個×特徴量12個)に対してBayesian GPLVMで2次元(または3次元)の潜在変数空間にマッピングして綺麗に分離されるか見てみます。 まずはPRMLにもあるように普通の主成分分析でやると以下になります。綺麗には分離されません。 次にBayesian GPLVMでやってみます。Stanコードは以下になります。 2~4行目: N・K・Dはそれぞれ、データ点の数・特徴量の数・最終的に落とし込む潜在空間の次元です。 14行目: 潜在変数です。 15行目: カーネルに含まれるパラメータです。僕が理解したところだと特徴量ごとにガウス過程が存在するのでKごとに異なる値を持つようにしています。→ 2017.07.02追記 Kごとに異なる値にするのではなく、1つだけにし、スケーリングしてから適用することで情報を圧

    Bayesian GPLVMをStanで実装してみた - StatModeling Memorandum
    sh19910711
    sh19910711 2024/06/07
    "汎用的な確率的プログラミング言語ではガウス過程に特化した専用ライブラリにはかないません / 特にモデルを拡張する予定がないならば、もしくはデータが巨大ならば ~ GPyなどの使い方を学ぶべき" 2016
  • Stanによるベイズ推定の基礎 | Logics of Blue

    新規作成日:2015年12月5日 最終更新日:2016年9月22日 理論がわかっても、実践ができなければ意味がありません。 ここでは、Stanというフリーソフトを使って、ベイズ統計学をもとにしたパラメタ推定をパソコンで実行する方法を説明します。 ベイズとMCMCの組み合わせでもって統計モデルのパラメタを推定することができるのでした。この方法を、以下では「ベイズ推定」と呼ぶことにします。 ここでは、Stanを用いて統計モデルのパラメタのベイズ推定をする方法を説明します。 重要な点は、「Stanの使い方」を覚えるだけではうまくいかないということです。 Stanの内部で使われているのは乱数生成アルゴリズムです。乱数を生成してパラメタを推定するという行為は、最小二乗法なりで方程式を解き、パラメタを一発で推定するやり方とは大きく異なります。 その違いをぜひ理解なさってください。 コードをまとめたもの

    sh19910711
    sh19910711 2024/06/07
    "乱数を生成してパラメタを推定するという行為 / 「Stanの使い方」を覚えるだけではうまくいかない / 最小二乗法なりで方程式を解き、パラメタを一発で推定するやり方とは大きく異なります" 2015
  • 相関係数と順位相関係数について (2): 順位相関係数 - シリコンの谷のゾンビ

    昨日の記事からのつづき. 今日は題の順位相関係数について書く. 元々は2つのリストの類似度を測る指標としての文脈で考えていたわけだけれど,実は2つの変数が正規分布しなかったり,離散値を取る時などに相関係数を測るノンパラメトリックな方法でもあることがわかった (昨日の話). 2つの順位相関係数について解説した後,ちょっと気になること,異なる集合の順序リストの相関係数を測る方法などについて書く. 順位相関係数 情報検索や推薦などにおいて,2つの順序リストが与えられた場合に,それらがどれほど 似ているかという類似性評価のために順位相関係数を用いる. ただ,前回説明したピアソン相関係数は確率変数が正規分布している仮定を置いているので,確率変数が明らかに正規分布していない場合の計算に利用できる. 順位相関係数はケンドールの順位相関係数と,スピアマンの順位相関係数というものがある.注意するべき点は,

    相関係数と順位相関係数について (2): 順位相関係数 - シリコンの谷のゾンビ
    sh19910711
    sh19910711 2024/06/07
    "2つの順序リストが与えられた場合に,それらがどれほど似ているか / スピアマンは順位に対してピアソンの相関係数を計算しているので,なじみ深いという意味ではスピアマンを使う人が多い" 2011
  • ベイズ推定における共役事前分布の重要性について

    ベイズ推定における事後確率計算量 $$P(x^* \mid \boldsymbol{x}) = \displaystyle \int P(x^* \mid \boldsymbol{\lambda})  P(\boldsymbol{\lambda} \mid \boldsymbol{x}) d \boldsymbol{\lambda}$$ ベイズ推定の際は、予測をする場合に事後確率によって重み付けをとるため、全てのパラメーターに対する事後確率を覚えておくか、解析的に計算できるようにしておく必要がある。 現実的には、全てのパラメータの事後確率を覚えておくことは不可能なので、解析的に計算しておくか、近似的に計算することになる。 そこで、共役事前分布の登場である。 共役事前分布を用いれば, 事後分布が閉じた形で計算できるため、計算が簡単になる。具体的には、事後分布を求める際に、尤度と事前分布の積が

    sh19910711
    sh19910711 2024/06/07
    "パラメーターを介した周辺化の積分計算(予測*事後確率)を行う際に、確率分布が出現し、積分の中の計算が1になる / 定数部分の演算だけで観測点からの予測が可能となる点で、共役事前分布は強力" 2015
  • 広津先生による時系列のクラスタリング手法の実装 - StatModeling Memorandum

    お正月に広津先生のクラスタリング手法をRで実装しました。個体ごとの時系列データをクラスタリングするのに使えます(実際は時系列ではなく一般の2-wayのデータに適用できます)。 個人的に感じる適正なサンプルサイズと時点のサイズはおよそ、10~1000個体、4~30時点程度です。これ以上時点が多い場合は、状態空間モデルなどの方がよいと思われます。 参考文献として以下の3つを挙げます。 [1] Hirotsu, C.(2009): Clustering rows and/or columns of a two-way contingency table and a related distribution theory. Computational Statistics and Data Analysis 53, 4508-4515 [2] 広津千尋 (2004) : 交互作用は相互作用?2 コ

    広津先生による時系列のクラスタリング手法の実装 - StatModeling Memorandum
    sh19910711
    sh19910711 2024/06/07
    "個体ごとの時系列データをクラスタリング / 個人的に感じる適正なサンプルサイズと時点のサイズはおよそ、10~1000個体、4~30時点程度 / これ以上時点が多い場合は、状態空間モデルなどの方がよいと思われ" 2014
  • [R]質問紙と行動指標の相関分析

    @ なんばいきん · Thursday, Dec 17, 2020 · 8 minute read · Update at Dec 17, 2020 こちらはStanアドベントカレンダー17日目の記事です。 この記事はHainesの記事を参考に作成してます。より詳細な内容を知りたい人はこっち ここでは社会・行動科学にありがちな主観指標と行動指標の相関を、生成モデルの観点から推定することを目指す。このアプローチには、 ①前提を明示的にできる ②Priorの設定をドメイン知識に合わせれる ③不確実性を定量化できる といった利点がある。 2値で回答可能な質問紙Aをとるとする。そんで反応時間のような行動指標Bもとるとする。 ここで知りたいのはこの質問紙Aと行動指標Bの相関であるとする。 よくあるのは、質問紙Aのアイテムを合計して計算する平均値と行動指標Bの平均値とかを使って相関を出す方法だ。直観的

    sh19910711
    sh19910711 2024/06/06
    "社会・行動科学にありがちな主観指標と行動指標の相関を、生成モデルの観点から推定する / 2値で回答可能な質問紙A + 反応時間のような行動指標B / ここで知りたいのはこの質問紙Aと行動指標Bの相関" 2020
  • Stan: distance sampling: Taglibro de H

    ある直線上を移動しながら、両側一定幅内で観測された目的の生物の数をかぞえます。このとき、発見した生物との距離も記録しておきます。発見率は距離に応じて減少するとします。このようなデータから、発見されなかった個体もふくめた個体数を推定します。 データをシミュレートすると、以下のようになります。 set.seed(123) ## Half-normal detection function g <- function(x, sigma) { exp(-x^2 / (2 * sigma^2)) } N <- 200 # Number of individuals sigma <- 30 # Scale parameter of half-normal detection function width <- 100 # Half-width of the transect xall <- runif

    Stan: distance sampling: Taglibro de H
    sh19910711
    sh19910711 2024/06/06
    "ある直線上を移動しながら、両側一定幅内で観測された目的の生物の数 / 発見した生物との距離も記録 + 発見率は距離に応じて減少 / このようなデータから、発見されなかった個体もふくめた個体数を推定" 2016
  • 仮説検定とP値

    たびたび議論にあがる仮説検定やP値についてまとめた資料です.

    仮説検定とP値
    sh19910711
    sh19910711 2024/06/06
    "検定: 判断を客観的にしているように見える / 検定の流れ: 研究仮説(例:A郡とB郡のアウトカム発生割合に差がある) + 帰無仮説( ~ 差がない) + P値が有意水準未満なら帰無仮説を棄却"
  • ふんわり理解するロジスティック回帰

    sh19910711
    sh19910711 2024/06/06
    "線形回帰とロジスティック回帰: 線形回帰:(連続値である)予測値を出力 + ロジスティック回帰:発生確率を出力、Aさんがテストに合格するか / 対数を取ると対称性が出るので比較しやすくなる"
  • 潜在ランク理論について | Sunny side up!

    潜在ランク理論とは,大学入試センターの荘島宏二郎さんが開発した,統計手法です。荘島さんのWebサイトにも,潜在ランク理論についての解説が載っています。 潜在ランク理論は,もともとテスト理論として開発されました。テスト理論とは,学力テストのような,能力を査定する道具の性能を評価したり,能力を推定したりするための統計的な理論を指します。有名なテスト理論としては項目反応理論などがあります。 テスト理論としての潜在ランク理論は,テスト得点による連続的な能力評価に対して,段階的な順序的な能力評価を提案している点に特徴があります。テストは100点満点で,1点間隔で表記されることが多いですが,実際運用されているテストは,1点や2点の違いを識別するほど信頼性は高くありません。つまり,実際の測定誤差に目が向けられることなく,点数がつけられてしまっている側面があります。それに対して潜在ランク理論では,学力を順

    sh19910711
    sh19910711 2024/06/06
    "得点による連続的な能力評価に対して,段階的な順序的な能力評価を提案 / 評価はおおざっぱになりますが,信頼できない1点にむやみに踊らされることもなくなる / 到達度などを質的に記述することができる" 2014
  • 最尤法による一般化線形モデルのパラメータ推論 - 機械と学習する

    【概要】 一般化線形モデル(ロジスティック回帰、ポアソン回帰)のパラメータ推論を最尤法を使って実装してみます 確率モデルとして考えることで統一した考え方ができます(わざわざ「〇〇回帰」みたいな名称を覚える必要ない) 【目次】 はじめに 統計モデリング 一般化線形モデル 最尤法 ロジスティック回帰 モデル パラメータ推論 実装 ポアソン回帰 モデル パラメータ推論 実装 実装(jupyter notebook) まとめ 参考文献 はじめに 「一般化線形モデル」の実用例として頻繁に使われる(と思う)ロジスティック回帰とポアソン回帰のパラメータを最尤法によって推論してみます。「ロジスティック回帰」、「ポアソン回帰」のようにそれぞれ名前が付いているように思いますが、これらは確率モデルの一つです。確率モデルとして考えれば統一したアプローチでモデルの推論ができます。 記事は以下のセミナーで話した内容

    最尤法による一般化線形モデルのパラメータ推論 - 機械と学習する
    sh19910711
    sh19910711 2024/06/06
    "データの構造を確率分布を組み合わせて表現する活動 / 確率モデルとして考えることで統一した考え方ができます(わざわざ「〇〇回帰」みたいな名称を覚える必要ない)" 2020
  • Stan:階層モデルに関する考察 - 機械学習・自然言語処理の勉強メモ

    はじめに 今回もStanを使って階層モデルを勉強していく。 今回は階層モデル(というよりベイズ学習そのもの)の基的なことに関する疑問の解消を目指す。 最尤推定ではなく、ベイズ推論を用いる目的の1つとして「ベイズ推論による機械学習」では以下のように書かれている。 ベイズ推論の事後分布は、Nを大きくしていけば漸近的に最尤推定の結果に近づきます。 しかし、「データ数Nが十分に大きい」という仮定自体が現実問題にアプローチするうえで適切ではありません。 (中略) データ数Nが十分であると思うのであれば、解析対象をもっと詳細にするべきです。 下記でも同様なことが書かれている。 andrewgelman.com 以下はベイズ統計の扱い方に関する基礎的な論文(メモ) Philosophy and the practice of Bayesian statistics 「なるほど、そらそうだ」と思ったわけ

    sh19910711
    sh19910711 2024/06/06
    "最尤推定ではなく、ベイズ推論を用いる目的の1つとして「ベイズ推論による機械学習」では以下のように書かれ ~ / 分散パラメータの事前分布: グループ数>5 の場合は一様分布 + それ以下の場合、半コーシー分布" 2018
  • 差分方程式(difference equation)の一般解と隣接三項間漸化式の解法 - あつまれ統計の森

    確率過程に関連して差分方程式(difference equation)の一般解などが出てくるが、「数列」で取り扱われる「隣接三項間漸化式」の一般化と考えることもできる。当記事ではどちらの観点からも理解できるように、取りまとめを行なった。 「自然科学の統計学」の10章「確率過程の基礎」の章末の「付節 差分方程式の解法」を参考に作成を行なった。 手法の確認 問題設定の確認 数列$\{ a_{n} \}$に関して、下記の隣接三項間の漸化式を考える。 $$ \large \begin{align} a_{n+2} + p a_{n+1} + q a_{n} = 0, \quad n=0, 1, … \quad (1) \end{align} $$ 上記は$2$次 or $2$階の差分方程式(difference equation)ともいわれる。これに対し、下記のような特性方程式(character

    差分方程式(difference equation)の一般解と隣接三項間漸化式の解法 - あつまれ統計の森
    sh19910711
    sh19910711 2024/06/02
    "「自然科学の統計学」の10章「確率過程の基礎」の章末の「付節 差分方程式の解法」を参考 / 確率過程に関連して差分方程式(difference equation)の一般解などが出てくる + 「隣接三項間漸化式」の一般化" 2022
  • ランダム行列理論 - データサイエンス時代で活躍できる人材になるために

    数学セミナー2019年2月号 通巻 688号 ランダム行列 出版社/メーカー: 日評論社 発売日: 2019/01/12 メディア: 雑誌 この商品を含むブログを見る ランダム行列理論についての特集が数学セミナーにあったので面白かったところをピックアップしたいと思います. ・ランダム行列とは? ランダム行列とは確率変数を成分とする行列であり,多変量解析ではウィシャート行列が代表的なランダム行列であります.統計学に限らず,分布の仮定を変えることによって無線通信,ポートフォリオ理論,複雑ネットワーク,など様々な応用例があるところが興味深いです.特にいくつかの限定された統計集団の下での研究がなされています.ランダム行列理論には大きく分けて,ガウス型統計集団やラゲール統計集団などがあり,数学セミナーではガウス型統計集団が主にピックアップされていました.ガウス型統計集団にも大きく分けて3つあります

    ランダム行列理論 - データサイエンス時代で活躍できる人材になるために
    sh19910711
    sh19910711 2024/06/02
    "ランダム行列: 確率変数を成分とする行列 + 行列の固有値の分布を求めることが重要 / 数論の方からも近年ランダム行列が注目 + リーマン・ゼータ関数の零点を考える際にはランダム行列が役立ち" 2019
  • 傾向スコアと効果推定精度についての考察 - Qiita

    記事の概要 因果推論分野で登場する傾向スコアを勉強していて少し気になったことがあったので実験してみました。気になったことというのは「傾向スコアの算出」にどれだけ&どのように拘るべきかという点です。今回はわざとバイアスのあるデータを作り、 真の傾向スコアを用いた場合 データセット生成と同じモデルで傾向スコアを算出した場合(ロジスティック回帰) 介入の有無の予測精度を重視した場合(LightGBM) の3通りで効果推定の精度を比較してみました。なお、この記事では「効果」といえば「ATE ( Average Treatment Effect )」を指します。 初投稿ということでドキドキですが、何かまずい点がございましたらご教示くださると幸いです。 バイアスのあるデータセットの用意 特徴量$x_0, x_1, x_2$に基づいてロジスティック回帰と同じモデルで介入$z \in \{0, 1 \}$

    傾向スコアと効果推定精度についての考察 - Qiita
    sh19910711
    sh19910711 2024/05/31
    "傾向スコアの算出にどれだけ&どのように拘るべきか / 意思決定者から基準を詳しくヒアリング + 介入𝑧の予測精度の向上に多大な労力を費やすのではなく標準化平均差などを用いて共変量のバランスをモニタリング" 2020