サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
ill-identified.hatenablog.com
要約 はじめに GLM の特殊形としてのロジスティック回帰 潜在変数モデルとしてのロジスティック回帰 機械学習の分類モデルとしてのロジスティック回帰 事後確率の近似としてのロジスティック回帰 参考文献 要約いまさらロジスティック回帰?と思うかもしれないが, もう火鍋の話はしない. 昔書いたやつを読み返したら中途半端だったので改めて(2値)ロジスティック回帰のいくつもある表現について書きたくなった. 昔書いたやつというのは以下のことである. ill-identified.hatenablog.com 今度は以下の4種類に触れる. 最初の2つは前回の記述を推敲しただけでほとんど同じである. 経済学でよく使われるロジットモデルの潜在変数モデルによる表現 一般化線形モデル (GLM) の特殊形としてのロジスティック回帰 機械学習の分類タスクとしてのロジスティック回帰 (分類) モデル 事後確率で見
この記事の要約 はじめに 問題点の要約 (追記) 先行研究について GARCH(っぽい)モデルによるシミュレーション シミュレーション前の理論分析 選択的夫婦別姓との比較 (追記) ゴルトン゠ワトソン分枝過程について 使用するデータ シミュレーションの技術的な補足 乱数生成について GARCHモデルの結果 シミュレーションの追試 より複雑なシミュレーションについて 男女別 世代重複 創作苗字 三親等の婚姻禁止ルール より高度な人口学的モデル 結論 2024/4/22: 先行研究とゴルトン゠ワトソン分枝過程の解説の追記 2024/4/23: 多数の言い回しのおかしい箇所の校正 2024/4/24: グラフ上の記載ミスとグラフ描画コードを修正 この記事の要約 先日報道された「500年後に日本人が佐藤だけになる」という試算の内容に違和感を覚えた. 資料を確認してみると, 大きな問題のある方法で試
注意: この記事のRパッケージ解説は公式ドキュメントではありません. パッケージは常に改良されているため, なるべく最新の公式ドキュメントを参考にしてください. 概要 問題 原因の詳細 解説 解決法 結論 (という名の蛇足とか御意見番とか) 参考文献 概要いまのところパッケージ側で修正される予定はなしだが, 放置すると忘れそうなのでとりあえず書いておく. R-wakalang で, パネルデータを扱う plm パッケージが提供している cipstest 関数を使うと発生するエラーの解決法を知りたいという投稿があった. ソースコードを確認したところ, 投稿者が使い方を間違えているのではなく実装に問題があるとしか思えなかった. しかし適切な実装に直すには時間がかかる (し私が積極的に直しに行く予定はない) ため, 取り急ぎ周知してもらうだけにする. なお, この問題を確認した plm パッケー
はじめに 本書の特徴 初心者はどう学んでいくといいか 問題点 (本書に限らない一般論?) OS間の違いに対するサポート 以降はもはやただの日記 はじめに(ごめんやっぱ半分以上書評じゃなくて日記だった) 松村優哉・湯谷啓明・紀ノ定保礼・前田和寛著『RユーザーのためのRStudio「実践」入門』(技術評論社, 2版) をいただいたので書評をする. (Amazonのリンクを貼ると私にアフィリエイト収入の可能性があるのだが, 最近思うことあってなるべく版元のリンクにしようかなとか考えている) もう既にレビューをブログに投稿し, 初版との違いにも言及する人もいる1が, 私は初版を持ってないのでこの点はなんとも言えない. 本書の特徴本書は RStudio というより, RStudio + tidyverse の本である. 執筆当時最新の RStudio (v1.4.1103) と tidyverse
概要 Date-time オブジェクトのタイムゾーン変換がよく分からなかった. 実はちゃんとリファレンスに書いてあった. 詳細 文字列を日付として取り込む場合, as.POSIX* を使う(strptime() 関数というのもある). さらにこのとき, タイムゾーンを指定すれば別の標準時間に変換して読み込んでくれる. # タイムゾーン指定なしの場合ローカルのタイムゾーンになる. as.POSIXlt(x="2015-01-11 00:00:01", format="%Y-%m-%d %H:%M:%S") as.POSIXct(x="2015-01-11 00:00:01", format="%Y-%m-%d %H:%M:%S") 結果はいずれも [1] "2015-01-11 JST" タイムゾーンを tz= で指定すると, as.POSIXlt(x="2015-01-11 00:00:0
まじでメモ まじで情報がない 能書き 主なオプション style natbib sorting, sortlocale backend 結論 補足: 記述例 能書き BibLaTeX はマジで日本語情報が不足してるのでとりあえずメモ. 「BiBLaTeXに移行して日本語文献がうまく出力できないので調べている」とかでやってきたのがあなたなら, たぶん以下を読んでも問題は解決できない. 昔は Biblatex - TeX Wiki にもう少しなんか書いてあったような気がしたが, 今確認したらリンクをいくつか羅列してあるだけになっていた (qiitaの検索結果のリンクを張る意味とは……). そしてリンク切れになっているものも多い. 私がBibLaTeXでやりたかったのは, 「和文と欧文のまじった文献リストを適切な書式と順序で表示したい」をXeLaTeXとUnicodeのテキスト使ってやることだっ
概要 初めに R Markdown の仕組み 原則その1: output: 以下の項目はフォーマット関数へ代入される トップレベルでは動作しない例: シンタックスハイライト 原則その2: トップレベルの項目は pandoc へ渡される トップレベルに書くオプションの例: タイトル 原則その3: その1とその2は信じるな その他細かい話 ハイフンの有無の違い LaTeX プリアンブル/ HTML ヘッダの挿入位置 YAML ヘッダの true/false 概要よくきたな. おれは ill-identified だ. 俺は毎日 R にすごい数のエラーを吐かせているが, その全てをおまえに見せるつもりはない. R Markdown の YAML ヘッダ (フロントマター, あるいはメタデータブロック) については既に色々紹介している人もいるが, 「インデントの位置がよくわからない」「例を真似して
概要 WSL2 上で RStudio Server を動かす 仮想化を有効にする WSL2 のインストール Linux ディストリビューションのインストール Ubuntu on WSL2 の初期設定 RStudio Server 上での操作 WSL2 でのファイルの読み込み 一括インストールスクリプト Ubuntu on WSL2 と GUI (オプション) RStudio デスクトップ版を動かす サーバー版とデスクトップ版の比較 その他トラブルシュート 追加ストレージのファイルの書き込み・読み込みができない パッケージのインストール時にライブラリが足りずエラーが出る System has not been booted with systemd as init system (PID 1) rgl パッケージで警告文が出る reticulate で pyenv を使うとき フォントのイン
概要 Rubin の 1981年の “The Bayesian Bootstrap” とそれに関連する話の認識共有 以前の投稿でいまいちはっきりしない書き方をしたのでその訂正的な意味合いもある 正直なところ「役に立つ」系の話ではないし 「なるほど」系の話でもない やっぱり BB 自体は「便利な手法の提案」ではなく「都合のいい方法はないよ」という趣旨では? BB/ノンパラメトリックブートストラップ法では, 分布のテールや分布が歪んでいる可能性を無視しており, そういう場面で使うのは適切ではない ただし, 状況によっては BB の応用は有効であるし, なんなら Rubin 自身も多重代入法で使っている 概要 1 はじめに 2 Rubin (1981) での主張 3 その後の展開 4.1 Rubin 自身もブートストラップ法を使っていた 4 まとめ 参考文献 注釈 1 はじめにこれははっきり言っ
概要 Quarto という R Markdown のような動的ドキュメント生成プログラムが開発中 まだ開発版だが野心的な機能をめざしているらしい 単なる R Markdown の再設計ではなく, Jupyter Notebook の変換にも対応している R や Python だけでなく Jupyter カーネルで使える任意の言語でも R Markdown のように扱えるかもしれない 使い方の参考になるようにこの投稿も Quarto を利用して書いている ただしはてなブログは独特の仕様なので一部手動で修正している 先行して Rpubs にアップロードしたものは出力されたHTMLをそのまま使っている. はっきりいってこちらの方が見栄えが良い. 付録としてプレゼンテーション資料への変換, Jupyter Notebook の変換例も用意した github.com 注意 Quarto は最近公開さ
概要 以前にも書いたように Python の pandas は参照透過性に欠けるため, 何度も書き換えて使用するような使い方に向いていない. これは pandas の用途と合わない. pandas をもっと快適にデータハンドリングする方法がないか探したところ, siuba, datar というパッケージを見つけたので紹介する. これらのパッケージの特徴を挙げ, 実験によるパフォーマンス比較してみた. 個人的には siuba のほうが信頼できると思うが, 現時点ではどちらも発展途上のパッケージである. 以前の続きということでタイトルを踏襲したが, 実は私がこれらのパッケージを知ったのは昨日なので「実践」的かどうかは少し疑わしい タイトルの通り R を知っている pandas ユーザーを想定読者としているが, R ユーザでなくても再利用のしやすい書き方は知っていて損はないと思う. その場合は実
概要 去年書いた話のその後の更新について整理した. おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary あとこっちのスライドも閲覧数が少しづつ増えてるようなので Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck 去年の話の直後にいろいろと大きな環境変化あった 改めて変更点と残る問題点をここでまとめる 本当は不具合を潰してから書きたかったが思ったより時間がかかりそうなので「中間報告」 以降の記述のほとんどはこれまでネット上のどこかで断片的に書いていた話で, 今回はそれらを一箇所にまとめただけ tikz について
概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo
概要 はじめに I. 条件付き期待値が全てか? i 条件付き「期待値」だけでよいのか? ii 条件付き期待値の条件とはなにか? メディアミックスモデルを例に 外挿と選択バイアス 補足: 条件付き期待値の条件付けに関して II. 機械学習の性能評価 ≠ ビジネスモデル なのか? 分類モデルと確率の推定 確率推定の評価はできるのか III. こういう話の教科書・参考書はないのか? まとめ 参考文献 概要 『機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ』というブログ記事に対する私の昨日の twitter での連続投稿の話を書き改め, 説明不足な部分を補った. 昨日と同様に, (I) 条件付き期待値だけでよいか, (II) ビジネスモデルと機械学習の性能評価は一致しないのか, (
概要 リスト 無断翻訳不可 翻訳・改変可 ライセンス不明 日本語の資料 概要見つける度に無計画に Pocket とかに保存してたがごちゃごちゃしてきたのでここに書くことにする. キリがないので Rpubs とかはナシ. 主に bookdown で作られた書籍形式の資料. リストした資料は全体に目を通したわけではないのでクオリティを保証するものではない (メモの量でどれくらい読み込んでるかを察して欲しい). また, 翻訳したり紹介したりする価値がありそうか, あるいは RMarkdown の使用事例として参考になるか, という基準で探すことが多いので, これらに当てはまらないものは熱心に蒐集しない傾向がある. Bookdown.org は bookdown で書かれたネット上のドキュメントをクローリングしてリンクしているので眺めているだけでもよさそうな資料はわりと見つかる. リスト出版年は初
概要概要 デフォルトの word_document よりもう少し機能の豊富な Word 用テンプレートを提案する. 概要 初めに 使い方 必要パッケージとインストール 新規作成 カスタマイズ 注意点 解説 簡単なテンプレート 初めに先日の Tokyo.R で意外と Word へのエクスポートを望む人が多いと分かったのでテンプレートパッケージを作ってみた. ただし, 以前から作っている rmdja は (1) 日本語を含む PDF 文書出力時の煩雑な初期設定を省くことを主眼に置き, (2) かつ PDF と HTML との間にある程度スタイルの一貫性をもたせることをモチベーションにしているので, いまのところ Word フォーマットを追加するつもりはない. まず念の為補足しておくと, rmarkdown 本体にも出力フォーマット word_document があり, 新規作成時に選択できる基
概要 はじめに シミュレーション IIDな時系列 (基本) 独立ではないケース1: AR(1) 2022/1/17 追記: マルチンゲール差分列の中心極限定理 独立ではないケース2: ランダムウォーク 統計学への応用 相関ありの中心極限定理の応用 汎関数中心極限定理の応用 参考文献 概要今月まだ何も書いてなかったのでタイトルの通り中心極限定理の発展的な話をする. といってもAR(1)とランダムウォーク乱数のグラフを描いただけなんだけど. 対象読者: 統計学の入門的な教科書に書いてある中心極限定理 (CLT) や大数の法則は知っているが, そこから先は知らない人 はじめにほとんどの基礎的な教科書に書いてある回帰分析や機械学習のモデルではデータが互いに独立かつ同一の分布 (IID) であると仮定している. これは大数の法則や中心極限定理が成り立つ条件の1つでもあり, よって十分にデータが多けれ
概要先日リリースされた RStudio 1.4.1103 の新機能として, Python 実行環境のサポートが強化されたことが挙げられる*1. たとえば R と同様の環境ペーンが使えるようになったため, グローバルのオブジェクトやロード中のモジュールの一覧を確認しやすくなった. これは対話的に実行するときにとても便利である. しかし Python まわりにはまだ変な不具合がいくつか残っているので解決/回避方法含めて脈絡なく挙げていく. 概要 これまでに見つけた不具合 Windows は英語ロケールでないと対話モード不可? 問題の詳細 解決法 matplotlib で画像のプロットができない 問題の詳細 解決法 pyenv の Python が認識されない 問題の概要 解決法 notebook でコードの実行結果が表示されない? ここにない不具合に出くわしたあなたへ これまでに見つけた不具合
概要結論から言うとヘルプドキュメントを読めばどうすべきか分かる問題であるが, 初心者が初心者である所以はそこが分からないことなので (誰でも最初は初心者だったのでそれが悪だとは言わない) 書いておくことにもある程度価値はあるだろう. R-wakalang にて最近 miceパッケージを使った多重代入法 (multiple imputation) がうまくいかないという質問を何度か見かけた. mice を使った多重代入法について日本語で書かれた教科書として高橋 and 渡辺 (2017)によるものがあるが, 今回のようなケースには詳しくないためここに解決法を書いておく (パッケージの使い方はヘルプドキュメントに書いてあるためこの教科書に問題があるわけではない. ちゃんとこの教科書などを読んで多重代入法の使い方を理解してから使ってほしい). 注意: この記事のパッケージ解説は公式ドキュメントで
概要Healy (2018) “Data Visualization: A Practical Introduction” の邦訳『データ分析のためのデータ可視化入門』をもらったので, この本のレビューと本書ではあまり取り上げられていない, R グラフィックスをさらに活用するためのヒントを提示する. 2021/9/24 追記: 『Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary』に書いたように, Python でも matplotlib のような煩雑な構文に惑わされずにこの本で紹介されているような方法を実現するためのパッケージ/用例を作ってみた. 概要 初めに 本書の特徴 どういう本なのか どういう人が読むとよいか 邦訳に対する細かいツッコミどころ 本書を読んだ人におすすめ
これを読んでわかること haven はSASやSTATA, SPSSなど変数ラベルのあるフォーマットのデータも読み込める labelled::var_label()でデータフレームの各変数に一括してラベルを付加できる expss::use_labels()を使えばグラフや要約統計量に表示される変数名を簡単にラベルに切り替えられる 問題提起 Rは日本語をはじめマルチバイト文字のオブジェクト名を使うことができるが, 多くのパッケージ開発者はこの仕様に注意していないことが多く*1, マルチバイト文字のオブジェクトはよく不具合の原因になるため, なるべくASCII文字だけでオブジェクトを宣言することが推奨される. すると例えばggplot2では, どうしても日本語で表記したい場合はaes()で変数選択するのとは別にlabs()で日本語の軸ラベルを手動で書くことになる. そんな中, r-wakala
概要R-wakalang に投稿された質問を元にした小ネタ. タイトルの通り sf と ggplot2 パッケージを使ったコロプレス図 (色分け地図) の作成方法を紹介する*1. あまり R に習熟していない人向けにごく簡単な例だけを紹介する. 関連する話を取り上げているページはいくつかあるが, おまけが多すぎたりしてエッセンシャルな部分が分かりにくと感じた. 自分も昔似たような話題でいくつか描いたが, 見返すとやはり冗長だったり, 方法が古くなりすぎたりしている. [R] [OpenStreatMap] 東京の道路データをグラフに要約する - ill-identified diary [R] Rで学ぶ都知事選のデータ可視化【地理データ編】 - ill-identified diary 2020/1/13追記: 完全に失念していたが, 人によっては Shiny なんかを使ってインタラクティ
この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関
2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom
概要A. Vehtari, Gelman, Simpson, Carpenter, & Bürkner (2020)で提案されているマルコフ連鎖モンテカルロ法(MCMC)の収束確認方法を紹介する. これらはや有効サンプルサイズ(ESS)といった従来よく使われた方法の問題点を解消したものである. 特に重要な, 以下の概念の使い方を紹介する. 正規化ランクと中央値まわりの畳み込み bulk-ESSとtail-ESS ランクプロットを始めとする, 上記の視覚化 今回紹介する方法の多くはbayesplotパッケージで用意されている. これは去年Tokyo.Rの5分間LTやるために書いたものの続きである.ill-identified.hatenablog.com 2021/4/7 追記: この論文は Bayesian Analysis 誌にアクセプトされたらしい (DOI: 10.1214/20-B
先日の第83回Tokyo.Rで構造推定に関する発表をした. 以前の発表資料(https://github.com/Gedevan-Aleksizde/20190703_ML_ECON)の加筆が直前まで長引いてたため, 正味3日くらいしか準備できる時間がなかった. そこで以前の発表ですこしだけ触れた構造推定について, 具体的に何をやっているのか掘り下げようとしてこのテーマを選んだ. 時間がないためなるべく簡単な内容にまとめようとしたが, 結局この分野では古典的なOlleyとPakesの研究を紹介しただけで, Rでどうやるかすらほとんど言えずに終わった. なので発表後Rのパッケージを使ってどう計算するかという話を大幅に加筆して, bookdownで作成した文書を公開した. gedevan-aleksizde.github.io 本文でも書いているように, そもそも構造推定というのは決まりきった
第84回Tokyo.Rの発表資料です. 前回言ったようにrmarkdown使用中なので本体は Rpubs に上げた. 感染症の流行を表す数理モデルに, SIR, SEIRといった古典的なものがある. これらのモデルの特徴について説明し, Rで計算する方法にも言及した. さらに最近流行しているCOVID-19の研究を上記の古典的なモデルの拡張でやっている2つ見つけたので, それについても説明した. speakerdeck.com 以下は詳細な原稿 rpubs.com ソースコードもほぼ全てRpubsに上げたのでこっちはあまり見なくてもいい GitHub - Gedevan-Aleksizde/tokyor_20200229: 幻の Tokyo.R #84
ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatenablog.com 概要今やかなり使い古された感じのあるテーマだが, 統計学と機械学習の違いについて, 分析の対象が社会現象である場合に限定して自分なりの考えをまとめてみた. 例えば, 以下の, tjo.hatenablog.com でも説明が試みられていて, ここにあるように「統計学は説明すること重視し, 機械学習は予測性能を重視する」ということが重視されているというのは自分も同感で, さらにその後で言及されているように, 使用されている数学的な基礎づけは共通するものが多く, ただ解釈の違いが違いを生んでいるというのが強い. そこで, 社会現象を対象に分析する場合に限定して, なぜ社会科学*1で用いられる従来の統計学と機械学習が異なるのか, これからどう変わるの
次のページ
このページを最初にブックマークしてみませんか?
『ill-identified diary』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く