[B! *data] sh19910711のブックマーク

BigQueryの便利な機能＆コンソールのショートカット集

前の記事では、BigQueryのざっくり概要を書きました。今回はBigQueryを使う上でこれ知っておくと便利ですよ！という機能やTipsを書きたいと思います。知っておくと便利な機能メタデータを取得するある程度データベースを触る人なら、スキーマやテーブルの情報を持っているメタデータがだいたい存在していて活用している人も多いと思います。 BigQueryでももちろん存在するので私がよく使うものを紹介していきます。 -- testdatasetデータセットのテーブル一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.TABLES; -- testdataset.testのテーブルのカラム一覧を取得する SELECT　*　FROM testdataset.INFORMATION_SCHEMA.COLUMNS WHERE table_n

sh19910711 2024/06/12

"データセットのデフォルト有効期限: 7.5日とかでも設定可能 / コンソールのショートカット: 「⌘/|」（コメントアウト切り替え）と「⇧⌘K」（行を削除）と「⌘D」（選択中の文字列に一致する次の文字列を追加選択）" 2022

リンク

求人検索エンジンで使用するラベル付与の話 - Stanby Tech Blog

求人検索エンジンで使用するラベル付与の話はじめにスタンバイでは求人検索エンジンにラベル情報での検索を可能にしています。ラベルとは求人情報や検索キーワードの特徴的な情報に対するTag付けと考えていただければイメージしやすいかと。本記事ではRuleによるラベル付けをテーマとしています。ラベルの使い所例として「住吉」という駅の求人を検索する場合を挙げます。住吉という駅は全国に下記の数存在します。東京都　住吉駅大阪府　住吉駅熊本県　住吉駅長崎県　住吉駅兵庫県　住吉駅（JR西日本）兵庫県　住吉駅（阪神電鉄）「住吉駅」という単語のみで検索する際は上記全ての駅の求人データが対象となりますが、「半蔵門線住吉駅」の場合は「半蔵門線」は東京にある路線なので、1の「東京都　住吉駅」のみが対象となって欲しいところです。しかし、「東京都　住吉」の求人データに「半蔵門線」の記述がない場合に

sh19910711 2024/06/12

"ラベル付けを行うにあたり考えられる手法は大きく分けてRuleベースと機械学習の2つ + どちらを採用するかというとHybridな形で行うのがBetter / 単純なものならば機械学習を導入しなくとも事足りる" 2022

リンク

DataExplorerパッケージで探索的データ解析を手助けする - Qiita

概要 DataExplorerは探索的データ解析を手助けするR言語のパッケージ ggplot2パッケージをラップしており、関数ひとつでデータセットを可視化できる可視化結果をまとめたHTML形式の定型レポート生成も手軽前書き探索的データ解析(EDA: Exploratory Data Analysis)とは？ S-PLUS -トップ > 製品概要 > 探索的データ解析」より引用。探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。それ以前は、あらかじめモデルを用意して、データをあてはめて確率計算を行っていました。しかし現実には、複雑な現実のデータ構造の中から、最適

sh19910711 2024/06/12

"DataExplorer: ggplot2パッケージをラップ + 関数ひとつでデータセットを可視化 + 特徴量エンジニアリングに役立てられる関数も定義 / 離散変数中にある、低頻度要素をひとつにまとめる関数" 2019

リンク

Python による確率分布の推定と描画

確率変数が与えられたとき，取りうる値の対応する事象を列挙して確率を求めるのは面倒ですし，一般に，確率変数の数値がどのように生成されたのか，すなわち，それぞれの数値にどの事象が対応しているのかにはあまり興味がありません．代わりに，数値と確率の対応関係に注目します．確率変数の数値に対して確率を対応させる関数を確率分布と言います．例えば，サイコロの出目 X と，2 つのサイコロの出目の和 X+Y の確率分布は下図のようになります．サイコロの例では確率変数の取る値が離散的でしたが，連続値を取る確率変数を考えることもできます．離散型の確率変数では各値に確率が対応しますが，連続型の確率変数では各値に確率密度が対応します（後述）．確率分布本章では，連続型の確率変数を想定して理論説明を行ないます確率変数に対応する確率の見方として，確率密度関数 (Probability Density Funct

sh19910711 2024/06/12

"累積分布関数: 統計物理学（とそれを理論的土台とする社会経済物理学）分野では上側確率で定義する習慣 + 分野でよく登場する関数である指数分布やベキ分布を観察しやすい / ベキ分布の CDF は両対数空間で直線"

リンク

ガウス過程回帰(Gaussian Process Regression, GPR)

sh19910711 2024/06/12

"念頭にあること: xの値が似ているサンプル同士はyの値も似ている→サンプル間におけるyの値の関係はxの値の関係から計算できる / 分布: xの値が1つ与えられたときyの値にばらつきがある" 2017

リンク

ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG

こんにちは。検索基盤部の橘です。ZOZOTOWNでは、商品検索エンジンとしてElasticsearchを利用し、大規模なデータに対して高速な全文検索を実現しています。 Elasticsearchに関する取り組みは以下の記事をご覧ください。 tech blog.zozo.com 検索基盤部では、ZOZOTOWNの検索結果の品質向上を目指し、新しい検索手法の導入を検討しています。本記事ではベクトル検索と呼ばれる検索手法に関して得た知見を紹介します。 ※本記事はElasticsearchバージョン8.9に関する内容となっています。目次目次ベクトル検索とはベクトル検索に期待すること Elasticsearchを使用したベクトル検索の導入導入の簡略化デプロイ可能な埋め込みモデルベクトル検索のクエリハイブリッド検索とは Elasticsearchを用いたハイブリッド検索 RRF(Reci

sh19910711 2024/06/12

"Feature Extractionのタスクに対応しているモデルを選ぶ必要 / 事前学習済みモデルをファインチューニングしたモデルも使用でき + Hugging Face上のリポジトリにアップロードし、elandを使ってElasticsearchにアップロード"

リンク

[速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce | DevelopersIO

[速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce あしざわです。現在開催されているAWS re:Inforce 2024 のKeynote にて、CloudTrail LakeのAIを活用した自然言語によるクエリ生成機能が発表されました（Preview） AWS What's newブログ、AWS Blogの両方で発表されています。 AWS Blogをサラッと確認したところ、Previewでのリリース、利用できるリージョンも限られているようですが、個人的に激アツなアップデートです。本ブログでは、アップデートの概要を確認して、アップデート内容を実際に試してみます。概要 CloudTrail LakeはCloudTrailアクティビティログを集約、分析できるマネージドデータレイクです。 Clo

sh19910711 2024/06/12

"CloudTrail Lake: 元々サンプルクエリの生成機能が優秀だった / CloudTrailイベントはマルチリージョンで収集されているのでバージニア北部以外のリージョンのログもクエリできます / 対応している言語は英語のみ"

リンク

意思決定に繋げるための因果推論（DID）と PythonによるCausalImpact

理想の組織も自分たちで作ろう！ ―LayerXの「全員採用」を支える文化 / How to create our own ideal team

sh19910711 2024/06/12

"差分の差分法: 介入による効果を検証しやすい + データが取得できれば単純 / 並行トレンドが仮定できない場合は別のバイアスがかかっている可能性（例: クーポン配布ユーザーは元々ヘビーユーザーである）" 2021

リンク

BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 | DevelopersIO

BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。こんにちは、みかみです。本州も梅雨入りの季節になってまいりましたが、沖縄はそろそろ梅雨明けです！やりたいこと BigQuery で実行している SQL のパフォーマンスチューニングをしたい BigQuery のアンチパターン SQL を使っていないか確認したいどんな DWH を使うにしろ、SQL チューニングは避けて通れない道ではないかと思います。実行計画確認して、データ処理エンジンの思想に思いを馳せて・・・。というのも、特に顕著な改善効果が得られた時にはこの上ない喜びを感じられる作業ですが、SQL が複雑だったり、大量の SQL を確認しないといけない場合は、心折れそうになる場合もあります。 BigQuery でも、クエリプランを確認しながら SQL をチュ

sh19910711 2024/06/12

"bigquery-antipattern-recognition: BigQuery のアンチパターン SQL を確認できるツール / INFORMATION_SCHEMA を参照して検証結果を BigQuery テーブルに格納するバッチジョブを作成しておけば、日々 SQL を検証・監視することが可能"

リンク

Solr Operator を利用して SolrCloud クラスタを GKE Autopilot に構築する (前編)

単語の重み付けと類似度スコア Lucene / Solr では、ある検索キーワードに対して特定のドキュメントがどの程度マッチするのかを、類似度スコア (Relevance Score) と呼ばれるアルゴリズムにより計算しています。 Lucene / Solr 5 系までは TF-IDF (Term Frequency-Inverse Document Frequency) というアルゴリズムがデフォルトで使用されていました。具体的には、TF 値 (単語の出現頻度) と IDF 値 (逆文書頻度) という２つの指標に基づいて計算されます。 TF 値 : ある文書の中である単語の出現回数が多ければスコアが増加する IDF 値 : 検索対象の全文書の中でその単語が出現する文書の数が少なければスコアが増加する例えば、英単語の the, a, an, and, it などは TF 値は高くなりそ

sh19910711 2024/06/12

"Solr: 元々 Lucene のサブプロジェクトとして開始され、2021年に Apache の独立したトップレベルプロジェクトに昇格 / SolrCloud: ZooKeeper が必要になったり、従来のクラスタと比べて構成が複雑になってしまう" 2023

リンク

オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG

はじめにこんにちは。MA部MA施策・運用改善チームの辻岡です。MA部では、ZOZOTOWNのメルマガ・アプリPUSH通知などの配信・分析等の用途で約数十TBのデータを運用しています。今回は長年MAのデータ基盤として利用してきたオンプレDWHをBigQueryに移行したおはなしをします。この記事はこんな方におすすめオンプレDWHからBigQuery移行を検討・実施してる方ジョブ・スケジューラ、ETLツールの移行を検討・実施してる方概要オンプレDWHからBigQuery移行する前後の構成イメージを元に、今回の移行の話について概要を説明します。次の図が移行前の構成図です。オンプレ環境のWindowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、データウェアハウス（以後オンプレDWH）に対してデータ生成や外部システムとの連携をしていました。今回、以下を目的にオンプレDW

sh19910711 2024/06/12

"Windowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、オンプレDWHに対してデータ生成や外部システムとの連携 / BigQueryへの接続すら既存のライブラリでは困難な状態" 2022

リンク

【データ分析】Elasticsearchのパイプクエリ言語ESQL - Qiita

はじめに Elasticsearchは、新しいクエリ言語であるES|QL（Elasticsearch Query Language）の一般公開を発表しました。この記事では、ES|QLの機能と利点、そしてその導入による新しいデータ調査の可能性について詳しく紹介します。デモサイト ES|QLとは何か？ ES|QLは、データ調査を簡素化し、効率化するために設計された動的なクエリ言語です。従来のQueryDSLに代わり、シンプルで直感的なクエリ構文を提供し、データソースや構造に関係なく迅速なデータ検索を可能にします。特にパイプド構文により、複数の操作を連鎖させることで、複雑なデータ調査も簡単に行うことができます。 ES|QLの例以下は、典型的なES|QLクエリの例です： FROM logs-system.auth* | WHERE host.os.type == "linux" AND eve

sh19910711 2024/06/12

"ES|QL: 新しいクエリエンジンにより並行処理を強化し、検索速度を大幅に向上 / Kibanaと完全に統合されており、データの可視化と分析を一つの画面で行う / 長時間実行されるクエリを非同期で実行"

リンク

Tokyo.R RStudioでグラフをちょっときれいに出力する - CairoとAGG -

sh19910711 2024/06/12

"RStudioではOSのデフォルトの他にCairoとAGG (Anti-Grain Geometry)が選べる / アンチエイリアスの効いたなめらかな描画 / AGGはCairoより高速 + 2006年で開発が止まっている" 2022

リンク

Rで動学的パネルデータ分析：plm、panelvarパッケージをつかったGMM推定 - StatsBeginner: 初学者の統計学習ノート

plmパッケージとpanelvarパッケージ最近、パネルデータを扱うことが増えてきたのだが、パネルデータで動学的な（つまりt-1期とかのラグ項が出てくる）分析をやろうとすると最小二乗法ではなくGMM推定量を用いる必要がある。備忘として、動学的パネルデータ分析（ダイナミックパネル分析）の基本的な考え方とRのパッケージの使いかたをここにメモしておこうと思う。といっても自分自身の理解もだいぶあやふやで、色々間違いもありそうなので、お読みになった方から指摘いただけると大変助かります…（汗） Rの場合、結論から言うとまずは{plm}パッケージを使うのがいいと思う。いわゆる「パネルVAR」の形で分析したいなら、2018年に開発されたらしい{panelvar}パッケージを使うことができるのだが、後述するとおり{panelvar}のほうにはまだ不便なところもあって、今のところ、なるべく{plm}ででき

sh19910711 2024/06/12

"社会調査データを扱う場合に発生する、OLSでは対処できない問題の種類、原因、対処法 / 千木良・早川・山本（2011）『動学的パネルデータ分析』 / 非常に読みやすく実務的な利用にも配慮された教科書" 2020

リンク

回帰分析の悩みどころ (「アヒル本」7.1-7.5) [スライド紹介]

こんにちは。mutopsyです。この記事は，『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4) で使用したスライドの紹介記事です。『StanとRでベイズ統計モデリング』，通称「アヒル本」のChapter 7「回帰分析の悩みどころ」の前半部分を解説しているスライドです。回帰分析を用いる際に留意するべき点，あるいは工夫できる点として，「交互作用」「対数をとるか否か」「非線形の関係」「多重共線性」「交絡」の5つに焦点を当てています。内容に関してはスライドをご覧頂くか，「アヒル本」を読んで頂ければ良いかと思いますので，この記事ではスライド内で紹介しているStanコードを（コピペしやすいように）改めて紹介したいと思います。以下のStanコードは，2つの説明変数（イケメンか否か・年収）で1つの応答変数（魅力）を予測する重回帰モデルです（この例は清水先生の記事を参考にしまし

sh19910711 2024/06/12

"モデリングの感覚をつかむには，自分で手を動かしてみるのが一番 / その点，アヒル本ではStanコードの各行の意味までしっかりと説明がなされているので，実際にコードを走らせながら読めば相当身になる" 2017

リンク

Pythonで因果推論(3)~介入とランダム化比較試験~

はじめに介入やランダム化比較実験(RCT)について、Pythonによる実装を交えてまとめました。本記事では、グラフ的な表現や調整に関する記述はなく、介入操作の概要と(調整を必要としない)ランダム化比較実験についてのみ取り扱っています。内容について誤り等がありましたら、コメントにてご指摘いただけますと幸いです。介入介入とは、「因果推論をする際に、とある変数の値を変化させる操作」のことを表します。そして、多くの場合では介入操作の因果効果を推定することが、その因果推論の目的となっています。介入操作の具体例ここで具体例として、こちらの記事で用いた「とある大学に所属する経済学部生の、計量経済学の試験の得点Yに対する特別講義(以下、特講)受講Dの効果」を考えたいと思います。こちらの記事では、特講の受講するかどうかDは学生個人の学習意欲Xに依存していました。すなわち、学習意欲Xが高い学生ほど

sh19910711 2024/06/12

"「出席番号がi番未満の学生は特講を受講し(𝐷=1)、i番以上の学生は特講を受講しない(𝐷=0)でください」というように、(無理やり)特講の受講を割り当てる場合、特講を受講する・しないというのは介入になります" 2022

リンク

「StanとRでベイズ統計モデリング」のメモ - われがわログ

確率的プログラミングとは何がうれしい？本書の主張階層モデル伝統的な統計論とベイズ統計との違い思想信頼区間その他メモ尤度と事後分布 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見る確率的プログラミングとは随所で「確率的プログラミング」という言葉を見かけ、気になっていたので本書を読んだ。そのときのメモ。最初、この単語は確率論を考慮したプログラミングを指すのか？と思っていたがそうではなく、ベイズ統計モデリングをするための言語とのことだった。数理最適化計算のためのモデリング言語でAMPLというのがあるが、それの確率モデリング版と考えるのがしっくりきた。「確率的プログラミング」でなく「ベイズ統計モデリング言語」と呼んだ

sh19910711 2024/06/12

"数理最適化計算のためのモデリング言語でAMPLというのがある / 確率的プログラミング言語の良いところは、使用者がモデリングに集中できるところ / 従来だと式の導出などが手間だったらしいが、それをうまく隠蔽" 2019

リンク

mlflowを使ってデータ分析サイクルの効率化する方法を考える - Qiita

この記事について mlflowという機械学習の管理をできるPythonライブラリについて説明する mlflowを使って、データ分析サイクルを効率よく回せるかを考える mlflowとは概要 mlflowは、機械学習の開発を行う上で複雑になりがちな実行環境、モデル、パラメータ、評価結果、その他もろもろの管理を行ってくれるプラットフォームです。モデル作成後のデプロイについても、予測結果を返してくれる簡単なAPIを提供できる機能でカバーしています。機械学習を行う場合、scikit-learn(または、これに準拠したもの)を用いることが多いと思うので、これを使うことを前提に説明していきます。(scikit-learn以外にも、H2O、Keras、pytorch、tensorflowといったディープラーニング向けのライブラリにも対応しています。) mlflowは以下の大きな3つの機能で構成されてい

sh19910711 2024/06/12

"前処理を行ったときのソースコードと、前処理後のデータはバージョン管理を行ってそのデータがどの処理を行って生成されたものかを把握できるようにしないと、再現性の担保ができない" 2018

リンク

簡単にLLMをFine-Tuning！CortexLLM-Fine-Tuning

こんにちはkirigayaです！少し前にSnowflakeの大型イベントDATA CLOUD SUMMIT 24が開催されました！今回は特に激アツや〜〜〜と感じた以下ノートブックからGPUコンテナ使用 CortexLLMのFine-Tuning この記事ではCortexLLMのFine-Tuningについて調査していきたいと思います！！！どちらの機能もすごく欲しかったので発表された時は家の中で跳ね回っていましたw 夢を叶えてくれるSnowflake さっそく新機能のダークモードがお出迎えしてくれます Fine-Tuning ドキュメント中身はPEFTを使っているようです。中のどれ？って感じですが... 微調整可能なモデル一覧 Mistral AI の 70 億パラメータの大規模言語モデルは、最も単純な要約、構造化、質問への回答などのタスクを迅速に実行する必要がある場合に最適です

sh19910711 2024/06/12

"CortexLLMのFine-Tuning: テーブル、ビューから作成可能でクエリ結果にprompt、completion列が存在している必要 + 余分な列がある場合は無視される + データは投入時に自動でtrain,testで分割"

リンク

【Juliaで因果推論】Potential Outcomes (潜在的結果変数)

分析対象のアウトカムYには2つのpotential outcomes \{Y^0, Y^1\}が想定できるが，現実のデータでは片方のみしか観測されない．分析で知りたい因果効果は平均的な処置効果(ATE, ATT)，ナイーブな引き算(E[Y|D=1]-E[Y|D=0])で因果効果を求めてもselection biasが残るので因果効果を正しく推定できない． CIA: \{Y^0, Y^1\} \perp D | Xが成り立つとき，selection biasは消える． potential outcomesのフレームワークを使ってselection biasがない理想的な状況(CIA)を思い描くことで，必要な分析のデザインが見えてくる．私たちが答えの知りたい因果関係の"問い"にはいくつかのパターンがありますが[1]，ここではまず，「もし〇〇したらYはどう変わるか?()」という問いに着目しま

sh19910711 2024/06/12

"分析で知りたい因果効果は平均的な処置効果(ATE, ATT) / ナイーブな引き算で因果効果を求めてもselection biasが残る / 因果効果に迫るためには，「他の条件を一定にしたとき」という考えが重要" 2022

リンク

はてなブックマーク

タグ

関連タグで絞り込む (334)

*dataに関するsh19910711のブックマーク (3,813)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス