タグ

関連タグで絞り込む (334)

タグの絞り込みを解除

*dataに関するsh19910711のブックマーク (3,813)

  • BigQueryの便利な機能&コンソールのショートカット集

    前の記事では、BigQueryのざっくり概要を書きました。 今回はBigQueryを使う上でこれ知っておくと便利ですよ!という機能やTipsを書きたいと思います。 知っておくと便利な機能 メタデータを取得する ある程度データベースを触る人なら、スキーマやテーブルの情報を持っているメタデータがだいたい存在していて活用している人も多いと思います。 BigQueryでももちろん存在するので私がよく使うものを紹介していきます。 -- testdatasetデータセットのテーブル一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.TABLES; -- testdataset.testのテーブルのカラム一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.COLUMNS WHERE table_n

    BigQueryの便利な機能&コンソールのショートカット集
    sh19910711
    sh19910711 2024/06/12
    "データセットのデフォルト有効期限: 7.5日とかでも設定可能 / コンソールのショートカット: 「⌘/|」(コメントアウト切り替え)と「⇧⌘K」(行を削除)と「⌘D」(選択中の文字列に一致する次の文字列を追加選択)" 2022
  • 求人検索エンジンで使用するラベル付与の話 - Stanby Tech Blog

    求人検索エンジンで使用するラベル付与の話 はじめに スタンバイでは求人検索エンジンにラベル情報での検索を可能にしています。 ラベルとは求人情報や検索キーワードの特徴的な情報に対するTag付けと考えていただければイメージしやすいかと。 記事ではRuleによるラベル付けをテーマとしています。 ラベルの使い所 例として「住吉」という駅の求人を検索する場合を挙げます。住吉という駅は全国に下記の数存在します。 東京都 住吉駅 大阪府 住吉駅 熊県 住吉駅 長崎県 住吉駅 兵庫県 住吉駅(JR西日) 兵庫県 住吉駅(阪神電鉄) 「住吉駅」という単語のみで検索する際は上記全ての駅の求人データが対象となりますが、「半蔵門線 住吉駅」の場合は「半蔵門線」は東京にある路線なので、1の「東京都 住吉駅」のみが対象となって欲しいところです。しかし、「東京都 住吉」の求人データに「半蔵門線」の記述がない場合に

    求人検索エンジンで使用するラベル付与の話 - Stanby Tech Blog
    sh19910711
    sh19910711 2024/06/12
    "ラベル付けを行うにあたり考えられる手法は大きく分けてRuleベースと機械学習の2つ + どちらを採用するかというとHybridな形で行うのがBetter / 単純なものならば機械学習を導入しなくとも事足りる" 2022
  • DataExplorerパッケージで探索的データ解析を手助けする - Qiita

    概要 DataExplorerは探索的データ解析を手助けするR言語のパッケージ ggplot2パッケージをラップしており、関数ひとつでデータセットを可視化できる 可視化結果をまとめたHTML形式の定型レポート生成も手軽 前書き 探索的データ解析(EDA: Exploratory Data Analysis)とは? S-PLUS -トップ > 製品概要 > 探索的データ解析」より引用。 探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。 それ以前は、あらかじめモデルを用意して、データをあてはめて確率計算を行っていました。しかし現実には、複雑な現実のデータ構造の中から、最適

    DataExplorerパッケージで探索的データ解析を手助けする - Qiita
    sh19910711
    sh19910711 2024/06/12
    "DataExplorer: ggplot2パッケージをラップ + 関数ひとつでデータセットを可視化 + 特徴量エンジニアリングに役立てられる関数も定義 / 離散変数中にある、低頻度要素をひとつにまとめる関数" 2019
  • Python による確率分布の推定と描画

    確率変数が与えられたとき,取りうる値の対応する事象を列挙して確率を求めるのは面倒ですし, 一般に,確率変数の数値がどのように生成されたのか,すなわち,それぞれの数値にどの事象が対応しているのかにはあまり興味がありません.代わりに,数値と確率の対応関係に注目します.確率変数の数値に対して確率を対応させる関数を確率分布と言います.例えば,サイコロの出目 X と,2 つのサイコロの出目の和 X+Y の確率分布は下図のようになります. サイコロの例では確率変数の取る値が離散的でしたが,連続値を取る確率変数を考えることもできます.離散型の確率変数では各値に確率が対応しますが,連続型の確率変数では各値に確率密度が対応します(後述). 確率分布 章では,連続型の確率変数を想定して理論説明を行ないます 確率変数に対応する確率の見方として,確率密度関数 (Probability Density Funct

    Python による確率分布の推定と描画
    sh19910711
    sh19910711 2024/06/12
    "累積分布関数: 統計物理学(とそれを理論的土台とする社会経済物理学)分野では上側確率で定義する習慣 + 分野でよく登場する関数である指数分布やベキ分布を観察しやすい / ベキ分布の CDF は両対数空間で直線"
  • ガウス過程回帰(Gaussian Process Regression, GPR)

    sh19910711
    sh19910711 2024/06/12
    "念頭にあること: xの値が似ているサンプル同士はyの値も似ている→サンプル間におけるyの値の関係はxの値の関係から計算できる / 分布: xの値が1つ与えられたときyの値にばらつきがある" 2017
  • ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG

    こんにちは。検索基盤部の橘です。ZOZOTOWNでは、商品検索エンジンとしてElasticsearchを利用し、大規模なデータに対して高速な全文検索を実現しています。 Elasticsearchに関する取り組みは以下の記事をご覧ください。 techblog.zozo.com 検索基盤部では、ZOZOTOWNの検索結果の品質向上を目指し、新しい検索手法の導入を検討しています。記事ではベクトル検索と呼ばれる検索手法に関して得た知見を紹介します。 ※記事はElasticsearchバージョン8.9に関する内容となっています。 目次 目次 ベクトル検索とは ベクトル検索に期待すること Elasticsearchを使用したベクトル検索の導入 導入の簡略化 デプロイ可能な埋め込みモデル ベクトル検索のクエリ ハイブリッド検索とは Elasticsearchを用いたハイブリッド検索 RRF(Reci

    ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/06/12
    "Feature Extractionのタスクに対応しているモデルを選ぶ必要 / 事前学習済みモデルをファインチューニングしたモデルも使用でき + Hugging Face上のリポジトリにアップロードし、elandを使ってElasticsearchにアップロード"
  • [速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce | DevelopersIO

    [速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce あしざわです。 現在開催されているAWS re:Inforce 2024 のKeynote にて、CloudTrail LakeのAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) AWS What's newブログ、AWS Blogの両方で発表されています。 AWS Blogをサラッと確認したところ、Previewでのリリース、利用できるリージョンも限られているようですが、個人的に激アツなアップデートです。 ブログでは、アップデートの概要を確認して、アップデート内容を実際に試してみます。 概要 CloudTrail LakeはCloudTrailアクティビティログを集約、分析できるマネージドデータレイクです。 Clo

    [速報] CloudTrail LakeでAIを活用した自然言語によるクエリ生成機能が発表されました(Preview) #AWSreInfoce | DevelopersIO
    sh19910711
    sh19910711 2024/06/12
    "CloudTrail Lake: 元々サンプルクエリの生成機能が優秀だった / CloudTrailイベントはマルチリージョンで収集されているのでバージニア北部以外のリージョンのログもクエリできます / 対応している言語は英語のみ"
  • 意思決定に繋げるための因果推論(DID)と PythonによるCausalImpact

    理想の組織も自分たちで作ろう! ―LayerXの「全員採用」を支える文化 / How to create our own ideal team

    意思決定に繋げるための因果推論(DID)と PythonによるCausalImpact
    sh19910711
    sh19910711 2024/06/12
    "差分の差分法: 介入による効果を検証しやすい + データが取得できれば単純 / 並行トレンドが仮定できない場合は別のバイアスがかかっている可能性(例: クーポン配布ユーザーは元々ヘビーユーザーである)" 2021
  • BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 | DevelopersIO

    BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 こんにちは、みかみです。 州も梅雨入りの季節になってまいりましたが、沖縄はそろそろ梅雨明けです! やりたいこと BigQuery で実行している SQL のパフォーマンスチューニングをしたい BigQuery のアンチパターン SQL を使っていないか確認したい どんな DWH を使うにしろ、SQL チューニングは避けて通れない道ではないかと思います。 実行計画確認して、データ処理エンジンの思想に思いを馳せて・・・。 というのも、特に顕著な改善効果が得られた時にはこの上ない喜びを感じられる作業ですが、SQL が複雑だったり、大量の SQL を確認しないといけない場合は、心折れそうになる場合もあります。 BigQuery でも、クエリプランを確認しながら SQL をチュ

    BigQuery アンチパターンレコメンデーションツールで、パフォーマンスの悪い SQL を使っていないか確認してみる。 | DevelopersIO
    sh19910711
    sh19910711 2024/06/12
    "bigquery-antipattern-recognition: BigQuery のアンチパターン SQL を確認できるツール / INFORMATION_SCHEMA を参照して検証結果を BigQuery テーブルに格納するバッチジョブを作成しておけば、日々 SQL を検証・監視することが可能"
  • Solr Operator を利用して SolrCloud クラスタを GKE Autopilot に構築する (前編)

    単語の重み付けと類似度スコア Lucene / Solr では、ある検索キーワードに対して特定のドキュメントがどの程度マッチするのかを、類似度スコア (Relevance Score) と呼ばれるアルゴリズムにより計算しています。 Lucene / Solr 5 系までは TF-IDF (Term Frequency-Inverse Document Frequency) というアルゴリズムがデフォルトで使用されていました。 具体的には、TF 値 (単語の出現頻度) と IDF 値 (逆文書頻度) という2つの指標に基づいて計算されます。 TF 値 : ある文書の中である単語の出現回数が多ければスコアが増加する IDF 値 : 検索対象の全文書の中でその単語が出現する文書の数が少なければスコアが増加する 例えば、英単語の the, a, an, and, it などは TF 値は高くなりそ

    Solr Operator を利用して SolrCloud クラスタを GKE Autopilot に構築する (前編)
    sh19910711
    sh19910711 2024/06/12
    "Solr: 元々 Lucene のサブプロジェクトとして開始され、2021年に Apache の独立したトップレベルプロジェクトに昇格 / SolrCloud: ZooKeeper が必要になったり、従来のクラスタと比べて構成が複雑になってしまう" 2023
  • オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG

    はじめに こんにちは。MA部MA施策・運用改善チームの辻岡です。MA部では、ZOZOTOWNのメルマガ・アプリPUSH通知などの配信・分析等の用途で約数十TBのデータを運用しています。今回は長年MAのデータ基盤として利用してきたオンプレDWHをBigQueryに移行したおはなしをします。 この記事はこんな方におすすめ オンプレDWHからBigQuery移行を検討・実施してる方 ジョブ・スケジューラ、ETLツールの移行を検討・実施してる方 概要 オンプレDWHからBigQuery移行する前後の構成イメージを元に、今回の移行の話について概要を説明します。 次の図が移行前の構成図です。オンプレ環境のWindowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、データウェアハウス(以後オンプレDWH)に対してデータ生成や外部システムとの連携をしていました。 今回、以下を目的にオンプレDW

    オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/06/12
    "Windowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、オンプレDWHに対してデータ生成や外部システムとの連携 / BigQueryへの接続すら既存のライブラリでは困難な状態" 2022
  • 【データ分析】Elasticsearchのパイプクエリ言語ESQL - Qiita

    はじめに Elasticsearchは、新しいクエリ言語であるES|QL(Elasticsearch Query Language)の一般公開を発表しました。この記事では、ES|QLの機能と利点、そしてその導入による新しいデータ調査の可能性について詳しく紹介します。 デモサイト ES|QLとは何か? ES|QLは、データ調査を簡素化し、効率化するために設計された動的なクエリ言語です。従来のQueryDSLに代わり、シンプルで直感的なクエリ構文を提供し、データソースや構造に関係なく迅速なデータ検索を可能にします。特にパイプド構文により、複数の操作を連鎖させることで、複雑なデータ調査も簡単に行うことができます。 ES|QLの例 以下は、典型的なES|QLクエリの例です: FROM logs-system.auth* | WHERE host.os.type == "linux" AND eve

    【データ分析】Elasticsearchのパイプクエリ言語ESQL - Qiita
    sh19910711
    sh19910711 2024/06/12
    "ES|QL: 新しいクエリエンジンにより並行処理を強化し、検索速度を大幅に向上 / Kibanaと完全に統合されており、データの可視化と分析を一つの画面で行う / 長時間実行されるクエリを非同期で実行"
  • Tokyo.R RStudioでグラフをちょっときれいに出力する - CairoとAGG -

    sh19910711
    sh19910711 2024/06/12
    "RStudioではOSのデフォルトの他にCairoとAGG (Anti-Grain Geometry)が選べる / アンチエイリアスの効いたなめらかな描画 / AGGはCairoより高速 + 2006年で開発が止まっている" 2022
  • Rで動学的パネルデータ分析:plm、panelvarパッケージをつかったGMM推定 - StatsBeginner: 初学者の統計学習ノート

    plmパッケージとpanelvarパッケージ 最近、パネルデータを扱うことが増えてきたのだが、パネルデータで動学的な(つまりt-1期とかのラグ項が出てくる)分析をやろうとすると最小二乗法ではなくGMM推定量を用いる必要がある。 備忘として、動学的パネルデータ分析(ダイナミックパネル分析)の基的な考え方とRのパッケージの使いかたをここにメモしておこうと思う。といっても自分自身の理解もだいぶあやふやで、色々間違いもありそうなので、お読みになった方から指摘いただけると大変助かります…(汗) Rの場合、結論から言うとまずは{plm}パッケージを使うのがいいと思う。いわゆる「パネルVAR」の形で分析したいなら、2018年に開発されたらしい{panelvar}パッケージを使うことができるのだが、後述するとおり{panelvar}のほうにはまだ不便なところもあって、今のところ、なるべく{plm}ででき

    Rで動学的パネルデータ分析:plm、panelvarパッケージをつかったGMM推定 - StatsBeginner: 初学者の統計学習ノート
    sh19910711
    sh19910711 2024/06/12
    "社会調査データを扱う場合に発生する、OLSでは対処できない問題の種類、原因、対処法 / 千木良・早川・山本(2011)『動学的パネルデータ分析』 / 非常に読みやすく実務的な利用にも配慮された教科書" 2020
  • 回帰分析の悩みどころ (「アヒル本」7.1-7.5) [スライド紹介]

    こんにちは。mutopsyです。この記事は,『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4) で使用したスライドの紹介記事です。 『StanとRでベイズ統計モデリング』,通称「アヒル」のChapter 7「回帰分析の悩みどころ」の前半部分を解説しているスライドです。回帰分析を用いる際に留意するべき点,あるいは工夫できる点として,「交互作用」「対数をとるか否か」「非線形の関係」「多重共線性」「交絡」の5つに焦点を当てています。内容に関してはスライドをご覧頂くか,「アヒル」を読んで頂ければ良いかと思いますので,この記事ではスライド内で紹介しているStanコードを(コピペしやすいように)改めて紹介したいと思います。 以下のStanコードは,2つの説明変数(イケメンか否か・年収)で1つの応答変数(魅力)を予測する重回帰モデルです(この例は清水先生の記事を参考にしまし

    回帰分析の悩みどころ (「アヒル本」7.1-7.5) [スライド紹介]
    sh19910711
    sh19910711 2024/06/12
    "モデリングの感覚をつかむには,自分で手を動かしてみるのが一番 / その点,アヒル本ではStanコードの各行の意味までしっかりと説明がなされているので,実際にコードを走らせながら読めば相当身になる" 2017
  • Pythonで因果推論(3)~介入とランダム化比較試験~

    はじめに 介入やランダム化比較実験(RCT)について、Pythonによる実装を交えてまとめました。記事では、グラフ的な表現や調整に関する記述はなく、介入操作の概要と(調整を必要としない)ランダム化比較実験についてのみ取り扱っています。内容について誤り等がありましたら、コメントにてご指摘いただけますと幸いです。 介入 介入とは、「因果推論をする際に、とある変数の値を変化させる操作」のことを表します。そして、多くの場合では介入操作の因果効果を推定することが、その因果推論の目的となっています。 介入操作の具体例 ここで具体例として、こちらの記事で用いた「とある大学に所属する経済学部生の、計量経済学の試験の得点Yに対する特別講義(以下、特講)受講Dの効果」を考えたいと思います。 こちらの記事では、特講の受講するかどうかDは学生個人の学習意欲Xに依存していました。すなわち、学習意欲Xが高い学生ほど

    Pythonで因果推論(3)~介入とランダム化比較試験~
    sh19910711
    sh19910711 2024/06/12
    "「出席番号がi番未満の学生は特講を受講し(𝐷=1)、i番以上の学生は特講を受講しない(𝐷=0)でください」というように、(無理やり)特講の受講を割り当てる場合、特講を受講する・しないというのは介入になります" 2022
  • 「StanとRでベイズ統計モデリング」のメモ - われがわログ

    確率的プログラミングとは 何がうれしい? 書の主張 階層モデル 伝統的な統計論とベイズ統計との違い 思想 信頼区間 その他メモ 尤度と事後分布 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (10件) を見る 確率的プログラミングとは 随所で「確率的プログラミング」という言葉を見かけ、気になっていたので書を読んだ。そのときのメモ。 最初、この単語は確率論を考慮したプログラミングを指すのか?と思っていたがそうではなく、ベイズ統計モデリングをするための言語とのことだった。 数理最適化計算のためのモデリング言語でAMPLというのがあるが、それの確率モデリング版と考えるのがしっくりきた。「確率的プログラミング」でなく「ベイズ統計モデリング言語」と呼んだ

    「StanとRでベイズ統計モデリング」のメモ - われがわログ
    sh19910711
    sh19910711 2024/06/12
    "数理最適化計算のためのモデリング言語でAMPLというのがある / 確率的プログラミング言語の良いところは、使用者がモデリングに集中できるところ / 従来だと式の導出などが手間だったらしいが、それをうまく隠蔽" 2019
  • mlflowを使ってデータ分析サイクルの効率化する方法を考える - Qiita

    この記事について mlflowという機械学習の管理をできるPythonライブラリについて説明する mlflowを使って、データ分析サイクルを効率よく回せるかを考える mlflowとは 概要 mlflowは、機械学習の開発を行う上で複雑になりがちな実行環境、モデル、パラメータ、評価結果、その他もろもろの管理を行ってくれるプラットフォームです。モデル作成後のデプロイについても、予測結果を返してくれる簡単なAPIを提供できる機能でカバーしています。 機械学習を行う場合、scikit-learn(または、これに準拠したもの)を用いることが多いと思うので、これを使うことを前提に説明していきます。(scikit-learn以外にも、H2O、Keras、pytorch、tensorflowといったディープラーニング向けのライブラリにも対応しています。) mlflowは以下の大きな3つの機能で構成されてい

    mlflowを使ってデータ分析サイクルの効率化する方法を考える - Qiita
    sh19910711
    sh19910711 2024/06/12
    "前処理を行ったときのソースコードと、前処理後のデータはバージョン管理を行ってそのデータがどの処理を行って生成されたものかを把握できるようにしないと、再現性の担保ができない" 2018
  • 簡単にLLMをFine-Tuning!CortexLLM-Fine-Tuning

    こんにちはkirigayaです! 少し前にSnowflakeの大型イベントDATA CLOUD SUMMIT 24が開催されました! 今回は特に激アツや〜〜〜と感じた以下 ノートブックからGPUコンテナ使用 CortexLLMのFine-Tuning この記事ではCortexLLMのFine-Tuningについて調査していきたいと思います!!! どちらの機能もすごく欲しかったので発表された時は家の中で跳ね回っていましたw 夢を叶えてくれるSnowflake さっそく新機能のダークモードがお出迎えしてくれます Fine-Tuning ドキュメント 中身はPEFTを使っているようです。 中のどれ?って感じですが... 微調整可能なモデル一覧 Mistral AI の 70 億パラメータの大規模言語モデルは、最も単純な要約、構造化、質問への回答などのタスクを迅速に実行する必要がある場合に最適です

    簡単にLLMをFine-Tuning!CortexLLM-Fine-Tuning
    sh19910711
    sh19910711 2024/06/12
    "CortexLLMのFine-Tuning: テーブル、ビューから作成可能でクエリ結果にprompt、completion列が存在している必要 + 余分な列がある場合は無視される + データは投入時に自動でtrain,testで分割"
  • 【Juliaで因果推論】Potential Outcomes (潜在的結果変数)

    分析対象のアウトカムYには2つのpotential outcomes \{Y^0, Y^1\}が想定できるが,現実のデータでは片方のみしか観測されない. 分析で知りたい因果効果は平均的な処置効果(ATE, ATT),ナイーブな引き算(E[Y|D=1]-E[Y|D=0])で因果効果を求めてもselection biasが残るので因果効果を正しく推定できない. CIA: \{Y^0, Y^1\} \perp D | Xが成り立つとき,selection biasは消える. potential outcomesのフレームワークを使ってselection biasがない理想的な状況(CIA)を思い描くことで,必要な分析のデザインが見えてくる. 私たちが答えの知りたい因果関係の"問い"にはいくつかのパターンがありますが[1],ここではまず,「もし〇〇したらYはどう変わるか?()」という問いに着目しま

    【Juliaで因果推論】Potential Outcomes (潜在的結果変数)
    sh19910711
    sh19910711 2024/06/12
    "分析で知りたい因果効果は平均的な処置効果(ATE, ATT) / ナイーブな引き算で因果効果を求めてもselection biasが残る / 因果効果に迫るためには,「他の条件を一定にしたとき」という考えが重要" 2022