タグ

ブックマーク / zenn.dev/dataheroes (6)

  • Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた

    記事の背景 記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。 会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。 中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas

    Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
    sh19910711
    sh19910711 2024/04/28
    "Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見 / 本機能を Snowflake でのインフラ構成管理に使えると指摘" 2023
  • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

    これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

    dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
    sh19910711
    sh19910711 2024/04/23
    "宣言的なデータパイプラインの全貌徐々に見え隠れ + これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポート / ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現" 2023
  • 2022年のSnowflakeリリースノートを読んで1年を振り返る

    記事は、 Snowflake Advent Calendar 2022 の 3 日目です。 Snowflake Data Superhero の菱沼です。 2022年はどんな年でしたか? Snowflakeはクラウドネイティブなデータウェアハウス製品としてはすでに枯れており、基的な機能はすべて揃っている感じがします。 例えば基的な機能の例としては次のようなものがあります コンピューティングとストレージの分離 標準SQLのサポート 列レベル、行レベルでのマスキング、ポリシースタイルの動的なマスキング RBACな権限制御、SAMLやSCIMとの統合 クラウドプラットフォームを跨いだ統合 そんな枯れているはずのSnowflakeですが、2022年もたくさんの機能がリリースされました。 2022年にどんな機能をリリース(主にパブリックプレビュー、GA)してきたかを、リリースノートを振り返って

    2022年のSnowflakeリリースノートを読んで1年を振り返る
    sh19910711
    sh19910711 2022/12/11
    "Snowpark: JavaのGA(5月)、PythonのGA(11月) / バッチAPI: 入力をpandasデータフレーム、出力もpandasデータフレームとするPython UDF / GCP東京リージョン対応が以前から要望が出ている + 対応が早く進むイメージは持てなさそう"
  • Twitter Space で Snowflake 雑談会第 2 回をやった

    日、2022年9月14日、Twitter Space 上で Snowflake ユーザ向けの雑談会第2回をやりました。 これは、Snowflake ユーザが集い、みんなに聞きたいこと、みんなに紹介したいことを気軽に話し合う会です。 今回は10人くらい参加、4-5人ほどが議論に参加してくれました。ありがとうございます。 月1 くらいで開催予定ですので、都合がつけばまたご参加ください。 今回の内容 Native App Framework 先日、Snowvillage でも Native App Framework を紹介してくださった truestar の方が Native App Framework を紹介してくれました。 これは App Store 経由でアプリケーションを配布することで、利用者がデータを第3社に出さずに自社のデータを操作するアプリを利用できると言うものだそうです。 私

    Twitter Space で Snowflake 雑談会第 2 回をやった
    sh19910711
    sh19910711 2022/09/16
    "ぶっちゃけ安いの?高いの?と言う話題 / インフラコストだけでなく、データパイプラインの開発コストも想定する必要がある / 処理するデータ量に比例して、インフラコストが増大してしまう可能性があるのは事実"
  • Terraform で Snowflake の何を管理するべきか

    記事は、Snowflake Advent Calendar 2021 の 25 日目です。 この記事の背景 以前、Terraform(インフラの構成管理ツール)を使って Snowflake のリソースを管理し始めたことを書きました。 Snwoflake のユーザコミュニティである SnowVillage でも、Terraform について発表しました。 Terraform はプラグインアーキテクチャを採用しており、 Snowflake プラグイン もコミュニティベースで開発されています。この Snowflake プラグインを使うと、Snowflake のリソースの構成を Terraform の設定ファイルとして記述し、デプロイを自動化することができます。 記事やコミュニティでの発表をした後、SnowVillage 内のコメントを見ていると、コミュニティでも使っている方がいらっしゃるようで

    Terraform で Snowflake の何を管理するべきか
    sh19910711
    sh19910711 2022/07/18
    "Terraformの表記法を使って記述されたSnowflakeのリソースからSQLを生成 / アナリスト系の人にSQLとは表記が全く異なるTerraformを覚えてもらうのも難しい / SQLが使える dbt などがデータ領域のモデリング・デプロイに良い"
  • AWS DMS と Snowpipe を活用した Snowflake 用リアルタイムデータパイプラインの構築

    (画像は Snowflake 公式 Web サイトのものを流用) 概要 データエンジニアとして働いていると RDB 上での変更をリアルタイムで近い形でデータウェアハウスに転送し、即座にデータ分析に利用できるようにしたいというニーズについて相談を受ける機会があります。 筆者は、RDB からデータウェアハウスの間のリアルタイムデータパイプライン部分を OSS 中心とクラウドサービス中心の 2 つの構成で構築した経験があります。その際の経験を踏まえて、両者の簡単な比較について紹介します。 (前職)OSS 中心のデータパイプライン RDB・・・AWS RDS Aurora (PostgreSQL) BigQuery データパイプライン・・・Kafka、Debezium コンテナオーケストレーション・・・データパイプラインを AWS EKS 上 k8s クラスタにデプロイ (現職)クラウドサービス中

    AWS DMS と Snowpipe を活用した Snowflake 用リアルタイムデータパイプラインの構築
  • 1