タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

MLOpsとKubernetesに関するmisshikiのブックマーク (4)

  • GKEでMLバッチ運用のコツ - エムスリーテックブログ

    この記事はエムスリーAdvent Calendar 2023とMLOps Advent Calendar 2023の12日目の記事です。 AI機械学習チームの北川です。 最近はのかまってアピールがすごすぎて、よく仕事の邪魔されます。 かまって欲しがる 現在AI機械学習チームではMLのバッチをGoogle Kubernetes Engine(GKE)上で運用しています。 現在数えてみたところ240個以上のバッチがGKE上で動いているようです。 AI機械学習チームでは2019年頃から約4年ほどGKE上でMLバッチを運用しています。 その間にコストの最適化や安定したバッチの運用などに力を入れてきました。 この記事では、主にスケールインとコスト最適化について説明しようと思います。 チームのMLについて全体を把握したい場合は以下の記事が詳しいです。 www.m3tech.blog GKEの

    GKEでMLバッチ運用のコツ - エムスリーテックブログ
  • gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ

    初めまして!2023年3月前半にエムスリーのAIチームで10日間インターンに参加していた小栗 (@irungo_ic )です。 インターンでは、エムスリー発の機械学習パイプラインOSSであるgokart をKubernetes上で高速にかつ簡単に実行できるようになるライブラリであるkannon('cannon'と同じ発音!)をゼロから実装し、OSSとして公開しました。 github.com この記事ではkannonの技術的な解説、インターンに参加した感想をお伝えします! gokartの概要 gokartの抱えていた課題 シングルスレッドでの逐次実行により実行時間が長くなってしまう GKEのリソースを効率的に使えない kannonの概要 kannonの使い方 gokart kannon gokart kannon 補足 kannonのアーキテクチャ kannonの実装 1. Task Que

    gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ
    misshiki
    misshiki 2023/03/15
    “エムスリー発の機械学習パイプラインOSSであるgokart をKubernetes上で高速にかつ簡単に実行できるようになるライブラリであるkannon('cannon'と同じ発音!)をゼロから実装し、OSSとして公開”
  • PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021

    Preferred Networks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのが Kubernetes を用いて構築しているオンプレミス/ベアメタルの GPU クラスタです。 セッションでは、PFN が Kubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。また Kubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Clus

    PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
    misshiki
    misshiki 2021/04/19
    53ページのスライド資料。
  • AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括部でYahoo!ショッピングやPayPayモールのおすすめ機能(レコメンドシステム)の開発を担当している正沢です。 この記事では、別々に作られた複数の機械学習のバッチジョブ管理システムをApache Airflow(以降、Airflowと記載します)に集約して、運用負荷を低減した事例を簡単なシステム構成とともに紹介したいと思います。 ※ レコメンドシステムの開発ではプライバシーポリシーの範囲内で取得したデータを用いて行っています Yahoo!ショッピングのレコメンドとは? Yahoo!ショッピングやPayPayモールには、ユーザーがなにか商品を見ている時に、他にも興味を持ってもらえそうな商品を推薦するレ

    AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話
    misshiki
    misshiki 2020/12/25
    “別々に作られた複数の機械学習のバッチジョブ管理システムをApache Airflowに集約して、運用負荷を低減した事例を簡単なシステム構成とともに紹介”
  • 1