記事へのコメント22

    • 注目コメント
    • 新着コメント
    kiririmode
    kiririmode メモリに載らない量のデータの基本統計量の算出

    2023/06/09 リンク

    その他
    Windymelt
    Windymelt parquet形式だ。いいよね。pyarrowはdaskってやつから呼び出す感じなんだろうか。 / 自分だったらPython使わずに直接Sparkとかで処理しちゃうだろうな

    2023/06/06 リンク

    その他
    cartman0
    cartman0 逐次読み込みなかったっけ?

    2023/06/06 リンク

    その他
    hiromi_ayase
    hiromi_ayase ファイルI/Oはストリーム処理が基本だし何が難しいんだろう・・・?と思ったらpandas限定の問題だった

    2023/06/06 リンク

    その他
    megadrive
    megadrive kaggle

    2023/06/06 リンク

    その他
    prjpn
    prjpn エンジニアリング力が試される環境

    2023/06/06 リンク

    その他
    coolworld
    coolworld 趣味として楽しむのならいいけど、業務ならRDBにつっこむな。

    2023/06/06 リンク

    その他
    havanap
    havanap Rでよしなにやってくれなかったっけ

    2023/06/06 リンク

    その他
    Ez-style
    Ez-style 業務で作業するならBQに突っ込めでFAとして、CSVの基本統計量を計算するだけなら grep と awk という手段が(老人会脳 / 身も蓋もないことをいえば、アタリをみたいだけならランダムサンプリングすればよくね。

    2023/06/06 リンク

    その他
    strawberryhunter
    strawberryhunter サーバーなら2GBでも珍しくない。1回読むだけなら1行ずつ読む、だけど要件次第。ストレージに余裕がないとSQLiteやParquetへの変換もできないし。

    2023/06/06 リンク

    その他
    kotaponx
    kotaponx 使い慣れたsqlite3使うことが多いけど、やっぱシングルスレッドはきついんよね……

    2023/06/06 リンク

    その他
    circled
    circled 多分この手の処理をする人の給料の1日分でメモリ64GB程度は余裕で買えそうだから、普通にPCにメモリ足せば良いのでは?しかも仕事なら、この手の処理は何度もやって来ますでしょう?

    2023/06/06 リンク

    その他
    ya--mada
    ya--mada sqliteだとツライのかな?

    2023/06/06 リンク

    その他
    kisiritooru
    kisiritooru パソコンでやっているのに、おぼろげながら浮かんできたんです。人力と言う言葉が。

    2023/06/06 リンク

    その他
    knok
    knok daskかなと思ったらdaskだった

    2023/06/06 リンク

    その他
    ytn
    ytn 地獄の中に楽しみを見つけるが如き

    2023/06/06 リンク

    その他
    perl-o-pal
    perl-o-pal swapon…

    2023/06/06 リンク

    その他
    nakag0711
    nakag0711 RDB使わない場合はDask+Parquetと

    2023/06/06 リンク

    その他
    Fluss_kawa
    Fluss_kawa 逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

    2023/06/06 リンク

    その他
    tattyu
    tattyu “社内環境でしか分析できない” これで4GBのメモリなら会社変えるのが正解な気がするが使用メモリ量をゴリゴリに減らすのは楽しいよな。

    2023/06/06 リンク

    その他
    y-kawaz
    y-kawaz あとで読む

    2023/06/06 リンク

    その他
    nna774
    nna774 “カラムナフォーマット”

    2023/06/06 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

    はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 記事では、 32GB超のCS...

    ブックマークしたユーザー

    • techtech05212024/05/29 techtech0521
    • akiyoko2024/03/02 akiyoko
    • hootoo32023/07/02 hootoo3
    • clavier2023/06/18 clavier
    • ayaniimi2132023/06/15 ayaniimi213
    • kiririmode2023/06/09 kiririmode
    • midas365452023/06/08 midas36545
    • m0t0m0t02023/06/07 m0t0m0t0
    • a2cNSMR2023/06/07 a2cNSMR
    • mgl2023/06/07 mgl
    • bayaread2023/06/07 bayaread
    • mixedjuicegofyugofyu2023/06/06 mixedjuicegofyugofyu
    • Windymelt2023/06/06 Windymelt
    • kintoki32023/06/06 kintoki3
    • toshikish2023/06/06 toshikish
    • marutaku01312023/06/06 marutaku0131
    • osamu36732023/06/06 osamu3673
    • ryohn2023/06/06 ryohn
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事