タグ

ブックマーク / oscillograph.hateblo.jp (2)

  • データサイエンスだらけの桃太郎 - oscillographの日記

    昔々あるところに分析からの示唆出しが趣味のおじいさんと特徴量生成が得意なおばあさんがいました。 おじいさんはオンプレサーバーへ定時確認に、おばあさんはクラウドサーバーへ重要指標のモニタリングに行くと、フルマネージドなデータベースから外れ値の桃群が現れました。 「こんな桃群は見たことがない。gzip圧縮してローカルで中身を見てみよう」 持ち帰った桃群をローカルで解凍してみると、中からメモリに乗り切らないサイズの赤ん坊が出てきました。 赤ん坊はExcelで開けなかったので、おじいさんとおばあさんはBig Queryで分析しました。 二人はこの赤ん坊を 「桃.gzから生まれたので桃太郎と名付けるのが妥当だろう。」 と考えて桃太郎と名付けました。 桃太郎はPRML片手にPythonでプログラミングをしながらすくすく育ち、立派なデータサイエンティストになりました。 成長がサチった桃太郎はある日おじい

    データサイエンスだらけの桃太郎 - oscillographの日記
    Nyoho
    Nyoho 2018/07/16
    おもしろい
  • 形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記

    こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し

    形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記
  • 1