タグ

データセットに関するseikennのブックマーク (8)

  • https://github.com/arXivTimes/arXivTimes/blob/master/datasets/README.md

    https://github.com/arXivTimes/arXivTimes/blob/master/datasets/README.md
  • 機械学習とかに使えそうなデータセット - pixyzehn blog

    photo by Régis Gaidot データセットとかの知見を集めました。 いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。 これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。 奥 健太 - 情報推薦研究ツールボックス grouplensのデータセットは、論文などにも利用されているのを見かけました。 注意点としては ・EachMovieなどは利用できない ・MovieLensやDelicious、Last.fmはdat形式のファイル ・WikiLensはdumpして使うようにされている ・Book-Crossingはcsvsql ・jesterはExcelファイル ということです。 それ以外だと ようこそ - the Datahub 情報学研究データリポジトリ データセット一覧 livedoor グルメの研究用データセットです。 20

    機械学習とかに使えそうなデータセット - pixyzehn blog
  • 国勢調査など政府統計データをCSV化してダウンロードできる「統計くん」 政府API活用

    個人開発者の矢野さとるさんは6月12日、10日に公開された「次世代統計利用システム」のAPIを活用し、国勢調査などの政府が持つ統計データをCSV形式でダウンロードできるWebサービス「統計くん」を公開した。 次世代統計利用システムは、統計のオープンデータの高度化に向け、統計センターが総務省統計局と協力して提供しているシステム。政府の統計ポータル「e-Stat」でデータベース化されている統計データを、XMLやJSONなどで出力するREST方式のAPIを提供している。 統計くんは同APIを活用し、国勢調査、事業所・企業統計調査、全国物価統計調査、家計消費状況調査などについて、調査結果をWebブラウザ上に表示したり、条件を絞り込んで分類したり、CSV化してダウンロード可能。今後は、グラフ生成やクロス集計機能などの実装を検討している。 関連記事 「PM2.5まとめ」正式公開 現在地のPM2.5濃度

    国勢調査など政府統計データをCSV化してダウンロードできる「統計くん」 政府API活用
  • 情報学研究データリポジトリ Yahoo!データセット

    Yahoo! 知恵袋データ(第3版)」 国立情報学研究所がLINEヤフー株式会社(旧社名 ヤフー株式会社)から提供を受けて研究者に提供しているデータセットです。 2023/10/12 現在 データ概要 「Yahoo!知恵袋」とは,質問したい人と回答したい人をむすび,知恵と知識を参加者同士で共有することを目的として,2004年4月からLINEヤフー株式会社が提供している日最大の知識検索サービスです。 データは,「Yahoo!知恵袋」において解決済みとなった質問と回答を,LINEヤフー株式会社が「Yahoo!知恵袋」のデータベースから抽出したものです。 質問および回答に含まれるデータ項目は,質問・回答のID,質問のカテゴリ,質問・回答のタイトルおよび文,投稿および解決の日時,ベストアンサーフラグ,画像付きフラグ,並びに投稿デバイスです。 提供データは年度ごとに更新され,データの収録期間

  • 情報学研究データリポジトリ 楽天データセット

    楽天グループ株式会社が国立情報学研究所を通じて研究者に提供しているデータセットです。 2022/03/10 更新 データ概要 以下のデータが含まれています。 楽天市場:全商品データ (約2億8300万商品),商品レビューデータ (約7000万レビュー),ショップレビューデータ (約2250万レビュー) 楽天トラベル:施設データ (約2.9万施設),レビューデータ (約656万レビュー) 楽天GORA:ゴルフの施設データ (1,669施設),レビューデータ (約32万レビュー) 楽天レシピレシピ情報 (約80万レシピ),レシピ画像 (約80万画像),Pickupレシピ (1,854レシピ),デイリシャスニュース (362件) アノテーション付きデータ 筑波大学文単位評価極性タグ付きコーパス(TSUKUBAコーパス):筑波大学よりご提供いただいた,楽天トラベルのレビューデータに対して,文単位

  • 情報学研究データリポジトリ

    情報学研究データリポジトリ(IDR) 情報学研究データリポジトリ(Informatics Research Data Repository : IDR)は,国立情報学研究所(NII)のデータセット共同利用研究開発センター(DSC)が運営するデータセットの共同利用事業です。IDRでは各種のデータセットを民間企業や大学等研究者から受け入れて研究者に提供するためのサービスを行っています。 データセットの利用を希望される方は,「データ一覧」から各データセットのページにアクセスし,記載内容をよくご確認ください。データセットの利用を申請された場合,「IDRデータセット提供サービス規約(法人利用者用)」(データセットによっては「同(個人利用者用)」)に同意いただいたものと見なします。 データセットの提供を希望される大学等の研究者の方は「大学等研究者提供データセット受入」のページをご覧ください。また,民間

  • 情報学研究データリポジトリ ニコニコデータセット

    ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事文データ 記事ID,記事文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮

  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1