タグ

Hadoopに関するhiroomiのブックマーク (81)

  • 保守サービスなどを高度化・効率化したビッグデータ分析---大阪ガス

    準グランプリを獲得した大阪ガス。受賞にあたって、情報通信部の綾部雅之部長は「社内にデータサイエンティストの専門組織を持っていることが評価されたと思う」と述べた。 同社の情報通信部にはビジネスアナリシスセンター(BAC)があり、10年以上にわたって経営に役立つデータ活用を手掛けてきた。具体的には、BACに所属するデータサイエンティストが、エネルギー事業やリビング事業といった事業部門に対して、ビッグデータを活用した事業提案や業務改善案などを提案しているのだ(図1)。採用されると、分析作業などに必要なコストを事業部門から受け取る。それがBACの「売り上げ」になる。

    保守サービスなどを高度化・効率化したビッグデータ分析---大阪ガス
  • 第1回 halookでHadoop/HBaseを可視化しよう | gihyo.jp

    この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、連載のキーとなるツール「halook」を紹介します。「⁠halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台~数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。 データは正しく分散配置されているか 処理は分散して実行されているか 設定ミスをしていないか 問題の報告の難しさ

    第1回 halookでHadoop/HBaseを可視化しよう | gihyo.jp
  • 世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通

    PRESS RELEASE 2012年12月5日 富士通株式会社 世界初! Hadoopとの連携を実現したCOBOLNetCOBOL V10.5」を販売開始 並列分散処理により、バッチ処理時間を従来の約18分の1に短縮 当社は、COBOLバッチアプリケーションをApache Hadoop(注1)で並列分散処理し、バッチ処理時間を大幅に短縮する機能を追加したCOBOL開発・運用ソフトウェア「NetCOBOL V10.5」を、日より販売します。 製品は、Hadoopとの連携を実現した世界初(注2)のCOBOL開発・運用ソフトウェアです。「NetCOBOL」で開発したバッチアプリケーションや他社のCOBOLで開発されたバッチアプリケーションを、再コンパイルによりHadoopで並列分散処理できるため、お客様は既存のCOBOLデータやアプリケーションに手を加えることなく、バッチ処理時間を大幅に

    世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通
  • アクセス解析システムの裏側 (公開用)

    Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya

    アクセス解析システムの裏側 (公開用)
  • 「Hadoop Hacks」読んだ - たごもりすメモ

    「Hadoop Hacks」を著者陣のご高配を得てオライリー・ジャパンから献いただきました。ありがとうございます。 Hadoop Hacks ―プロフェッショナルが使う実践テクニックposted with amazlet at 12.04.26中野 猛 山下 真一 猿田 浩輔 上新 卓也 小林 隆 オライリージャパン 売り上げランキング: 2139 Amazon.co.jp で詳細を見る で、ざっと読んだ(自分でやってないところは眺めた程度)ので感想をざらっと。 なんというか、さすがにちょっと扱う内容が広過ぎる&プログラミングを避けられない箇所が多過ぎる感はあって、苦労したんだろうなー、という気がする。読んで「ああこれは役に立つよね」というのがだいぶ少なくてちょっと残念。100行単位でコードを書かないといけない内容をこういうで「hack」といって紹介するのはやっぱりちょっときびしいなー

    「Hadoop Hacks」読んだ - たごもりすメモ
  • "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道

    ”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。 従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。 とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある(と思う)。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の2点だ。 1 Webのログ解析 というか

    "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道
  • Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道

    オープン系の歴史は、基的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux? おもちゃですね。Java? 飲めるの?Object指向? 品質高いの? ・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。Javaでの開発は普通になりました。Object指向以外の開発はまぁ普通にないですね。・・・しかし、残念ながら基幹バッチは未だに汎用機です。汎用機は未だに現役であり、基幹処理の根っこは、いまだ汎用機で動いています。信頼性は突出しているし、パフォーマンスもバッチ処理に関しては依然として最強だと言えるでしょう。新人COBOLな人のバッチが、ハイパーなOracle使いのSQLバッチを軽く凌駕する事は、まだ普通にあります。・・・なぜか? 多重度が違いすぎますね。 汎用機はハードウェアからOSレベルまですべて、多重度が上がる事を前提に処

    Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道
    hiroomi
    hiroomi 2012/03/12
    「ところが、おもしろいことに、バッチが極端に短くなると、いろいろ余波が出ます。あれもできるし、これもできるし・・・。」おっ、トヨタ生産方式の段取り時間の短縮がここで読めたとは。
  • EMC、「Isilon」NASでHDFSにネーティブ対応――企業のHadoop導入を後押し|ストレージ|トピックス|Computerworld

    EMCジャパンは2月29日、同社のスケールアウト型NASEMC Isilon」において、Hadoopで利用される分散ファイルシステム「HDFS」(Hadoop Distributed File System)にOSレベルで対応し、製品提供を開始したことを発表した。エンタープライズ市場でのHadoop導入障壁を解消するとともに、同社のHadoopソリューションを強化する。 今回、Isilon NASのOS最新版「OneFS 6.5」がHDFSをサポートし、OneFS 6.5を搭載したIsilonでHDFSが利用できるようになった。従来機種もOneFS 6.5へのバージョンアップにより対応する。EMCによれば、HDFSをネーティブ・サポート(OSレベルで統合)したスケールアウト型NASはIsilonが業界初となる。 大規模分散処理フレームワークのHadoopは、大量のサーバ間をまたいで単一の

  • 基幹バッチへのHadoop適用を進めるEMCの戦略 - @IT

    2012/01/26 EMCジャパンが1月19日に国内販売を開始した「Greenplum HD Enterprise Edition(EE)」とは、Apache Hadoopの一部を書き直すことで信頼性と速度を向上したMapReduce製品だ。米ベンチャーのMap R Technologiesによる製品のOEMで、EMCは同社のGreenplum製品群の一部として取り込み、販売パートナーと協力してサポートを提供している。Webサービス、ビッグデータ解析に加え、企業の基幹系バッチ処理におけるMap Reduceの活用を意図している。 この製品ではまず信頼性向上のための工夫が施されている。2011年9月に国内で同製品を説明した米MapRのチーフアプリケーションアーキテクト、テッド・ダニング(Ted Dunning)氏によると、「すべてのコンポーネントが冗長化され、いつでも再起動できる。スナップ

  • LDeNA 峠とログ収集・集計の話

    Bill Inmon – the “father of data warehouse” – has written 53 books published in nine languages. Bill’s latest adventure is the building of technology known as textual disambiguation – technology that reads raw text in a narrative format and allows the text to be placed in a conventional data base so that it can be analyzed by standard analytical technology, thereby creating unique business value f

    LDeNA 峠とログ収集・集計の話
  • 基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携

    1月19日、EMCジャパンはエンタープライズ分野でのHadoopソリューション「EMC Greenplum HD EE」の販売を開始するとともに、Hadoop製品の開発を進めるノーチラス・テクノロジーとの協業を発表。基幹システムのでバッチ処理をHadoopで行なうソリューションを提供する。 Apache Hadoopと互換性のあるエンタープライズレディなHadoop 発表会の冒頭、EMCジャパン データ・コンピューティング事業テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏は、同日発売を開始した「EMC Greenplum HD EE」について説明した。 EMC Greenplum HD EEは非構造化データ処理に最適化されたHadoop製品で、Apache Hadoopと100%の互換性を保ちつつ、パフォーマンスや信頼性を強化した実装になる。並列処理に最適化されたデータベ

    基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携
  • ログ解析についてつらつらと考えていること - wyukawa's diary

    ログ解析についてつらつらと考えていることを書いてみたいと思います。 Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。 この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもらうとかですね。 ログ解析がどういうフローかというと、ログを埋め込んでログを収集して蓄積して解析してそのレポートを見て何らかの施策を打つ、という感じになります。 図にするとこんな感じ 今話題沸騰中の「Fluentd」はログ収集を担当します。といいつつ僕自身はFluentd使ったことないです。記事を読んだくらいです。 ちなみにどれぐらい話題沸騰中かというとこれぐらい定員オーバーしてます。すごすぎ。 クレジットカード現金化詐欺【業界人が教える口コミ情報】 ログ埋め込みはJavaならLog4j使って埋め込んだりするでしょう。 Apacheのアクセスロ

    ログ解析についてつらつらと考えていること - wyukawa's diary
  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • [後編]次世代に向けベンダー連携進む

    事例以外に「Hadoop World NYC 2011」で注目を集めたキーワードは、「次世代Hadoop」「エコシステム」「HBase」「既存DWHとの連携」などである。 スケーラビリティーの強化続く 次世代Hadoopはアーキテクチャーを改良し、より高いスケーラビリティー、信頼性、機能を実現する見込みである。例えば、名前空間とブロックストレージの管理を分離してスケーラビリティーを高める「HDFSフェデレーション」、マスターサーバーの可用性を向上させる「NameNode HA」、MPI(メッセージ・パッシング・インタフェース)などの分散処理インタフェースを利用できて1万台までスケールアウトが可能な「MapReduce 2.0」などを備える。これらの機能は、バージョン0.23に搭載する。いずれエンタープライズ領域で採用できるレベルに到達するだろう。 「Hadoop開発は分裂しない」 Hado

    [後編]次世代に向けベンダー連携進む
  • Hadoopを業務で使ってみました

    Hadoop is an open-source software framework for distributed storage and processing of large datasets across clusters of computers. It allows for the distributed processing of large datasets across clusters of nodes using simple programming models. Hadoop can distribute data and computations across a cluster of commodity machines and scale to thousands of nodes, handling failures in an automatic wa

    Hadoopを業務で使ってみました
  • 対策によって性能が改善

    次に、Hadoopが期待したほどスケールアウトしないときの対策を検証した。典型的な原因の一つは「キー分布の偏り」という現象で、数ノード規模のシステムでも影響が大きい。 HadoopのMapReduceには、Mapperの出力をReducerへ配布するShuffleという処理がある。Shuffleの際は取引先コードなどのキーを基にデータをとりまとめて配布する。 全取引先から同量の仕入れを行う場合のように、キー分布が一様であれば、図6上のように各Reducerに均等にデータが配布される。しかし、特定の取引先からの仕入れが多いなどでキー分布に偏りがあると、図6下のように特定のReducerにデータが多く配布される。その結果、データが集中したReducerの処理時間が全体に影響し、性能が落ちる。キー分布に偏りがある状態でReducerを増やしても特定のReducerにデータが集中する点は同じなので

    対策によって性能が改善
  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
    hiroomi
    hiroomi 2011/08/24
    実用的な性能を得るには、RDBMSのダンプ系コマンドを試すのが基本
  • EMCはHadoopをどのように展開していくのか - @IT

    2011/08/12 米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。 EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。 Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3~5倍のパフォーマンス向上が見込めるという。また、NameN

  • Microsoft、SQL ServerのHadoopサポートを発表 | エンタープライズ | マイコミジャーナル

    Microsoft Corporation MicrosoftSQL Serverチームは8月8日(米国時間)、コミュニティテクノロジープレビューとしての提供となるが、SQL ServerおよびSQL Server 2008 R2 Parallel Data Warehouse向けに「Hadoopコネクタ」の提供を近いうちに開始すると発表した。「Hadoopコネクタ」を利用することで従来よりもSQL ServerとHadoopとの連携が簡単になると説明がある。 ビジネスで処理すべきデータは肥大化の一途を辿っているという。この傾向は今後も加速すると見られており、膨大な量のデータのストア、管理、分析機能の提供が求められていると説明がある。しかもそうしたデータの80%は構造化されていないデータということだ。 「Parallel Data Warehouse News and Hadoop In

  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)