SSブログ

ビッグデータの衝撃 巨大なデータが戦略を決める
 [コンピュータ・情報科学]

ビッグデータの衝撃――巨大なデータが戦略を決める

城田真琴/著
出版社名 : 東洋経済新報社
出版年月 : 2012年7月
ISBNコード : 978-4-492-58096-7
税込価格 : 1,890円
頁数・縦 : 303,7p・19cm

 
■ビッグデータとは何か?
 IT業界で最近話題の「ビッグデータ」に関して、ITアナリストの立場で詳しく解説した書。技術的な説明だけでなく、ビジネス界での動向や、ビッグデータを活用して成功している企業なども紹介する。むしろ、技術的な解説よりこちらのほうに重点がある。さらにはプレイバシー保護に関する問題点などの社会的影響についても論じている。
 ところで、「ビッグデータ」を扱う際の肝は、ハドゥープとNoSQLデータベースという二つのソフトウェアと、クラウド・コンピューティングに象徴されるハード面での分散処理だ。これらの技術革新によって成立したのが「ビッグデータ」である。「ビッグデータ」の特徴は、大量の非構造化データを処理し、ビジネス上の意思決定や将来予測に応用したり、顧客の囲い込みを行う、ということになろうか。これからのIT社会では、「ビッグデータ」を上手く活用できた企業が隆盛する。「Data is the new oil.」なのである。

【目次】
第1章 ビッグデータとは何か
第2章 ビッグデータを支える技術
第3章 ビッグデータを武器にする企業 欧米企業編
第4章 ビッグデータを武器にする企業 国内企業編
第5章 ビッグデータの活用パターン
第6章 ビッグデータ時代のプライバシー
第7章 オープンデータ時代の幕開けとデータマーケットプレイスの勃興
第8章 ビッグデータ時代への備え

【著者】
城田 真琴 (シロタ マコト)
 野村総合研究所イノベーション開発部上級研究員。北海道旭川市出身。北海道大学工学部卒業後、大手メーカーのシステムコンサルティング部門を経て、2001年より現職。現在、ITアナリストとして、先端テクノロジーの動向調査、ベンダー戦略の分析、国内外企業のIT利活用調査を推進。同時にそれらを基にしたITの将来予測とベンダー、ユーザー双方に対する提言を行っている。専門領域は、クラウド、ビジネス・アナリティクス、M2M、IoTなど。

【抜書】
●非構造化データ(p6)
 「ビッグデータ」とこれまでビジネス・インテリジェンス(BI)で扱ってきた大量データとの違い。
 (1)数値データ(売上げや時刻、等)などの構造化されたデータではない。非構造化データ。
 (2)〔大量データの管理や処理などの新しい技術の担い手が、ウォルマートやシティバンクといった大企業から、ウェブ企業やソーシャルメディア企業に移った。〕

●ビジネス・インテリジェンス(p39)
 ビジネス・インテリジェンス、BI。
 〔企業内外に蓄積されたデータを組織的かつ系統的に集約・分析し、ビジネス上の各種の意思決定に有用な知識や洞察を生み出すという概念や仕組み、活動のことである。〕
 1989年、米国の調査会社ガートナー(Gartner)のアナリストだったハワード・ドレスナー氏によって提唱された概念。
 情報システム部門に依存していた売上げや顧客管理分析などのデータ処理業務を、経営者や一般のビジネスパーソンなどのエンドユーザーが自ら手がけることで、意思決定の迅速化や生産性の向上を目指すべきであると説いた。
 〔BIはこれまで、「過去から現在までに何が起きたのか」「なぜ、それは起きたのか」を分析し、レポーティングすることが主な目的であった。すなわち、「過去、および現在の見える化」である。〕
 今後の企業活動にとってより重要なのは、「これから何が起きるのか」。BIも、「将来予測」へと進化しつつある。 ⇒ データマイニング ⇒ 機械学習 ⇒ビッグデータ

●O2O(p43)
 Online to Offline。
 オンラインとオフラインの融合。
 ネット上の情報(オンライン)がリアル世界(オフライン)の購買行動に影響を及ぼしていることを表す概念。

●ハドゥープ(p49)
 Hadoop……オープンソース。大規模データの分散処理技術。マップリデュースを実装した「フレームワーク名」。
 MapReduce(マップリデュース)……大規模データを分散処理するための「処理方式」。グーグルが2004年に発表した論文「MapReduce: Simplified Data Processing on Large Clusters」に登場する概念。
 以下の3つによって構成。
 (1)HDFS(Hadoop Distributed File System)……分散ファイルシステム。大容量データを分割して格納。グーグルの「GFS: Google File System」に対応。
 (2)Hadoop MapReduce……大量データを効率的に分散処理可能なフレームワーク。グーグルの「MapReduce」に対応。
 (3)HBase……超巨大なデータテーブル。グーグルの「Big Table」に対応。

●NoSQLデータベース(p58)
 NoSQL……RDBMS(リレーショナルデータベース管理システム)=SQLが得意でない部分で補完的に利用する。「Not only SQL」という意味合い。
 データ構造……非構造化データを扱える。スキーマも最初から定義する必要がない。
 データ一貫性……ACID(Atomicity=原子性、Consistency=一貫性、Isolation=独立性、Durability=耐久性)のように堅牢ではなく、Eventual Consistency(最終的な一貫性)という実装。一時的に一貫性が維持されない状態が存在する。
 拡張性……スケールアウトが容易。拡張性に優れる。
 耐障害性……分散環境に対応、単一障害点がないものが多い。障害に対する対策コストが安価。
 〔データの一貫性を多少犠牲にする代わりに、柔軟性・拡張性を追求したデータベース〕

●リキャプチャ(p165)
 reCAPTCHA。グーグルが提供。
 スパムプログラム(bot)と人間のユーザーを見分けるための画像認証サービス。
 「リキャプチャは、書籍のデジタル化を支援する無償のアンチボットサービス」(リキャプチャのホームページ)。
 書籍のデジタル化において、OCRでの認識に失敗した単語を使用。

●協調フィルタリング(p182)
 アマゾンなどで、商品リコメンドを行う際に使う技術。
 〔商品の購買履歴に加えて、ウェブのアクセス履歴などの行動履歴をもとにユーザー同士の嗜好の類似値を自動計算し、レコメンドを実現している。〕

●消費者プライバシー権利章典(p196)
 アメリカ商務省の提言で、2012年2月23日、オバマ政権が「消費者プライバシー権利章典」を発表。
 オプトアウト方式が基本。
 EUでは、オプトイン方式の「電子プライバシー保護指令」。

●インフォチンプス(p248)
 「データ界のアマゾン・ドットコム」を標榜。
 ウェブ上であらゆるデータを販売することを目指している。

(2012/7/21)KG

〈この本の詳細〉


nice!(0)  コメント(0)  トラックバック(0) 

nice! 0

コメント 0

コメントを書く

お名前:[必須]
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

トラックバックの受付は締め切りました