ビッグデータへの対応における技術的側面と経営的側面

 昨年から今年にかけて大手ベンダーからビッグデータに関する製品が発表されている。本稿ではRDBMSなどの従来の技術ではカバーしきれないビッグデータへの対応とデータマネジメントの重要性、そしてビッグデータへの対応に関する経営的課題について考えてみよう。

■従来の技術ではカバーできないデータの量と質
 従来、一般的なデータ管理においてRDBMSなどを使ったバッチ処理が終わらないといった課題が上がるなど、企業が扱うデータは処理能力を超えたデータ量となっている。例えばRDBMSでの処理が難しくなるデータ量は数100ギガバイトであるが、ソーシャルメディアなどが登場する中で、そのデータ量はギガバイト~ペタバイトにまで達している。

 例えば、Facebookのデータを見てみよう。
  ・ログでいうと毎日、25ペタバイト
  ・ユーザーが共有するコンテンツは毎週60億
  ・写真のアップロード数は毎月30億枚

 また従来、構造化データ(データベースに格納されるタイプのデータ)が分析対象とされてきたが、ソーシャルメディアに代表されるように非構造化データ(文書や画像などデータベースに収まらないデータ)まで対象にする必要性が出てきた。

■データの量と質に対応するテクノロジー
 これらのペタバイト級のデータや非構造化データを処理、分析するために大手ベンダーはビッグデータ対応製品を出してきている。最近のトレンドは「並列分散処理」と「インメモリー処理」である。並列分散処理とは1つの処理を複数のサーバで同時に処理するという技術。特にHadoopが有名。代表的な製品としてはIBMの「InfoSphere BigInsight」やNTTデータの「LindaCloud」、EMCの「Greenplum HD」などがあり、Hadoopを活用した製品が2010年後半から相次いで投入され始めている。
 Hadoopについては導入事例も出てきており、例えば楽天では楽天ランキングをRDBベースの集計処理からHadoopを実装したプログラムへとリプレイスしたことで、処理速度の改善やコードのメンテナンス性の向上などの効果があったとしている。
 次に、インメモリー処理とはメモリ上にデータやログを書き込むことで高速化する技術。代表的な製品としてはSAPの「SAP HANA」がある。  SAP HANAについてはIBMやHP、富士通などが関連製品を投入するなど拡販に積極的に動いている。

■データの処理と併せてデータマネジメントにも注目
 ビッグデータへの対応と併せて重要となるのがデータマネジメントだ。例えばFacebookの場合、そのデータは玉石混交。もちろん、社内のデータについても様々なデータが社内に分散しており、かつ重複している。これらのデータを処理するにあたってはデータマネジメントが必須となってくる。データマネジメントをカバーする地位として欧米ではData Steward(もしくはInformation Steward)という「データの信頼性の継続的な確立やライフサイクル(管理プロセスや品質、使用先、セキュリティ)などについて責任を持つ者」が設置されている。
 しかし、日本では製造業を始め多くの企業においてData Stewardを冠する立場の地位は皆無。SAPでは2011年8月に「Information Steward」という製品を発表した。記者会見の席上においてもData Stewardが日本において不在の中、どのようにData Stewardという存在を浸透させていくのかといった点が質問として挙がった。この点については2011年4月にNTTデータやNEC、日立、インフォマティカ・ジャパンなどが中心となって設立された「日本データマネジメント・コンソーシアム」(JDMC)の動向に注目していく必要がある。今後、Data Stewardと冠する地位が日本において広まっていくのか。ビッグデータへの対応と併せて、データマネジメントに対する対応が益々重要になってくることは確実である。

■ビッグデータ対応製品の導入にあたっては経営層も絡む必要あり
 データの処理速度が主要な話題となるが、これらの技術の採用にあたってはデータ量のみならず、データの質や意思決定の速度についても同時に問われることになるだろう。
 データ量について今後、社内外のデータを扱うなど、どこまでの範囲のデータ量を扱うのかといった点について検討する必要があるだろう。次にデータの質。データには冒頭に述べたように、構造化データと非構造化データとがある。これらの多様かつ複雑なデータをどのように活用するべきなのか、また、どのように意思決定に繋げるべきなのかといった点について議論をする必要がある。ビッグデータの活用方法は様々だ。例えばコンビニの個々人のレシートに書かれた商品名を分析することで、よりパーソナルなレベルでのマーケティング戦略を立案することが出来るようになる。またコンテンツアナルシスの応用範囲も広がると考えられる。そして、意思決定の速度。今後益々、データの処理速度に対応した迅速な意思決定能力が経営層に求められるようになるであろう。
 このようにビッグデータへの対応は企業の競争力の強化へと直結していることが分かる。技術の採用に当たっては、単なるデータの処理能力に関する課題の解決といった技術的な側面だけではなく、企業の経営戦略に照らし合わせたビッグデータの活用方法を併せて検討する必要がある。そのためには経営層はビッグデータに対して強い関心を持つ必要がある。

 

 

<参考文献>
・ASCII.technologies編集部編、『ビッグデータを征すクラウド技術 Hadoop&NoSQL』、ASCII、2011.4
・太田・下垣・山下ほか、『Hadoop徹底入門』、翔永社
・各社リリース資料

プロフィール
山口 泰裕(やまぐち やすひろ)
現在、MM総研にて研究員をしています。 関心がある分野は電子書籍とソーシャルメディア(特にソーシャルコマース)の動向。 日々取材を行いながら、現場の声を聞き知見を吸収し、弊社の発行している情報誌『M&D Report』にてレポートを発信中。※本ブログの内容は会社としての意見ではなく、筆者個人の意見です。



この記事のタグ:


関連する記事

プロフィール
山口 泰裕(やまぐち やすひろ)
現在、MM総研にて研究員をしています。 関心がある分野は電子書籍とソーシャルメディア(特にソーシャルコマース)の動向。 日々取材を行いながら、現場の声を聞き知見を吸収し、弊社の発行している情報誌『M&D Report』にてレポートを発信中。※本ブログの内容は会社としての意見ではなく、筆者個人の意見です。