Big Data大數據的獲利模式：圖解.案例.策略.實戰

定價：~~360~~ 元

NT $ 60 ~ 324

作者：城田真琴
原文作者：Makoto SHIROTA
譯者：鐘慧真，梁世英
出版社：經濟新潮社
出版日期：2013-08-10
語言：繁體中文
ISBN10：9866031365
ISBN13：9789866031366
裝訂：平裝 / 320頁 / 15 x 21 cm / 普通級 / 單色印刷 / 初版

內容簡介

分析現狀還不夠，預測未來更重要！

　　與其相信一個人的直覺，不如相信數千萬人的資料——
　　從圖解、案例，到策略與實戰，
　　一本書，徹底解讀大數據！

　　Facebook、Google、Amazon，
　　以及GREE、瑞可利（Recruit）等知名企業都在用的資料淘金術！

　　懂得找出資料的價值、萃取可用的資訊，
　　就能將大數據轉化為商業智慧（BI）；
　　嗅出趨勢、解決問題、創造商機，
　　進而創造「偶然的幸運」（serendipity），
　　正是大數據帶領企業持續前進的動力！

　　連上Facebook頁面，出現推薦「你可能認識的朋友……」的建議，妳因此而找到失聯已久國中同學。

　　到amazon.com網站購書，你看到「買這本書的人也買了這些書……」的清單，也正好是自己想讀的書。

　　只要打一個字，Google就出現「您是不是要查……」的資訊，正確預測到你想找的關鍵字。

　　事實上，這些「偶然的幸運」（Serendipity），都和善用大數據（Big Data，亦稱巨量資料、海量資料）有關。

　　上述的企業提供你需要的資料、精準預測到你的下一步，其實並非魔法、也不是憑空而來。這些企業將大數據轉化為商業智慧（BI，Business Intelligence），不僅分析現狀，更懂得預測未來。

　　大數據是「二十一世紀的新石油」，也是繼資料挖掘（data mining）、雲端運算、社群網站之後，最受矚目的趨勢。如何將龐雜的巨量資料理出脈絡、找到關聯、發掘價值，找出商機，成為決勝關鍵。

　　本書作者城田真琴，是野村總合研究所（簡稱野村總研）高級研究員，也是大數據領域的權威專家。在日本，野村總研被稱為最有影響力的民間智庫，作者以野村總研獨家調查的第一手資料為基礎，介紹Zynga、Centrica、Catalina Marketing等歐美企業，以及小松（KOMATSU）、瑞可利（Recruit）、GREE等日本企業如何應用大數據的實際案例。

　　一本書，讓你認清楚資料（data）、資訊（information）與情報（intelligence）的不同，不僅要看得到、看得懂，還要能用得出來，進而找到真正的商機所在！

作者簡介

城田真琴（Makoto SHIROTA）

　　野村總合研究所（NRI，Nomura Research Institute）創新開發部高級研究員、IT分析師，日本政府「智慧雲端運算研究會」智庫成員。負責高端技術趨勢調查研究、供應商戰略分析、國內外企業IT應用調查，專業領域為雲端運算、商務分析、M2M、IoT等。著作包括：《雲端運算的衝擊》、《你不可不知的雲端運算常識與非常識》、《2012年版IT年鑒》等。

譯者簡介

鐘慧真（前言、一至四章）

　　「上輩子」是軟體工程師，國立清華大學電機工程研究所畢業，曾任職於飛利浦半導體與宏達電。目前是從事日翻中筆譯的家庭主婦，定居於日本長野縣。譯作《不執著的生活工作術》（經濟新潮社出版）。

　　部落格：【黛博拉看日本】deborahjong.wordpress.com/。

梁世英（五至八章、謝詞）

　　日本一橋大學商學研究所碩士，專長財務金融，目前為專職日文譯者。譯作包括《這樣圖解就對了！》《鍛鍊你的策略腦》《想像的力量》《Facilitation引導學》（以上均由經濟新潮社出版）等。

【推薦序】
　當商業智慧隱藏在雲深不知處（國立交通大學經營管理研究所教授　楊千）
　Big Data, Big Intelligence：從資料、資訊到情報（和沛科技股份有限公司總經理　翟本喬）
　當巨量資料與社會脈絡交集（英國開放知識基金會地區大使　徐子涵 Schee）
　Data、Data、Data：我們活在廣袤的資料流中（資深部落客　鄭緯筌Vista）
　老大哥在看著你：Big Data□ Big Brother□（英商巴克萊銀行台北分行董事總經理　劉奕成）

前言

★第一章　什麼是巨量資料
　資料洪流（The Data deluge）
　巨量資料的3V特性
　廣義的巨量資料
　為什麼到現在巨量資料才受到眾人的矚目？（1）巨量資料的民主化
　為什麼到現在巨量資料才受到眾人的矚目？（2）硬體性價比的提升與軟體技術的進化
　為什麼到現在巨量資料才受到眾人的矚目？（3）雲端的普及
　從「分析過去」到「預測未來」　商業智慧與巨量資料的交會
　從點（交易資料）到線（互動資料）的分析
　巨量資料分析的起源
　本章重點整理

★第二章　支撐巨量資料的技術
　人才短缺
　什麼是Hadoop
　與日俱增的套件
　眾多套件版本並存的原因
　NoSQL資料庫
　創投也對Hadoop、NoSQL開發企業投以熱切的目光
　巨量資料時代的資料處理基礎
　備受矚目的分析資料庫
　串流資料（即時資料）處理
　自行開發串流資料處理技術的網路公司
　機器學習、統計分析等
　自然語言處理、其它
　本章重點整理

★第三章　以巨量資料為核心競爭力的企業　歐美企業篇
　快速成長之網路公司的巨量資料運用技巧
　eBay：每天產生50 TB的資料
　 (1)遠超乎想像的巨量資料產生速度
　　(2)eBay的資料分析基礎
　Zynga：披著遊戲開發商外皮的資料分析公司
　　(1)社群遊戲經濟的重要指標
(2)提升病毒係數的機制
(3)遊戲其實是資料驅動營運
(4)三次點擊原則
　Centrica：藉由引進智慧電表分析能源消耗模式
　　(1)英國電費、瓦斯費收費的實際狀況
　　(2)引進智慧電表後的影響
　卡特琳娜行銷集團：以「收銀台優待券」設計顧客的消費行為
　　(1)儲存了超過一億人份的消費紀錄
　　(2)預測顧客的消費行為，帶動門市買氣
　本章重點整理

★第四章　以巨量資料為核心競爭力的企業　日本企業篇
　日本國內也開始運用巨量資料
　小松（KOMATSU）：日本運用巨量資料的先驅
　瑞可利（Recruit）：徹底運用Hadoop資料分析，成功改造企業文化
　　(1)幾乎全公司上下都用Hadoop
　　(2)支撐瑞可利巨量資料分析的Hadoop基礎
　　(3)成功的祕訣在於組織體制
　　(4)對於瑞可利而言，Hadoop的「真正價值」究竟是什麼？
　GREE：資料驅動型營運方式是快速成長的原動力
　　(1)與其相信一人的判斷，不如相信數千萬人的資料
　　(2)資料驅動型營運方式的根基來自對於日誌資料的執著
　　(3)具備多種技能的專業人士齊聚一堂
　　(4)將溝通不良減至最少的團隊體制
　日本麥當勞：在現實世界實現一對一行銷（One-To-One Marketing）
　　(1)劃時代優待券背後的周全準備
　　(2)把焦點集中在做為集點卡的行動電話與智慧型手機
本章重點整理

★第五章　巨量資料的運用模式★
　巨量資料的運用案例
(1)精準推薦商品或服務
(2)行為定位廣告
(3)運用地點資訊的行銷
(4)糾出盜刷
(5)顧客流失分析
(6)預測設備故障
(7)驗出異常
(8)改善服務
(9)預測路況
(10)預測電力需求
(11)預測感冒流行
(12)預測股市行情
(13)油資成本的最佳化
　巨量資料的運用模式分類
(1)個別優化×批次處理型
(2)個別優化×即時資訊型
(3)全體優化×批次處理型
(4)全體優化×即時資訊型
　巨量資料的運用深度
(1)掌握過去與現狀
(2)發現行為模式
(3)預測
(4)優化
【專欄】動態定價
　巨量資料運用的真正價值
　本章重點整理

★第六章　巨量資料時代的隱私權問題★
　隱私權與創新的兩難
　美國國會也表示關注
　製作網路個資檔案的是與非
　請勿追蹤（Do Not Track）
　消費者隱私權保護法案
　採用選擇性參與方式的歐盟
　資料保護綱領也進行修正
(1)引進「抹掉過去」的權利
(2)使用者尚未明確表示同意前，不得使用其個人資料
(3)制定資料可攜（Data Portability）的權利
(4)擴大說明責任
　日本的法令架構是《個人資訊保護法》加上分別針對各領域訂定的指導原則
　部分指導原則在提供資訊予第三人上採用選擇性參與方式
　日本政府的評估狀況
　以「資訊大航海計畫」為契機開始評估的經濟產業省
　由生活紀錄的角度進行議論的總務省
　線索就在與使用者的「對話」
　實體世界裡的行為追蹤
　本章重點整理

★第七章　開放資料時代的到來與資料市場的興盛★
　「活用外部公開資料」的選項
　風起雲湧的連結開放資料（LOD，Link Open Data）運動
　影響擴及開放式政府
　如雨後春筍般不斷出現的新創企業
　透過比賽促進資料運用
　落後一步的日本
　日本國內因三一一大地震而略有進展的開放資料使用
　資料市場的興盛
(1)Factual
(2)Windows Azure Marketplace
(3)Infochimps
(4)Public Data Sets on AWS
　商業模式各有不同
　熱絡的資料市場存在著不容忽視的課題
　本章重點整理

★第八章　面對巨量資料時代該有的準備★
　巨量資料時代的企業IT策略
　開始邁向資料分享的日本企業
(1)LAWSON×Yahoo
( 2)KDDI×樂天
(3)COOKPAD×ID’s
　擁有原創資料的好處
　供應商的新商機在提供「資料整合服務」
　誰能成為資料整合公司
　美國的支付服務業者明顯朝「資料整合公司」發展
(1)VISA
(2)PayPal
(3)美國運通
　讓原創資料搖身一變成為「貴重資料」的絕妙資料組合
　全世界對資料科學家的需求愈來愈高
　資料科學家需具備的技能
　資料科學家需具備的資質
(1)溝通能力
(2)創業家精神
(3)好奇心
　相關人才嚴重不足
　相關研究所開始設立
　鉅額資金流向巨量資料分析企業
　日本也開始對資料科學家展開搶人大戰
　最後的一道關卡－－組織體制與企業文化
　朝向資料驅動型企業邁進
　本章重點整理

謝詞
參考文獻
圖表索引

看更多

序

推薦序

當商業智慧隱藏在雲深不知處

　　巨量資料是個必然趨勢。

　　巨量資料（亦稱為海量資料、大數據）指的是在以往一般技術不容易管理但現在已能有效儲存、分析的大量資料。

　　自從有了網際網路，資料的產生已不是各個組織的內部活動所產生的，而是包括了跨組織的各項活動記錄，更包括了數以億計的人類在網路上各自產生及互動的資料；在工具使用上除了傳統電腦、平板、智慧型手機、以及各項道路監視器、環境監控數據設備。

　　從中國的歷史上來看，資料的產生、儲存、傳遞，講的是「字」。我們的祖先結繩記事也好，用龜甲牛骨刻下所謂的甲骨文也好，都是費時費力的。到了用竹簡記事，也記不了太多的字。以前的人說「學富五車」是形容書讀很多的意思；然而，如果以尚未發明印刷術的眼光來看，「五車」的竹簡，大概指的是《論語》已經讀了好幾篇，快要讀《大學》《中庸》。

　　有了電腦之後，早年的資訊科技，不論是資料的產生、儲存、傳遞，講的是K （Kilo、仟、十的三次方10^3或2^(10)）。到了1990年代，講的是M（Mega、Million、百萬、十的六次方10^6 或2^(20) ）。進入二十一世紀，2000年左右，講的是G （Giga、Billion、十億、十的九次方10^9或2^(30)）。現在，我們講的是T（Tera、Trillion、萬億、兆、十的十二次方10^(12)或2^(40)）。

　　由此可見，資料的產生、儲存、傳遞真的進步太多了。

　　所以，我的博士班學生畢業的時候，只要一片光碟，就能把他們所有讀過、寫過的文章全部備份起來，非常輕便（卻也很沒成就感）。

　　鑑往知來，如果資訊科技進步繼續下去，我們會從T（Tera）一路走到P（petra、 10^(15)）和 E（exa、10^(18)）的世界（TPE也剛好是台北在國際航空的代號桃園國際機場）。

　　英國Centrica電力公司可以每三十分鐘透過網路讀取用戶智慧電錶一次，每天抄電錶四十八次，它能對用戶的用電行為觀察更多更瞭解，甚至分析之後能對客戶行為有更精準的預測，可以調節不同用電需求的輸配電電路。每天抄錶四十八次，一年就產生1T的資料。

　　1970年代，10M的磁碟機要40萬台幣，可以買當時的豪宅一棟；2000年左右，2G隨身碟（200個10M）約2萬台幣，可買當時的小噸數窗型冷氣機一台；現在（2013年），128G（64個2G、12800個10M）的隨身碟，新台幣2,388元即可入手，這個價格可以讓一對情侶到五星級飯店的自助餐廳用餐一次。

　　在資訊科技進步的軌跡上，我們不只已看到巨量資料的應用，我們更確信它的普及是個必然趨勢。

　　在數學符號上就是一個國中生寫下「10^(20)」不會有甚麼感覺，它就是1的後面跟上20個零。但是，在實體世界裡全地球所有海灘的沙粒總數大約就是這麼多粒，是很多很多的，對我們個人來說就是無限大，在佛經中則稱為「恆河沙數」。

　　小孩子不容易忘記，是因為他的記憶內容少，比較容易找到記得的事物；大人容易忘記，是因為記憶內容較多，卻沒有用心建立索引目錄分類、缺少工具與方法，或是傳輸線老化接觸不良，不容易找到曾經記憶過的事物。

　　如果資料少，當然容易找到過去的紀錄；如果資料多，當然增加極大的困難；更何況，要分析巨量資料中的數不盡的關係與內涵，絕對不是單純的正比關係。

　　如果在一家企業內部進行資料探勘應用，我們稱之為商業智慧（BI，Business Intelligence），這是許多公司知識管理的範疇，也已經有二、三十年的歷史；台灣資訊管理相關科系都有在資料庫相關課程裡探討。許多像SAP、Oracle、IBM等公司都提供類似的軟體工具。

　　但是，到了巨量資料一路往TPE走，許多智識都隱藏在雲深不知處，確實是能夠探勘出有價值的資訊，變成更有必要卻更困難，因此需要更有競爭力。

　　本書提出許多實際成功應用的案例，列出相關互動隱私及安全的議題，是一本有相當廣度的巨量資料相關讀物，很適合關心未來的知識份子閱讀。

文∕楊千
（本文作者為國立交通大學經營管理研究所教授）

推薦序

Big Data, Big Intelligence：從資料、資訊到情報

　　我在2006年任職於Google時，有一次，前往一所大學演講Google的儲存系統GFS。一位教授問我：「那資料要刪除的時候怎麼辦？」我反問：「資料為什麼要刪除？」在場所有人都露出奇怪的表情。

　　Google的認知是：資料（data）裡面會有資訊（information），「現在用不到」並不表示「以後用不到」。除非法律規定必須刪除，不然一概保留。今天大家已經聽到了「資料是新石油」（Data is the new oil.）這句話，也開始知道了資料中會有「看不見的價值」。

　　《孫子兵法》共有十三篇，最後一篇談〈用間〉，也就是情報戰。情報的價值，遠高於其他戰術或武器。今天所謂的精靈武器，就是能妥善運用地理定位（Geolocation）和圖形識別（Pattern Recognition）等技術所取得的資訊和情報。由最近幾年公布的許多資料可以看出，第二次世界大戰的勝負，其實就是決定在情報。由美軍破解日本海軍密碼而在中途島（Midway Islands）洞燭機先，到英國破解德軍潛艇的Enigma密碼而殲滅狼群以保全橫渡大西洋的生命線，都是任何戰術和武器無法獨自達成的。

　　情報如此重要，許多人把失敗的責任歸責於錯誤的情報，或是缺乏情報。事實上，我們的四周充滿了大量的情報，只是一般人無法有效正確地辨識。例如珍珠港事件（Pearl Harbor Bombing）之前，已有一封緊急電報示警，但是這封電報遭人擱置，直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人，小者被稱為福爾摩斯（Sherlock Holmes）或是柯南（名探偵□□□），大者就被稱為諸葛亮。在商場不見硝煙的戰爭中，情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具，更重要的是讀懂這些資料，把它們轉化成可用情報的智慧。正如我在 Facebook 上說過的（編按：全文詳見作者網誌〈IoT 和 Big Data 商機的迷思〉）：

　　想要做Big Data（巨量資料）的人請先認清楚：什麼是Data（資料）？

　　．存得起來的，就是storage（儲存）。
　　．看得到的，才是data（資料）。
　　．看得懂的，叫做information（資訊）。
　　．用得出來的，才能稱為intelligence（情報、智慧）。

　　Big Data這個名字事實上是有點誤導。真正賺錢的，是從big data中萃取出來的 big intelligence。為什麼CIA叫作Central Intelligence Agency（中央情報局），而不是Central Information Agency（中央資訊局）或Central Data Agency（中央資料局）？而萃取information和intelligence的技術並不是現在才有的。隨便問一個有水準的資訊資工系教授，就會告訴你data mining（資料探勘）、neural network（神經網路）、pattern recognition（圖形識別）、statistical machine translation（統計型機器翻譯）、information retrieval（資訊萃取）,...等等領域的歷史。這些才是困難而需要投資開發的領域，而不是一個簡單的大量儲存和平行運算系統。

　　我在2003年進入Google的時候，正是MapReduce初啟用之時。Google原本的Indexer是一套大程式，用了幾百台伺服器，要一個多星期才能完成工作。而中間只要有一台機器當機一次，就要全部重來。Google因此設計了MapReduce這套系統，主要目的在於容錯。將資料切成許多小塊，分到獨立的伺服器上處理。雖然機器數量增加到了兩千台，但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體，給了想做大量資料分析的人一個很好的工具，也讓Hadoop在很多人心中變成了Big Data的同義字。但事實上Hadoop只是一個平行分散式資料處理的工具，真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師（以後是叫做「資料科學家」？）能把時間用在真正重要的工作「資訊萃取」上，而不只是打造所需的工具。想要靠 Big Data 做一番事業的人，絕不是只要學會了這些工具就可以了。

　　1994年，商用的Internet開始成型，因為modem的速度和價格開始達到一般人可用的範圍。今天，儲存和處理資料的速度和價格也開始達到一般公司可以負擔得起初步的Big Data處理的程度。商用Internet起步的初期，業界很多人認為只要架個網站就會有生意上門。今天我們在Big Data這個領域也會有這麼一段混亂期，需要藉著更多好的介紹書籍和文章的引入，可以縮短這段過渡期。很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流，而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後，能對如何萃取周遭的資訊並加以運用有更深一層的認識，並從Big Data進步到Big Intelligence的層級。

　　共勉之。

文∕翟本喬
（本文作者為和沛科技股份有限公司總經理，曾任台達電子雲端技術中心資深處長、Google Platforms Architect。）

導讀

創造「偶然的幸運」（serendipity），正是巨量資料技術不斷前進的動力

　　接到本書導讀的邀稿時，剛好是我跟一家國內大型服務公司探討他們公司海外發展議題之後的下午。

　　這讓我想到，從2004年加入野村總合研究所台北分公司以來，轉眼已經過了九年。常有企業主在面對全球新的議題與挑戰時，諮詢我們的看法；而我們的顧問專家群，難免也會私下討論不同國家的企業主對於新事物的接受態度。

　　過去，我們總是以為台灣企業主很少願意從邏輯思考的角度，看清所謂新事物的全貌，凡事好像只想要得到「引進這件新事物的時機是否已經成熟？」的答案，卻沒有深入思考「如何親自將新事物引進企業，做為企業超越自我的契機？」。

　　讀完這本書之後，我必須稍加修正以上的觀點，或許該說，如果對於新事物的介紹，可以有辦法解說得完完整整、面面俱到，那麼，企業主怎麼可能放過這些知識呢？

　　這本書是我在東京總公司的同事城田真琴的著作，在日本，這本書出版於2012 年7月，2013年陸續出版韓文版、簡體中文版與繁體中文版，是巨量資料領域的重要著作。我認為，這本書內容能讓台灣的讀者有機會看見全球發展「巨量資料」的全貌。

　　本書的內容在第一及第二章介紹了「巨量資料」在資訊科技技術上出現的許多新名詞，例如Hadoop、NoSQL、LOD 等；並且進一步解說企業在資料運用層面，從過去的「資料可視化」進展到「資料預測未來」的境界；因此，強調深層的資料調查以及準確度的預測，讓企業因為採用巨量資料的「技術」而進展到更高的境界。

　　簡言之，對於電腦技術名詞沒有興趣的讀者，可以想像，過去資料只能「知道交易已經完成」的階段，當運用巨量資料以後，已經進化到可以「知道交易完成的原因」了。

　　對於想知道全球企業實際應用巨量資料個案的讀者們，可以在第三章了解到四家歐美企業的成功案例，其中包含網拍公司eBay如何整合過去的資料倉儲分析系統與巨量資料技術，讓大家羨慕eBay員工擁有三個不同的資料分析基礎來支持他們進行業務的拓展。此外，第三章也介紹遊戲公司Zynga如何以5 %的付費客戶繳出11億美元營收的驚人業績。英國瓦斯及電力公司Centrica的個案，讓讀者了解英國把150萬顆機械電表改成數位電表後，巨量資料改變每個人生活的情境。第三章最後介紹的是大型零售業者卡特琳娜行銷集團（Catalina Marketing），豪氣地蒐集一億人的消費資料，達成「能夠以100 %的準確度，預測出像是會購買某個商品的潛在消費者」的行銷新境界。

　　當讀者沉浸於以上個案的激盪時，別忘了第四章還有四個日本企業運用巨量資料的成功案例——小松（KOMATSU）是日本主要建築機械的供應商，其實在台灣的建築工地也不難看見小松的推土機以及怪手；小松的商業模式是租賃這些機械設備給營建商或是工務機構，因此，透過全球機械所不斷蒐集的相關巨量資料，已經可以用來推估設備維修的需求即將發生，以及給使用者燃料使用節省的建議做法等。瑞可利（RECRUIT）是家擁有各式各樣網路專門服務的公司，有求職、結婚、購屋網等，他們採用Hadoop技術，加上名為MIT（Marketing & IT United）的新組織，跨部門整合公司內部各單位，讓企業內部更有效地蒐集與分享利用巨量資料。此外，第四章也剖析日本遊戲公司GREE急速成長的原動力，在於「與其相信一人的判斷，不如相信數千萬人的資料」，他們稱為「資料驅動型營運方式」。第四章最後的日本麥當勞（McDonald’s Japan）案例，我在2009年就曾涉獵過，很佩服該公司仍持續發展個人化行銷的相關巨量資料，要達成「在現實世界實現一對一行銷」的願景。

　　原本我以為這本書第三章與第四章完整介紹歐美日的八個企業案例之後，到此應該夠了，但是，身為一位任職於全球知名智庫的管理顧問專家，如果只是把資料說個夠多，並沒有滿足提出「洞察力」（insight）這樣的專業標準，可能無法滿足讀者追根究柢的渴望。因此，我們可以看見第五章有13個巨量資料的運用案例，進一步介紹「將巨量資料引進企業，做為企業自我超越的契機」的具體樣貌。本書最令人讚歎的地方，在於作者將他研究企業應用巨量資料的成功案例，歸納成一張張淺顯易懂的圖表，其中，第五章【圖表5-1】巨量資料的運用模式，是一張相當精采的圖表，由個別最佳化、全體最佳化、批次處理與及時處理構成四種巨量資料運用的商業模式，滿足想要對於巨量資料獲利模式一探究竟的挑剔讀者們。

　　接下來，第六章探討美國歐盟以及日本主要國家對於巨量資料侵犯隱私的相關法律及對應的措施，針對許多服務業者關心台灣對於消費者隱私保護的議題而言，有具體的參考價值。

　　我們都知道，談巨量資料一定避免不了政府的公開資料（Open Data）此一環節，作者選擇在商業模式探討完畢之後，再來說明美、英、日等國政府鼓勵發展公開資料的具體做法，其實也確實符合我們的觀察，單單政府資料公開無法成為獲利模式的趨勢；但是，如果沒有政府的公開資料，肯定有些美好的巨量資料商業模式就無法成真。

　　事實上，本書結論讓我非常震撼——我是一位1990年代投身職場的上班族，當年，資訊工程師（Information Engineer）這個新職業造就了一波產業的革命，也帶動了台灣服務業的一波成長榮景。本書最後，作者告訴我們，身處巨量資料的年代，不僅僅企業在組織內需要一位資料長（Chief Data Officer）的新角色；而且未來十年，整個IT業界裡最重要的人才將是資料科學家（Data Scientist）這個新人才。美國的大學已經開始開設主修分析學的研究所課程，展開人才的培養教育，他需要培養三種特質，容我賣個關子，把這個答案留給讀者在本書裡挖掘吧！

　　最後，很高興出版單位給我有機會搶先讀完本書，我也很喜歡作者在本書中提出的許多細微的觀察，例如，在說明亞馬遜（Amazon）電子商務的「協同過濾」（Collaborative Filtering）技術時，引經據典地介紹「偶然的幸運」（Serendipity）這個詞，這是來自英國小說家霍雷斯．華爾波（Horace Walpole）在1754年的新創文字，描述消費者意外擁有幸運或是發現有價值事物的奇特心情，很傳神地說明了給消費者不可預期的幸運，正是巨量資料技術不斷前進的動力啊！

文∕陳志仁
（本文作者為台灣野村總研諮詢顧問股份有限公司副總經理）

看更多

內容連載

★第四章　以巨量資料為核心競爭力的企業　日本企業篇

⊙日本國內也開始運用巨量資料⊙

巨量資料的運用，印象中似乎是歐美企業領先於日本企業，不過，日本企業中也有一些著善於運用巨量資料而收到顯著成效，或正開始收割成果的公司。在本章，做為日本企業致力於巨量資料的事例，舉出小松（KOMATSU）、瑞可利（Recruit）、GREE與日本麥當勞為對象進行說明。

⊙小松（KOMATSU）：日本運用巨量資料的先驅⊙

以巨量資料為核心競爭力的日本企業中首先要介紹的，是僅次於美國Caterpillar Inc.的世界第二大建築機械製造商小松。早在「巨量資料」這個名詞尚未成形前，小松就已經開始致力於現今所稱之巨量資料的運用而收到顯著成效，如果說「日本巨量資料運用的原點就在小松」也不為過。尤其是利用GPS和感測器資料之巨量資料運用的精髓均濃縮在小松的例子裡，特別值得製造業參考。

對多數的日本企業來說，「全球化」是今後經營上最重要的課題。2010年度小松的合併營收為1兆8431億日圓，除了是名列全球第二的建築機械製造商外，從占了小松營收87.7%（1兆6156億日圓）之建築機械、車輛設備部門的地區別營收（請詳見【圖表4-1】）中，日本國內僅僅貢獻了16%（其餘皆來自海外）的事實來看，更應聚焦在小松是個非常早便實現全球化的企業這一點上。

小松全球化的原動力來自「KOMTRAX」，也就是能夠遠端監控建築機械運轉狀況的系統。KOMTRAX透過裝設在建築機械上的GPS與各種感測器，蒐集機械的現在所在位置、運轉時間、運轉狀況、燃料殘留量、耗材的更換時期等資料，並利用衛星或手機通訊，最後經由網路將這些資料送回小松位於日本的伺服器，藉由這樣的機制世界各地的經銷商與客戶都能對小松的伺服器進行存取，並確認自己所在地區之資料。

KOMTRAX最早的版本於1999年首度問世，將GPS裝設於小松旗下租賃公司的推土機和油壓怪手等機械上，藉此掌握個別車輛的位置資訊與運轉時間，好處是除了能更有效率地進行車輛調度外，更不會再遭到偷竊，並降低了維修管理成本。

小松自2011年起將KOMTRAX列為日本國內市場所有建築機械的標準配備，之後並擴大引進至歐美、中國等地，目前在菲律賓、越南、南非等全球約70個國家中，有超過26萬部的設備參與運轉（2012年3月底時）。剛開始只掌握了位置資訊與運轉時間，但目前已能夠蒐集如「什麼時候補給了燃料」「什麼時候在何種模式下使用了怪手」等各種資訊。

▲如何處理原始資料？▲

從小松KOMTRAX一連串致力於資料的運用方式中，我們想要學習的關鍵在於「從所蒐集之原始資料（raw data）獲得什麼樣的洞察」。比方說，只要知道建築機械的正確運轉時間，便能事先鎖定損耗率高的零件，在維修服務的效率化派上用場。只要知道燃料的使用量，便能藉由對燃料使用量多的客戶與使用量少的客戶之間的差異進行分析，來釐清雙方操作方式的不同，並給予燃料使用過多的客戶節省能源的建議。具體來說像是「白天時車輛位置並無變化，但引擎仍維持發動。最好提醒客戶不要怠速，記得關閉引擎」。

看完整內容連載