數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目

數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目
定價:420
NT $ 45 ~ 378
 

內容簡介

▍誠品書店當月選書
▍城邦讀書花園當月選書
▍亞馬遜非文學類當月選書
▍亞馬遜 2017 年年度最佳商管書
▍《財星》雜誌當月最佳商業書籍
▍《紐約時報》暢銷書
▍《經濟學人》《紐約郵報》《圖書館期刊》等多家媒體推薦

★大數據下的真實人性!
★結合《精準預測》的大量資訊分析、《異數》的敘事風格,以及《蘋果橘子經濟學》的機智風趣。
★ Google 前資料分析師描寫大數據最令人信服、深具挑釁,甚至令人捧腹大笑的一本書!

人們謊報在回家途中喝了多少酒,
謊稱自己多常上健身房和新鞋子買多少錢,
就連沒看過的書也說自己有看過。
沒生病卻打電話請病假,說再聯絡卻不再聯絡。
人們說事情跟你無關,但其實就跟你有關。
明明不愛你,卻騙你說愛你。
心情不好時卻說自己很開心,
明明喜歡男人,卻說自己喜歡女人。
人們對朋友說謊、對老闆說謊、對子女說謊、對父母說謊、
對醫生說謊、對老公說謊、對老婆說謊,也對自己說謊。
作者證明大數據提供一種前所未有的方式,
讓我們窺探人們的內心世界,
因為人們透過鍵盤才會在無意中私密地坦承千奇百怪的事情。

歐巴馬當選表示美國的種族歧視緩解了?錯!
黑人球員進入職業運動殿堂是貧困孩子奮發向上的勵志故事?大部分不是!
挑選賽馬最重要的參考依據是血統?不!
父母對待兒子和女兒的態度不一樣嗎?不一樣!
佛洛伊德說夢境中的事物都有性意涵,這是對的嗎?很可能不對!

回答問卷、民意調查、接受採訪、臉書貼文
──我們都有可能說謊;
但是你的搜尋行為可不會說謊!
大數據,呈現我們每個人、每秒鐘無意識的反射!

  無論是嚴肅或日常的議題,如今我們已有途徑能解答不久之前因種種原因(例如缺乏數據,或單純不敢提問)還未能解答的問題。

  四年前,作者還是哈佛經濟系博士班學生,正努力找尋論文題目。有天早上,他發現 Google 基本上已為所有研究者備好所需的資料,也就是說,Google 是全球人類興趣資料庫的集中地,這些資料簡直就是任何對人類行為感興趣的人夢寐以求的:從我們每個人每天的網路搜尋中找到行為模式。然而,這些資料早已存在好些時日,卻從未有任何報章雜誌對其有過深刻的報導與研究。

  作者深入研究 Google、推特(Twitter)、臉書(Facebook)、警察局紀錄、電影票收據、維基百科、色情網站、棒球球員個人成績表,和你想像不到的數位與傳統資料來源之後,發現這些資料來源有個共通的特點:他們提供的是大數據,亦即我們每個人每秒鐘無意識的反射,而非根據民意調查而來的一小部分民眾的意見樣本。

  網路上的新數據,也就是數十億人在 Google、社群媒體、約會網站,甚至色情網站留下的數位足跡,最後會揭穿事實真相。這些不僅是新類型的數據,更有些是「誠實」的數據,在匿名機制下,彷彿四下無人時,人們才會吐露自己最真實的想法,以及真正想問的尷尬問題。這類數據就像數位版的「誠實豆沙包」,讓人們表達出自己的無性婚姻、個人精神健康問題、不安全感、受虐,以及對黑人或穆斯林的憎惡。透過分析這座數字金礦,我們現在可以了解人們真正在想什麼,真正想要什麼,以及真正做了什麼。

  作者在本書中展示,要從數據中獲得寶貴資訊,最關鍵的一點是:你必須問對問題。而大數據有四大關鍵力量可以協助:

  ⒈大數據能讓你將數據切割分解,讓你見微知著及獲得具體的見解。
  ⒉新的資料來源通常包括新類型的變數,比現存變數更能幫助我們了解複雜關係,並充分利用。
  ⒊新的數位資訊能提供我們生活的真實樣貌,而非我們希望自己呈現給外人的形象。
  ⒋大數據易於與實驗結合,使我們能測試因果關係,而非僅是相關性。

  進入網路新時代的這幾十年以來,我們在健康、道德、勞動市場、商業、恐怖主義、性別,以及種族等議題上有長足的認識。我們的數位足跡已把整個世界變成一個實驗室,本書將呈現出這場數位革命如何為我們每個人打開找尋隱藏真理的大門,一窺人們的內心世界,提出大數據時代真正的洞見。

  本書以極具啟發性的觀點解讀大數據,並以各式各樣有趣的案例忠實呈現網路世界與當代社會的現況,讓我們得以重新認識自己與這個世界。

專業人士推薦

▍苗博雅(《阿苗帶風向》主持人)專文推薦
▍張鐵志(文化與社會趨勢觀察家)、馮勃翰(台大經濟系副教授)誠實推薦

專業人士推薦語

▍《阿苗帶風向》主持人苗博雅:
「透過作者風趣的文筆,我們知道大數據搭配電腦運算,有嶄新的力量……作者雖然醉心於以新穎方式分析海量數據,但他仍然在書中誠實地提醒讀者大數據的各種『能與不能』……本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。」

▍哈佛大學榮譽退休校長暨諾頓講座教授勞倫斯‧桑默斯(Lawrence Summers):
「《蘋果橘子經濟學》(Freakonomics)和《魔球》(Moneyball)都要靠邊站了。這本精彩傑作是說明大數據結合聰明才智如何撼動世界的最佳示範。閱讀這本好書,會讓你以嶄新的方式看待生活。」

▍《人性中的良善天使》作者史蒂芬‧平克(Steven Pinker):
「研究思維的一種嶄新方式,史蒂芬斯—大衛德維茲的發現一次又一次地顛覆我對自己國家和同胞先入為主的看法……這本書真是太令人著迷了。」

▍《蘋果橘子經濟學》合著者史蒂芬‧李維特(Steven Levitt):
「針對大數據揭露人們日常生活真相做出絕頂聰明又機鋒處處的探索。史蒂芬斯—大衛德維茲是我見過最會善用數據說故事的高手。」

▍《我們是誰?大數據下的人類行為觀察》作者克里斯汀‧魯德(Christian Rudder):
「對於我們生活的數據進行振奮人心又引人入勝的審視……大數據會徹底推翻你對人們的既定印象,真相會讓你畏縮、暗自竊笑並搖頭嘆息。」

▍《注意力商人》(The Attention Merchants)作者吳修銘(Tim Wu):
「《數據、謊言與真相》仰賴大數據迅速拆穿我們自以為文明的假象。一本讓人既著迷又震驚,時而駭人聽聞的傑作。最棒的是,讓真相一覽無遺。」

▍史丹佛大學經濟學教授拉吉‧切提(Raj Chetty):
「《蘋果橘子經濟學》的增強版,這本書顯示大數據如何能針對重要有趣的問題,提供我們驚人的新答案。史蒂芬斯—大衛德維茲以機智俐落的方式提供數據分析,為構成社會科學的大數據提供精闢出色的介紹。 」

▍拉扎德投資銀行(Lazard)董事總經理暨前國會預算辦公室主任彼得‧奧薩格(Peter Orszag):
「傑作!!!作者妙筆生花敘述透過大數據進行的一場寓教於樂之旅。這場旅程剛好為人類行為本身提出一個重要的新觀點。如果你想了解我們居住的世界正在發生什麼事,甚至是了解你的友人究竟怎麼回事,你就該從頭到尾看完這本書。」

 

作者介紹

作者簡介

賽斯‧史蒂芬斯—大衛德維茲Seth Stephens-Davidowitz
  《紐約時報》撰稿人暨華頓商學院客座講師,曾為Google數據科學家。史丹佛大學哲學系畢,哈佛大學優等生榮譽學會(Phi Beta Kappa)成員暨經濟學博士,目前定居紐約市。史蒂芬斯—大衛德維茲的研究使用新的大數據來源,揭露人們潛藏的行為和態度,並已刊登在《公共經濟學期刊》(Journal of Public Economics)等聲望卓著的出版物。

譯者簡介

陳琇玲Joyce Chen
  美國密蘇里大學工管碩士,曾任大學講師、軟體中文化及影片翻譯譯者、Alcatel Telecom主任稽核師。已出版譯作百餘冊並多次獲得金書獎殊榮,現以翻譯為樂並習畫自娛。重要譯作包括:《搜尋未來》《2017-2019投資大進擊》《物聯網革命》《引爆會員經濟》《精準預測時代》《人工智慧的未來》等。

相關著作:《2017-2019投資大進擊:全球趨勢專家首次揭露一輩子一次的投資良機》《OQ:哈佛商學院最有成效的經營課》《不必多花錢,也有超強競爭力!》《別再拚命討好顧客——專心替顧客省麻煩,回購比例就能輕鬆提高94%!》《川普、清崎點石成金》《用十張地圖看懂全球政經局勢》

 

目錄

推薦序 現象、真相與解方──提到「大數據」,你想到什麼?/苗博雅
推薦序 大數據成了窺探你內心的新窗口/史蒂芬‧平克

前 言 川普勝選讓你跌破眼鏡?那是你沒看懂數據
    ──歐巴馬勝選代表種族歧視已經好轉?看看「黑鬼」的搜尋次數好嗎?

第一篇 管他大數據還是小數據

第一章 別讓直覺扯你後腿──是什麼造就了 NBA 球星?

第二篇 大數據的驚人力量

第二章 佛洛伊德說的正確嗎?──拼錯字背後隱藏的慾望
第三章 怎樣的數據算是大數據?──每個年代都可以算出「平均長相」
第四章 躲在線上的真相──你永遠問不出來的同志比例、仇恨言論、性隱私和顧客的腦袋
第五章 我們周遭發生了什麼事?──逃稅最嚴重的城市
第六章 整個世界,都是我的實驗室──怎樣的頭條標題吸引人?

第三篇 小心面對大數據!

第七章 大數據,大垃圾?──大數據看起來很萬能,但別拿它來算明牌!
第八章 愈多數據,愈多問題?──我可能因大數據而無法借款?

結 論 大數據告訴我,很少人看到最後一頁
 

推薦序》現象、真相與解方──提到「大數據」,你想到什麼?
苗博雅/《阿苗帶風向》主持人

  想到城市裡數萬支監視器?想到電影《關鍵報告》(Minority Report)?還是想到一個令人興奮的研究領域?一大堆不知從何分析起的資料?想到臉書(Facebook)和 Google 大神總是會在你逛網拍後推送相關廣告給你?或者是政府定期公布的失業率、薪資、加班時數統計?犯罪熱區、犯罪率?

  你有聽過有關美國職棒大聯盟(MLB)奧克蘭運動家隊《魔球》(Moneyball)的故事嗎?運動家隊制服組頭子比利‧比恩(Billy Beane)利用「棒球統計學」成功締造許多「砂礫中撿到珍珠」的故事,讓小資本的運動家隊也創下傲人戰績。找到好球員並不稀奇,傳統的球探也能做到。《魔球》的威力在於能成功辨識被傳統球探低估的優質球員,在球員身價不高時用低價簽下,等到球員打出佳績還可高價脫手。怎麼做到的呢?就在於更多數據、更多統計。

  《魔球》的祕訣,就是發展新的棒球統計數據,找出傳統數據並不特別傲人,但進階數據可找出與優秀球員比肩的新秀。使用比傳統數據更能準確評估球員能力的進階數據,可提升預測球員未來表現的準確度;比別人更早發展出新的進階數據,等於掌握了別人沒有的水晶球,可以提早進場佈局。

  掌握且懂得運用更多數據的人,有更大的機會成為贏家,這給了所有競爭者一個追求數據棒球的好理由。在比利‧比恩創下佳績後,大聯盟的三十支球隊制服組都開始學著使用進階數據。原本被低估的球員不再被低估,要追求超額利潤,就必須再找出無人知曉的有用數據才行。更多的細節、更複雜的計算方式、更多的變項、更多的維度,就是要比別人搶先一步看到未來。

  不只棒球如此,金融市場更是數據的殺戮戰場。如何評估一個金融商品是金雞母還是賠錢貨?古早時代可能是道聽塗說、問朋友、去工廠看存貨。現代可能是看財報,分析各種數據。如何評估景氣趨勢呢?古人已經學會看港口、市場的繁忙程度,現代人多了失業率、GDP 等各種指標。經濟學迄今發展出的各式數據統計早已超過一百年前科學家的想像。

  所有的成功故事,或多或少都跟「資訊比人多、動作比人快」有關。人類很早就發現「歸納過去可以預測未來」的道理。從古文明觀星象到美國職棒大聯盟的《魔球》,人類發展與使用「數據」的歷史非常久遠。「統計學」從來不是新鮮事。「大數據」到底有什麼特別之處嗎?

什麼是「大數據」?

  作者在書中並未對「大數據」下一個清楚的定義。一來,在資訊爆炸時代,人類一天可以產生二百五十萬兆位元組的資訊量,到底要多「大」才夠「大」?二來,擁有海量數據並不會自動產生精闢結論。「垃圾進,垃圾出」(Garbage in, garbage out)是所有曾學過統計的人致力避免的錯誤。我們不應高估數據「量」的重要性(畢竟跟人類一天產生的數據量相比,再多數據也都是相對少量)。即使是相對較少量的數據但使用新穎方式處理,也可能讓我們看見以前不知道的真相。

  總之,作者跳過了「定義大數據」的階段。選擇了另一種論述方式:讓大數據的力量說明它自身的特質。

  作者在書中試圖論證四種「大數據的力量」,包括:

  ⒈提供新類型的數據:這主要是仰賴「電腦運算」的力量。包括書籍中的字詞、畢業紀念冊的照片,都可以藉由電腦運算處理成千上萬、上千萬筆資訊,並做出有意義的統計結果。若是使用人力,恐怕難以處理。
  ⒉提供誠實的數據:這是仰賴「以為沒人知道」的力量。作者運用了 Google 搜尋統計,發現人們不願說出口的祕密。例如深藏內心的種族歧視、仇恨思想,以及推測未出櫃的同志人口、未報案的虐童案件、墮胎手術等政府統計資訊沒有處理到的角落。還有,色情網站 PronHub 讓作者得以一窺人們不會公開談論的性事。這都來自於大數據曝光了人們原本以為沒人在看的角落。
  ⒊可以針對更特定的人口進行分析:大數據讓獲取每個樣本的單位成本大幅降低,「海量樣本、超低成本」成為現實。只需要幾行程式碼就能取得數十萬使用者的資訊,我們不僅可以看到大趨勢,更可以針對特定人口(例如出生在特定年分的男性是否喜歡某支球隊)做出有意義的分析。
  ⒋更容易進行「因果關係」的實驗:過去的統計學找出了很多「相關性」,但要找出「因果關係」可就不是這麼容易了。拜網路之賜,幾行程式碼就可以讓成千上萬不知情的使用者協助企業進行A/B測試(A/B testing)。大數據不只窺伺人們的祕密,更讓人們不知不覺間幫助企業挖掘連自己都未必知曉的偏好。

  透過作者風趣的文筆,我們知道大數據搭配電腦運算,有嶄新的力量。大數據能完成一百年前做不出來的實驗,能打臉佛洛伊德的精神分析。百年前的天才們以少量樣本輔佐直覺得出的結論,如今能透過大數據找到證據或反證。原本「以推論對抗推論」的爭辯,現在可以變成「證據對抗證據」。如同電腦運算速度大幅提升帶來學術突破性進展,現今的大數據應用是一種更強大的研究工具。

所以呢?大數據就一定好棒棒嗎?

  就我的理解,本書描述的大數據意味著「用更便宜的價格,取得更大量、更誠實的樣本」。如果我們可以用更少的錢,做出更精確的統計,代表我們有可能更成功地預測未來,也有可能挖出原本不為人知的資訊。也難怪擁有海量資源的政府、企業爭先恐後投入大數據研究。

  但大數據再厲害,也無法改變統計學和邏輯學的基本原理。統計學與邏輯告訴我們,觀察到「現象」,未必等於掌握「真相」,更不等於理解「原因」。研究人類行為和社會現象,質性的觀察、歸納與演繹仍然不可或缺。

  我們可以用大數據找出「賽馬左心室大小可以成為預測賽馬明星的有效指標」,但左心室何以影響馬匹的運動表現?還是要由獸醫學解答。大數據告訴我們美國極右派網站「風暴前線」(Stormfront)的使用者造訪《紐約時報》(New York Times)網站的可能性是他們造訪「雅虎新聞」(Yahoo News)的兩倍,是「勘查敵情」還是其他原因?大數據顯示在景氣蕭條時期虐童相關的 Google 搜尋量增加,但官方接獲的通報數卻未顯著上升,這之間的落差代表什麼?臉書可以撈出許多大數據,但臉書的貼文真的呈現人們的真實生活嗎?這些問題,都需要進一步的控制變因以及質性研究分析才能解答。

  知道更多「現象」並不會自動帶來問題的「解方」。如果只沉迷於數據相關性,而忽略了因果關係的嚴謹判斷與質性研究,輕則鬧出「短裙流行會導致冰淇淋暢銷」的笑話,重則可能犯下「PornHub 網站的女性使用者搜尋『強暴』或『強迫』性交的數量比男性多,代表女性其實喜歡這些行為」之類低級又粗劣的錯誤。這是許多熱衷讚頌大數據威能的人所忽略的重點。

  而本書的優點之一,就是本書作者雖然醉心於以新穎方式分析海量數據,但他仍然在書中誠實地提醒讀者大數據的各種「能與不能」。

  依照作者的觀點,大數據未必能大殺四方。它最有威力的領域,是在「傳統方法效率極差」的領域,大數據較有可能帶來革命性的創新。然而在已經發展成熟統計分析方法的領域,例如金融業,大數據未必能有特別傑出的表現。作者也坦言,大數據仍然需要「人類判斷與小型調查」的輔助才能發揮最好的效果。同時也在本書的後段章節提醒讀者必須「小心面對大數據」,注意過度授權政府及企業將帶來危險。

  大數據的驚人力量,必然有後座力。例如,掌握大數據的人可以輕易知道更多資訊,但無法取得這些數據的人呢?大數據是一項研究人類行為的神兵利器,但同時也製造了一個極大的資訊落差。利用這個資訊落差所衍生的牟利行為,我們有能力加以監督嗎?當人們日常行為的數據近乎免費地集中在少數的企業或政府手中,為企業或政府創造了超額利潤,弱勢的平凡人能分享受益嗎?大數據的力量之一來自於「誠實」,但人們並非自願誠實,而是「以為沒人知道」。大數據窺探了人們自以為獨處的時刻,那我們該如何更合理地維護人們想要擁有的隱私呢?

  以上問題並沒有簡單的解答。但我認為這些問題值得每一位讀者放在心上。從作者進行的研究項目,包括美國潛藏的種族主義、仇恨言論、出身與階級流動、未出櫃同志人口、虐童案件、政府態度對墮胎的影響等,也可看出他手握大數據的同時仍然保有對社會的關懷。但本書並非學術書,書中提到非常多大數據統計的案例,但絕大多數都沒有標明統計的細節(例如時間區間、樣本數、抽樣母體等)。且在談論與色情、性癖好有關的章節,雖然作者在註腳清楚表明自己其實並不知道 Google 搜尋者的性別,但為了行文方便還是直接採取了假定所有人都是異性戀的方式。因此本書比較像是報紙專欄的集結,而非一本論文。不過這也正是本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。

推薦序》大數據成了窺探你內心的新窗口
史蒂芬.平克(Steven Pinker)/美國實驗心理學家、認知科學家暨科普作家

  自從哲學家開始思索「腦部檢查鏡」這種能在螢幕上顯示個人想法的神話般裝置後,社會科學家就一直在找尋工具揭露人性的運作。身為實驗心理學家,我在事業生涯中看到不同工具的興衰演變,這些工具我全都試用過,包括:評定量表、反應時間、瞳孔擴張、功能性神經影像學,甚至是將電極植入癲癇患者腦部進行語言實驗,以腦波轉譯人類語言。

  然而,這些方法都無法提供一個暢通無阻的觀點,將人們的內心世界一覽無遺,其間的問題就在於一個殘酷的取捨。人的思想是複雜的主題,不像知名導演伍迪.艾倫(Woody Allen)用速讀方式看完《戰爭與和平》(War and Peace)後,只知道「那是一本關於俄羅斯的小說」。我們知道人類的內心世界並非那樣簡單,但是這些主題如此糾纏又牽涉甚廣,根本讓科學家難以分析。當然,當人們訴說自己的心聲時,我們會理解人們意識流的豐富性,但是獨白並非測試假設的理想數據。另一方面,如果我們專注於容易量化的方法,比如說:人們對字詞的反應時間或對圖片的皮膚反應,雖然我們可以製作出統計數據,卻將複雜的認知結構單純化為單一數字。即使最複雜的神經影像學方法論可以告訴我們,一個想法在三維空間中如何展現,卻無法告訴我們想法是由什麼構成的。

  在可追查性和豐富性之間做取捨已經讓狀況有夠複雜了,研究人性的科學家們卻還要被小數法則(Law of Small Numbers)困擾。這項法則是阿莫斯.特維斯基(Amos Tversky)和丹尼爾.卡納曼(Daniel Kahneman)為這種謬誤所取的名字,科學家們誤以為人口特質會反映在任何樣本中,無論樣本多小。但事實上,就連計算能力最強的科學家也無法憑直覺斷定,一項研究真正需要調查多少對象,才能不考慮樣本中隨機出現的異常值,而能將所有美國人概括陳述。至於我們不了解的智人(Homo sapiens),那就更不用說了。當樣本是透過便利方式蒐集,一切就變得更不確定,比方說,我們為了取得樣本,在課堂中給大二學生一點小錢買啤酒。

  這本書跟研究思維的一種嶄新方式有關。來自網路搜尋和其他線上回應的大數據並非一種腦部檢查鏡,但是作者賽斯.史蒂芬斯—大衛德維茲證明大數據提供一種前所未有的方式,讓我們窺探人們的內心世界。人們透過鍵盤可以私密地坦承千奇百怪的事情,譬如在約會網站或搜尋專業意見時吐露心聲,因為在現實生活中講這些事可是要承擔後果的。在其他時候,也正因為不必承擔後果,人們可以吐露自己的一些渴望或恐懼,而不會令人沮喪或有不好的反應。無論是哪一種情況,人們不僅按下按鈕或轉動旋鈕,也鍵入幾兆字元序列中的任何字元序列,以各種爆炸性的組合說出自己的心聲。更棒的是,人們以一種易於彙總分析的形式留下這些數位足跡。這些數位足跡來自各行各業,可以參與不引人注目的實驗,讓刺激變得多樣化並能即時將反應列表顯示。在人們開心提供這些數據之際,網路大數據衍然成形。

  《數據、謊言與真相》不僅僅是一個概念驗證。史蒂芬斯—大衛德維茲的發現一次又一次地顛覆我對自己國家和同胞的先入之見。唐納德.川普(Donald Trump)的潛在支持者來自何處?專欄作家安.蘭德斯(Ann Landers)在一九七六年詢問讀者是否後悔生小孩時,得到的回應令她訝異地發現大多數人都後悔生小孩,蘭德斯有沒有受到不具代表性的自選樣本誤導呢?網路是否要為二○一○年代後期的「過濾氣泡」(filter bubble)*負責?觸發人們犯下仇恨罪行的原因為何?人們會找笑話讓自己開心嗎?雖然我總以為沒有什麼事情能嚇到我,但是網路披露人們性傾向的內情,真的讓我跌破眼鏡,包括發現每個月有一定數量的女性在搜尋「填充玩偶自慰」這回事。就算使用反應時間、瞳孔擴張或功能性神經影像等方法進行實驗,都不可能揭穿這項事實。

  我相信大家都會喜歡《數據、謊言與真相》這本書。史蒂芬斯—大衛德維茲以無比的好奇心和迷人的機智,為二十一世紀的社會科學指出一條新的道路。有了大數據這個無限迷人又能窺探人心的窗口,誰還需要什麼腦部檢查鏡呢?

*「過濾氣泡」指演算法過濾掉個人可能不喜歡或不認同的資訊。
 

內容連載

別讓直覺扯你後腿——是什麼造就了NBA球星?

小時候,我只有一個夢想:我希望長大後成為經濟學家和數據科學家。沒有啦,我開玩笑的。小時候我很想成為職籃球員,效法我的英雄——紐約尼克隊明星中鋒派崔克.尤英(Patrick Ewing)。

有時我懷疑每一位數據科學家的內心都像小孩一般,設法弄清楚為什麼自己童年的夢想沒有成真。難怪最近我會調查要在美國職籃(後稱NBA)闖出名號,需要具備什麼條件。調查結果令人驚訝。事實上,調查結果再次證明,有效的數據科學可能如何改變你對世界的看法,以及這些數字可能多麼違反直覺。

我特別關注的問題是:在貧窮家庭長大,還是在中產階級家庭長大,讓你更有可能在NBA成名?

大多數人會猜前者。一般人都認為,在貧困環境下長大,也許由十幾歲未婚媽媽辛苦扶養的環境,有助於培養在這種競爭激烈運動比賽中達到頂尖水準所需的驅動力。

費城高中籃球教練威廉.艾勒比(William Ellerbee)在接受《運動畫刊》(Sports Illustrated)採訪時表示:「郊區小孩打球往往只是為了好玩,但都市貧民區的小孩卻把籃球當成生死攸關的大事。」唉,我是在紐澤西州郊區由雙親扶養長大,而我這個世代最優秀的球員雷霸龍.詹姆斯(LeBron James),是在俄亥俄州阿克倫由一名十六歲貧窮的單親媽媽扶養長大。

事實上,我進行的一項網路調查顯示,大多數美國人的看法跟艾勒比教練和我一樣:NBA球員大多在貧困環境下長大。

這種普遍看法正確嗎?

我們來看看數據怎麼說。目前並沒有關於NBA球員社經背景的綜合數據來源,但是藉由數據檢測,利用來自許多來源的數據,例如basketball-reference.com、ancestry.com等網站和美國人口普查及其他數據,我們可以弄清楚哪些家庭背景最有利於NBA球員的養成。你會發現這項研究使用各種數據來源,其中有些數據來源較大、有些數據較小,有些是網路數據、有些是離線數據。跟一些新的數據來源同樣令人振奮的是,只要傳統來源的數據有幫助,優秀數據科學家不會將其摒除在外。取得問題正確答案的最佳方式是,結合所有可用的數據。

網路書店 類別 折扣 價格
  1. 二手書
    11
    $45
  2. 二手書
    38
    $160
  3. 二手書
    43
    $180
  4. 二手書
    43
    $180
  5. 二手書
    43
    $180
  6. 二手書
    58
    $245
  7. 二手書
    6
    $250
  8. 二手書
    62
    $260
  9. 二手書
    62
    $260
  10. 二手書
    64
    $270
  11. 二手書
    67
    $283
  12. 二手書
    69
    $289
  13. 二手書
    69
    $290
  14. 二手書
    69
    $290
  15. 電子書
    69
    $290
  16. 二手書
    71
    $300
  17. 二手書
    72
    $304
  18. 二手書
    72
    $304
  19. 新書
    79
    $331
  20. 新書
    79
    $332
  21. 新書
    79
    $332
  22. 新書
    79
    $332
  23. 新書
    79
    $332
  24. 新書
    79
    $332
  25. 新書
    79
    $332
  26. 新書
    85
    $357
  27. 新書
    88
    $370
  28. 新書
    9
    $378