推薦序1
巨量資料不是萬靈丹,預測的模型更關鍵
數千年前,古埃及人發現,尼羅河洪水抵達開羅的前一天,天狼星會與太陽同時從地平線升起;然而在地球的另一邊,「神農氏作蠟祭,以赭鞭鞭草木,嘗百草,始有醫藥。」看似無關的兩個人類古文明的演進,其實是一體兩面,都是在透過各種方式蒐集資料、分析資料,並且找出規律以作為日後決策使用。可以說人類的文明就是透過「分析與預測」一點一滴累積的。
隨著人類的世界越來越複雜,分析預測必須透過更有效率的方式執行,也因此資料採礦與巨量資料變成現代顯學。本書有趣的地方在於,它並非一味地神話預測技術的無所不能,反倒是透過一連串的實例(金融海嘯、美國總統大選、恐怖攻擊……),來證明現代人類對於這世界預測模型的假設是多麼脆弱與簡化。但這並不是對預測技術的反動,反而是從過去案例中反省,告誡我們資料科學的發展除了要能協助人們從巨量資料中找出規則外,更重要的是要能夠讓人類辨別規則與雜訊間的差異,以及能夠評估模型失準時的風險。
若是說人類在預測的技術尚不夠純熟,這是不公平的,更多時候,是人類不願相信預測出來的結果,或者明知道預測的事件即將發生,但是卻恣意反其道而行(或是往對自己有利的方向進行)。然而「預測」已不僅是少數分析者個人的工作,而是一種集體的行為,決定了人類世界如何被推動、如何分配資源。至此,「預測力」儼然成為一種全新的資訊不對稱的知識暴力。
您也許不是一位資料科學家,看完本書也未必能讓您從這種「預測」的知識暴力種解放出來,但希望您能如作者所期許的:「平靜接受我們不能預測的事,勇敢預測我們能預測的事,睿智看出差異何在」。
尹相志
(本文作者為亞洲資採、亞洲決策資訊 技術長)
推薦序2
人類始終在追求對未來的精準預測
丹麥物理學家尼爾斯.波耳(Niels Bohr)曾說:「預測很難,尤其對於未來」。在我教授統計學的過程當中,常常跟同學討論到學習統計學的目的為何?統計學的精髓在於如何「以管窺天」,利用樣本的資料來做分析,萃取出有用的資訊,做出「精準的預測」,而《精準預測》這本書正是告訴我們如何利用簡單的數學運算達成目的。實際上,預測對我們的生活而言不可或缺。例如:樂透號碼的選擇、決定投資股票的標的,或職業生涯規畫等,都是我們對未來的一種預測。由此可見,人類真正目的其實在於得到「精準預測」的結果。
拜科技發達之賜,我們現在。龐大的數據固然提供我們強大的資料作為預測依據,然而數據不會說話,是資料分析師、統計學家,以及各種統計軟體在為它說話,也就是大家常提到的資料採礦(Data Mining, DM)。學者佛羅利(William Frawley)等人認為,資料採礦是從資料庫中挖掘出不明確、前所未知以及潛在有用的資訊過程。並從資料中提取出隱含過去未知且有價值的潛在訊息。因此透過資料採礦技術,從巨量資料庫中挖掘出「黃金」(即有用的資訊與知識)做出預測,支援企業決策分析,提升企業的競爭優勢。但以數據為導向的預測會成功也會失誤。本書作者認為預測最難的部分在於:從巨量資料中分辨雜訊和真正的信號。在書中作者提到,人們通常只選擇聽見對自己有利的數據,錯把雜訊當成信號,因而做出錯誤的判斷,這就是為什麼有些預測會失敗,而有些預測卻能與結果非常相近的主要原因。如果我們能學會分辨雜訊,準確判斷出數據中的訊號,我們仍有機會能成功預測,如同作者在二○○八年美國總統大選,成功預測五十州當中四十九州的總統勝選者,及三十五席參議員的勝選者。
在了解問題與造成錯誤的原因之後,知道如何解決該問題的方法,才是「精準預測」之關鍵所在。若只是分析問題成因卻未提出解決之道,也將使其淪為空談。本書最大的特色在於,作者將內容分成兩部分:前面七章在判斷預測的問題,後面六章在探討與運用貝氏定理的解決之道。讀者可以據此訓練自己分辨雜訊和真正訊號的能力,從巨量雜訊中看出重要的訊號,不論讀者涉略何種領域(自然科學、社會科學、學術研究、企業或是行政部門等),相信透過這本書都能使預測的能力更為「精準」,從巨量資料中取出「黃金」。
吳迪
(本文作者為統計學補教名師)
推薦序3
揭開「預測」的神祕面紗
在紐約大學史騰商學院攻讀MBA(企管碩士學位)時,我的統計學教授送了一句我永生難忘的話,他說:「無論統計的結果如何,如果你沒辦法找到它背後的道理,那就代表這次的分析出了問題。」
換句話說,統計是一種用來印證道理──也就是事物間因果關係──的工具。當事物之間有某種因果時,統計可以協助你發現並且驗證這樣的關係,進一步預測這個因果再次發生的機率。相反的,如果事物之間缺乏真實的因果,則無論統計之後得到任何結論,也只是數學上的巧合罷了。
讀奈特.席佛的這本《精準預測》,讓我不斷想起了教授的話。
雖然一般公認,席佛是數據分析與統計模型的專家,但在這本書裡他一路從統計原理講到金融海嘯、棒球、氣象、地震、失業率、傳染性疾病、運動賭盤、西洋棋、德州撲克、市場原理乃至於全球暖化,每一個領域除了關鍵的資料與圖表,他幾乎都能夠明白闡述「為什麼」這些資料有因果意義,甚至常常進一步去分析造成這些因果背後的人性。
用奈特自己的方式形容,他在這本跨越多個時空,厚重且實在的分析報告大彙整裡,充分展現了他的「狼性」,也就是跨學科、大膽找尋新方法、自我批判,並且以實徵為主的思考與工作方式 (請參照第二章)。
至於為什麼我們該花時間學習奈特的工作方式,其中一個很重要的因素是網路與各式連網裝置──包括你手中的智慧手機與平板電腦──的普及,正帶來前所未有的數據供給成長──僅僅在過去兩年內,我們所產生的資料量就佔據了人類史上所有資料量的 90%。
因此,就像奈特說的一樣,當你需要預測某個事件未來再次發生的機率,尤其當這件事會攸關國家安全、民眾健康、經濟發展,或是企業存亡等關鍵狀況時,從茫茫資料海中抽絲剝繭,找到那些關鍵指標的能力,將顯得越來越重要。
在這樣的一個時代,奈特.席佛這本《精準預測》更顯得重要,這裡面充滿著現代知識工作者必須了解的種種數據分析觀念與實務技巧,非常值得每個人用心體會、學習,並且實踐。
林之晨
(本文作者為appWorks 之初創投合夥人)
推薦序4
從奈特.席佛看新公民媒體崛起
奈特.席佛是一個統計學家、數學家,也是一位知名部落客,畢業於芝加哥大學經濟系。畢業後在會計師事務所安侯建業(KPMG)服務,之後創辦了 PECOTA系統,用統計數字追蹤大聯盟棒球員表現。隨後他的興趣轉向政治,二○○七年他創辦了FiveThirthyEight.com, 準確地預測了二○○八年的美國大選,二○○九年他更被《時代》雜誌選為最有影響力百大人物之一。二○一二年奈特再度準確地預測了總統大選結果。他善長分析海量數據,並且準確預估出選舉的結果。他經營的FiveThirtyEight.com網站在選舉的時候擁有全美數一數二的流量,硬是超越大型新聞入口網站CNN、福斯新聞和民調機構蓋洛普(Gallup)與AC尼爾森(ACNielsen)。他根據自己準備的民調數字,無誤地預測了歐巴馬的勝率。這位奉數字為上,不與說客、競選助理、民嘴、公關公司打交道的數學天才,到底憑藉什麼能力讓所有大型民調機構跌破眼鏡,臣服於下?
奈特的勝利背後涵義實為廣大。
第一,它代表了新公民媒體的崛起。過去的政治媒體圈被說客、名嘴、大型民調公司控制,這三個角色形成了利害共同體,用種種不透明的方式控制結果。然而,社群媒體 (social media) 的興起讓每一個人都變成了媒體,都有發聲管道。當這些個人媒體 (individual media) 能夠準確預測結果時,舊有的勢力即將面臨挑戰,也在快速崩壞的過程中。這樣的新公民媒體 (new citizen media) 崛起也將不斷衝撞傳統的新聞傳播。
這也代表著,第二,開放數據有助於促進政策透明化。奈特的成功有絕大的因素在於開放數據的運用。過去這些數據取得困難,讓選舉操作上有機可乘,在社群媒體的年代,開放數據 (open data) 是一項施政透明度 (policy transparency) 的指標。歐巴馬也大力提倡開放政府 (open government) 運動,而開放數據的取得也讓更多個人民調分析師更能合理的彙整、分析、解讀數據。未來,希望這些開放數據分析能讓議題的討論更趨向公評、公正,政策的透明化也將受到更多的監督。
台灣長久以來受到媒體民嘴影響,許多議題、政策的討論過於激情、非理性。一般民眾取得資訊也過於片斷、不完整,整個資訊流缺乏一個完整的過濾過程,結果也都不能縱觀全局,常常在討論一個議題,追一個新聞時,不斷爭辯,失去焦點。舊媒體為了收視率,製作出的新聞也僅是最低標準 (lowest common denominator)。然而在這個社群媒體崛起、新公民媒體出現的年代,奈特的《精準預測》更提供了我們在觀察事件的另一種新思維模式。而這樣個人新聞品牌 (individual journalism brand) 正是建立在信任、互動之上,而這也象徵了新聞將走到下一個階段。
許毓仁
(本文作者為TEDxTaipei策展人&共同創辦人、TED 亞洲大使)
推薦序5
將海量資料轉化為商業競爭的力量
全球建立及複製的資料量連年翻倍成長,二○一二年已突破二.八ZB(Zetta Byte,十 的二十一次方,約為二百億張藍光光碟的存量),預計二○二○年將達到四十ZB。倍速成長的動能不僅僅來自網路,還有包含用戶端設備如個人電腦及智慧型手機在內,形形色色的機器設備所產出的數據。
「資料淘金」儼然成為一門新顯學, 無論是成熟多元的商業智慧(Business Intelligence),或正蓄勢待發的海量資料(Big Data,或稱巨量資料),都展現了強勁的需求成長力道。Gartner調查公司估計,商業智慧軟體的全球巿值在二○一二年達到一百二十五億美元,七.二%的成長率傲視其他IT應用;IDC則預測,海量資料在亞太區(不含日本)的巿場規模將於二○一三年達到六.○三億美元,相對於二○一二年年成長四二.六%。
本書作者奈特.席佛善長分析海量數據,在二○○八年,他準確預測了美國總統歐巴馬的勝選,二○一二年又再度預測成功,讓民嘴、仰賴數據為生的市調公司嘖嘖稱奇,他是怎麼辦到的呢?在分秒必爭的商場競賽之中,什麼事情都需要直接切入核心,才能贏得市場先機。本書涵蓋金融財經、自然科學、社會科學,以及運動和比賽的實例,從淺顯的案例出發,讓您去思考預測難題之下一些最基本的問題,該如何將我們的判斷運用到資料上?該如何預見市場的變化?運用過去的經驗當指引,又明白未來將有所不同,兩者之間應該如何調解?
IDC也分析:海量資料在亞太區快速成長的原因之一,在於區域內的企業力求尋找競爭優勢,海量資料的應用正能投其所好;但要找到合適的應用方向、選擇最佳平台,以及突破部署障礙,則是最需注意的課題。
早在海量資料的概念成型且備受矚目之前,微軟就有深厚的海量資料應用經驗,以微軟的Bing搜尋服務為例,要分析超過一百PB(Peta Byte,十的十五次方)的資料,以提供高品質的搜尋結果。因此,更能解決企業對海量資料解決方案的期望。目前多家知名網路公司,利用微軟的海量資料解決方案來提升服務的品質。Yahoo!每天以每小時超過三十五萬億筆廣告曝光數處理重新整理的速度,藉此改善宣傳活動成效,提升廣告收益。顯然,企業能從大量的資料中,獲得即時商業洞察力,應用在複雜的事件處理和分析,改善業務與流程, 再加上名列全球CIO頭號要務的商業智慧分析,企業的資料淘金熱勢必將持續看漲, 協助企業發掘全新的成長契機與競爭優勢。
本書適合所有從事資訊、科學、數據分析的相關工作者,只要擁有這本武功祕笈,讓您在最短的時間內瞭解預測背後的真相,引領您邁向未來。
蔡恩全
(本文作者為台灣微軟總經理)
推薦序6
用機率思考,才能避免憑運氣創造
我在學統計的時候,毫無激情可言,貝式定理更是讓我冷感到極點。
當時貝式定理對正值青春的我來說,好比三歲的安心亞。我懷疑她以後會很正,但現在實在跟我無關。在思考工具上,貝式定理不大能派得上用場,不是因為這個定理本身沒用,是因為這個定理需要的資料不是那麼充足。但在資訊取得成本越來越低的時代,貝式定理越來越炙手可熱。
越多的資料,在一定的條件下,越能幫助我們預測,正如邱吉爾說過的:「你越回顧,就越前瞻。」在邱吉爾的決策邏輯裡,他盡可能地保留所有想像上的可能性。看起來像極了使用貝式定理建立預測模型,然後才依據歷史事實,從最不可能發生的劇本開始刪去(或是給予一個期望值)。邱吉爾並不是以一種「歷史總會重演」的角度來說明回顧與前瞻的因果邏輯。而是用統計資料鎖定「不會」發生的事,並讓可能發生的事留在既有「統計事實」之外。
這種「out of sample」(樣本外)的觀念,正是賈伯斯在創新的時候「沒有」說出的事實。他只說我們不可能依靠統計來發明新的產品,但更貼近事實的描述,是賈伯斯所創造的產品,是「Out of the Sample」的。在iPhone被創造出來後,才有iPhone的統計數據(市場)。
這裡是統計與創新的交界處。
一方面,我越來越懷疑統計與機率會成為我們這個時代的新九九乘法,會變成我們這個時代的基礎教育。但另一方面,這些跟數據、分析、預測相關的理論與工具,一次一次間接又無可避免地衝擊我們的自由意志。我們到底是出於自由意志做出的選擇,還是越來越落入自以為在選擇的毫無選擇。韓寒曾經有句名言:「世界上有兩種邏輯,一種是邏輯,一種是中國邏輯。」在這裡,選擇也變成了兩種。
如果《快思慢想》確實地讓我們成為一個心理準備好要理性的思考者,《精準預測》可能讓我們在實務上真的更接近一名理性的思考者。直覺上,我認為我們必須(必須,就是一種毫無選擇)快速提升統計與機率的理解,才能保有自由選擇的權利。
奈特.席佛更直接點明:「只要我們對資訊的理解程度跟不上資訊的成長速度,我們就會面臨危險。」他直接用危險二字,描述我們正在迎接的世界,大概是因為知識就是力量。如果真的是因為這個力量的重新分配,造成這樣的危險。那麼我們面臨的危險,可能不只有一種。
戴季全
(本文作者為Richi里斯特、TechOrange流線傳媒創辦人)
留言列表