誰偷走了我的乳酪? — 除魅數據科技

文/何宗武 世新大學財務金融學系教授

過去幾年只要以大數據為演講主題,開始就會說我認為的大數據,只有兩個半:「棒球和醫療,以及半個金融數據」。因為這些個領域成功地結合了多樣數據和行為的意義融合,金融為何是半個?有機會再來說。此文談一談大數據的魅化,Big Data的緣起開始,漫談誰命名了大數據?

資訊人員很早很早就在處理大規模的資料倉儲問題,資訊界常用的字是大規模資料庫(large scale database),用以儲存結構與非結構型的資料庫。然而並沒有為這樣的資料型態給予一個響亮的名稱,直到Big Data被命名。Big Data大數據三個字最早應該是兩位傑出的資料科學家Weiss and Indurkhya[1]1997年在一本資料探勘專書所提到。

32810456_10156187894882906_1295092927923486720_n

之後科技商家(如IBM等)巧妙地以4V炒作出大數據商機;被大公司加工之後,大數據就像貼上了一道符,產業學校都必需用他安太歲,大數據三個字竟只是為了科技時尚。一個由科技商家(Vendor) 創造出來的行銷手法,竟然席捲了整個世界。Stephen Few在其書Big Data, Big Dupe(如圖),強力批判了這個被Vendor扭曲的現象。

32507969_10156187896547906_876525159219986432_n

Vendor多強調在資訊設備上「比大小,比速度」,很多的大數據專案多在展現一次能讀取多大量資料的技術。對決策而言,把數據放上Hadoop或MongoDB等資料庫,就能提高決策品質嗎?Weiss-Indurkhya書中提到的Big Data,並不是強調倉儲技術上的大,而是描述了資料的「大用」。所謂的大用,就是原本只是一些「記錄」(Record)的東西,經過處理變成資料後,竟然可以提取有用的資訊;而這些記錄,主要是文字和影像。這兩位文字分析的專家有另一本文字探勘的經典書(見下圖),他們用「大」描述資料的多樣性以及如何儲存這些大量非標準化資料表型態的紀錄。大數據的用途不是因為量大,擴大資料庫不一定會帶來什麼實質的決策幫助,而是透過解析方法從各種資料中提取決策資訊。好比電影【魔球】,雖然比賽記錄多到不行,但是沒有「提取」訊息,就只是記錄。球團經理Billy Beane做的工作,只是把訊息提取在一個決策框架內,讓這些數據呈現出驚人的意義,這就是典型的大數據。

32536928_10156187903147906_340261113214009344_n

回到最上面提到的兩個半問題,職棒運動數據為什麼又大又厚?因為除了科技設備紀錄的球員表現的數字和運動力學,還有球探紀錄的心理量表。資料事實(data fact)和決策價值(decision values)緊密黏著。演算法產生的價值,就是球團目標。數據分析的決策目標明確–贏。然而,其他領域中,意義為什麼從數據中流失?主因沒有清楚的決策目標,抑或目標沒有明確的價值基礎,以至於無法讓數據分析提供解決問題的訊號(意義),反而被數據分析的雜訊引導(炫酷的視覺效果)。

魔球的故事至少給我兩個資料科學的啟示,分享如下:

(1)你不需要一個事前的模式,再找幾個變數來撐住它;你需要找到多個變數,編織成一個模式。

(2)不是能計算的事物都重要,不是重要的事物都能計算。

不論大小,科學的知識本質就是「預測」(Prediction)。人類為了預測,發明了機率學,統計學,經濟學和機器學習等種種知識,即使邁入人工智慧,也只是一個以大數據演算法為基礎的預測。今年4月出版的新書Prediction Machines: The Simple Economics of Artificial Intelligence. 如同「風險vs.報酬」,「公平vs.效率」,決策品質依然受制於有限資源的互抵Trade-off關係。此書論點簡單明瞭:Prediction Efficiency vs. Prediction Accuracy。作者是三位傑出的經濟學家,點出了AI 的問題和市場炒作的泡沫,簡單地說:人工智能並未帶來智能,只是盡可能地改善預測表現;大數據沒有帶來什麼數據,只是盡可能地發掘意義

32710792_10156187908737906_368141064487305216_n

最後,眼觀科技,反求諸心。這些問題類似金融業一窩蜂搞區塊鏈,結果發現區塊鏈用於支付非常不理想。區塊鏈是從比特幣機制萃取三項技術組合而成,但是,若沒有token,區塊鏈的商業價值完全比不上傳統分布式資料庫。一些金融機構投注大量資源,夢想超級帳本(hyperledger)和金融業務的整合,到頭來才發現銀行傳統的中心化系統,比區塊鏈的去中心化更快更好。學校當然必須推動相關事宜,但是必須謹慎走對方向,免得只入從眾之流,不但發展不出特色,又損兵折將。

[1]S. M. Weiss and‎ Nitin Indurkhya (1997) Predictive Data Mining: A Practical Guide. Morgan Kaufmann. 學習資料探勘者多熟知此書此人。

31531559_10156163710667906_700320556783763456_o

隨時補充新觀點,《立報傳媒》Line→http://bit.ly/2YyjUW1