大數據的靈魂:資料素養和統計思維

文/蘇建州,《立報》總編輯,世新大學大數據中心主任,世新大學傳播管理學系教授

讓我們陷入困境的不是無知,而是看似正確的謬誤論斷(What gets us into trouble is not what we don’t know. It’s what we know for sure that just ain’t so.

馬克·吐溫

訊號(signal)和雜訊(noise)

這是真人實事改編電影大賣空(The Big Short)的開場。電影描述2007-2008年全球金融海嘯的因和果。劇中男主角是位熱愛資料分析的醫生,憑一己之力挖掘出房市泡沫的重要訊號房貸違約率上升,房價不降反升」,洞燭機先、賣空獲利;反觀坐擁大量資料和研究資源的政府機器、金融巨獸、投資集團卻當是雜訊,最後導致一場原可避免的金融大災難⋯⋯。眾人皆醉,為何只有這位醫生獨醒?這到底是那裡出了問題?

存活者偏差(survivorship bias)

隨機漫步的傻瓜:潛藏在生活與市場中的機率陷阱(Fooled by Randomness: The Hidden Role of Chance in Life and in the Markets)》被財星雜誌譽為「有史以來最聰明的書」,作者塔勒布書中反覆提到人們對失敗機率的「低估」,以及「存活者偏差」的概念。二次大戰期間,一位哥倫比亞大學統計學教授參與英國皇家空軍改進飛機的策略,目的是降低飛機墜毀機率。當時技術無法整體加強(太重飛不起來),只能加強飛機一小部分。在蒐集所有戰鬥返回飛機的中彈部位資料後,發現某部位中彈最多,某些部位基本上沒有中彈,大家都覺應該加強中彈最多的部位,但這位教授卻獨排眾議,反而是建議要加強那些沒有中彈的位置,因為這些部位中彈的飛機已經墜毀,看不見的彈痕是最致命的。即使蒐集了更多中彈飛機資料,也只是離真相愈遠。事實上,大數據不一定是「全數據」,而這樣的取樣偏誤,在我們的日常生活隨處可見。這到底是那裡出了問題?

研究方法和資料素養(Data Literacy)

近年來,教育部積極補助各大學成立校務研究辦公室,推動數據驅動(data driven)、循證基礎(evidence based),從主觀走向實證的決策模式。當不同年度、不同來源、不同型態的校務相關「大數據」被混、通、串、曬之後,一個個潛藏的關聯規則就這樣如雨後春筍般地被挖掘出來。但是這些研究發現真的可以信賴嗎?若是缺乏研究方法和資料素養,就可能會有誤用、錯用、濫用數據,或是扭曲偏差的解讀研究結果的風險。例如,最近一個簡單的研究問題:哪種「入學管道」(繁星推薦、學測申請、指考分發)學生入學後「表現」比較優異?就引爆台、清兩所頂大學府用辛辣、刻薄的語言相互對槓。台大批評清大「基本科學素養竟連小學生都不如」,清大諷刺台大「以小學觀念規畫大學招生會造成國家災難」。這到底是那裡出了問題?

與大數據的邂逅這樣開始

2006年8月正在夏威夷參加國際學術研討會,新聞傳播學院成露茜院長發了封電郵給我:「蘇老師,請研讀這篇文章!」那篇文章標題是「從資訊挖掘出意義(Mining Meaning from Information)」,刊載於高等教育紀事週刊(Chronicle of Higher Education)。還記得當時有碧海、藍天、沙灘、衝浪,但都不敵這文章的吸睛,我閱後是點頭頻頻如搗蒜。「如果《資料採礦》(Data Mining)還不是你日常交談的話題,那麼未來即將會是。如果學生從你任職的大學畢業,還不知《資料採礦》為何物,那麼你們學校一定那裡出了差錯⋯⋯」。於是一年後,我在任職的世新大學開始教授《資料採礦》課程。

性感的資料科學家(Data Scientist)

11年過去了,如今的大數據已是大勢所趨、大有可為。兼具領域知識、統計分析、電腦科學三種專業能力的資料料學家稀有卻需求殷切。因為人才的稀缺、誘人,被《哈佛商業評論(Harvard Business Review)》評為21世紀最性感的工作。因此,大學校園紛紛增開相關的課程,諸如資料採礦、資料視覺化、機器學習、知識探索、人工智能….,凡和大數據能沾到邊的,必然大受歡迎幾乎班班爆滿。對於這樣的風潮,杜克大學教授Dan Ariely:「大數據就像青少年談性,每個人都在說,卻不知道誰作了;每個人都認為別人在作,所以每個人都聲稱自已也在作。」雖然這是句玩笑話,卻也道出了實際的情況。

當大數據時代從資訊不足轉變為資訊泛濫之際,樹立正確的統計思維才是有效開展數據處理與分析的基石。此驗證了英國科幻小說作家H·G·威爾斯預言:「統計思維總有一天會像讀寫一樣,成為一個有效率公民的必備能力。」因為統計思維的數據能力已經如同語言、文字一般,是每個人溝通和學習的基本能力缺了靈魂的大數據分析就如行屍走肉

在終極的分析中,一切知識都是歷史;

在抽象的意義下,一切科學都是數學;

在理性的基礎上,所有的判斷都是統計學。

All knowledge is, in final analysis, history.

All sciences are, in the abstract, mathematics.

All judgements are, in their rationale, statistics.

這是著名印度裔統計學家C. R. Rao的語錄,大數據分析不應該是一個把資料丟進軟體的遊戲,最終還是得回歸統計學思維!

以下是三篇《台灣立報》大數據相關文章的簡要摘述,作者分別是何宗武教授與筆者。《台灣立報》未來仍會持續關注大數據的發展。

  • 數據的力量》:如果你覺得數據有趣,就盡情地享受用數據認識世界之樂;如果覺得數據無聊,那是因為還沒有意識到數據與真實世界的聯繫,不妨從生活周遭一些感興趣的小事、小物開始,試著理解小數據的力量,先跨出「數據素養」與「數據識讀」的第一步!
  • 親愛的,我把資料變大了!然後呢?》:科技帶來了大數據和演算法這些玩意,如果只把資料變大,而不是學習能力,接下來會如何?從小數據都學習不到的價值,大數據只是讓它更遙不可及。
  • 名嘴化的大數據和金融科技: 古人聞雞起舞,今者隨機起鬨大數據》:大數據分析的兩特點,其一是資料庫即便容量不大,但是串連「多樣」的資料,讓數據維度變大了;其二是要有大思維,大數據分析不是一個SOP的事情,不是一個把資料丟進軟體的遊戲。

查看更多文章:

隨時補充新觀點,《立報傳媒》Line→http://bit.ly/2YyjUW1