文/蘇建州,《立報》總編輯,世新大學大數據中心主任,世新大學傳播管理學系教授
讓我們陷入困境的不是無知,而是看似正確的謬誤論斷(What gets us into trouble is not what we don’t know. It’s what we know for sure that just ain’t so.)
—馬克·吐溫
訊號(signal)和雜訊(noise)
這是真人實事改編電影大賣空(The Big Short)的開場。電影描述2007-2008年全球金融海嘯的因和果。劇中男主角是位熱愛資料分析的醫生,憑一己之力挖掘出房市泡沫的重要訊號「房貸違約率上升,房價不降反升」,洞燭機先、賣空獲利;反觀坐擁大量資料和研究資源的政府機器、金融巨獸、投資集團卻當是雜訊,最後導致一場原可避免的金融大災難⋯⋯。眾人皆醉,為何只有這位醫生獨醒?這到底是那裡出了問題?
存活者偏差(survivorship bias)
《隨機漫步的傻瓜:潛藏在生活與市場中的機率陷阱(Fooled by Randomness: The Hidden Role of Chance in Life and in the Markets)》被財星雜誌譽為「有史以來最聰明的書」,作者塔勒布書中反覆提到人們對失敗機率的「低估」,以及「存活者偏差」的概念。二次大戰期間,一位哥倫比亞大學統計學教授參與英國皇家空軍改進飛機的策略,目的是降低飛機墜毀機率。當時技術無法整體加強(太重飛不起來),只能加強飛機一小部分。在蒐集所有戰鬥返回飛機的中彈部位資料後,發現某部位中彈最多,某些部位基本上沒有中彈,大家都覺應該加強中彈最多的部位,但這位教授卻獨排眾議,反而是建議要加強那些沒有中彈的位置,因為這些部位中彈的飛機已經墜毀,看不見的彈痕是最致命的。即使蒐集了更多中彈飛機資料,也只是離真相愈遠。事實上,大數據不一定是「全數據」,而這樣的取樣偏誤,在我們的日常生活隨處可見。這到底是那裡出了問題?
研究方法和資料素養(Data Literacy)
近年來,教育部積極補助各大學成立校務研究辦公室,推動數據驅動(data driven)、循證基礎(evidence based),從主觀走向實證的決策模式。當不同年度、不同來源、不同型態的校務相關「大數據」被混、通、串、曬之後,一個個潛藏的關聯規則就這樣如雨後春筍般地被挖掘出來。但是這些研究發現真的可以信賴嗎?若是缺乏研究方法和資料素養,就可能會有誤用、錯用、濫用數據,或是扭曲偏差的解讀研究結果的風險。例如,最近一個簡單的研究問題:哪種「入學管道」(繁星推薦、學測申請、指考分發)學生入學後「表現」比較優異?就引爆台、清兩所頂大學府用辛辣、刻薄的語言相互對槓。台大批評清大「基本科學素養竟連小學生都不如」,清大諷刺台大「以小學觀念規畫大學招生會造成國家災難」。這到底是那裡出了問題?
與大數據的邂逅這樣開始
2006年8月正在夏威夷參加國際學術研討會,新聞傳播學院成露茜院長發了封電郵給我:「蘇老師,請研讀這篇文章!」那篇文章標題是「從資訊挖掘出意義(Mining Meaning from Information)」,刊載於高等教育紀事週刊(Chronicle of Higher Education)。還記得當時有碧海、藍天、沙灘、衝浪,但都不敵這文章的吸睛,我閱後是點頭頻頻如搗蒜。「如果《資料採礦》(Data Mining)還不是你日常交談的話題,那麼未來即將會是。如果學生從你任職的大學畢業,還不知《資料採礦》為何物,那麼你們學校一定那裡出了差錯⋯⋯」。於是一年後,我在任職的世新大學開始教授《資料採礦》課程。
性感的資料科學家(Data Scientist)
11年過去了,如今的大數據已是大勢所趨、大有可為。兼具領域知識、統計分析、電腦科學三種專業能力的資料料學家稀有卻需求殷切。因為人才的稀缺、誘人,被《哈佛商業評論(Harvard Business Review)》評為21世紀最性感的工作。因此,大學校園紛紛增開相關的課程,諸如資料採礦、資料視覺化、機器學習、知識探索、人工智能….,凡和大數據能沾到邊的,必然大受歡迎幾乎班班爆滿。對於這樣的風潮,杜克大學教授Dan Ariely:「大數據就像青少年談性,每個人都在說,卻不知道誰作了;每個人都認為別人在作,所以每個人都聲稱自已也在作。」雖然這是句玩笑話,卻也道出了實際的情況。
當大數據時代從資訊不足轉變為資訊泛濫之際,樹立正確的統計思維才是有效開展數據處理與分析的基石。此驗證了英國科幻小說作家H·G·威爾斯預言:「統計思維總有一天會像讀寫一樣,成為一個有效率公民的必備能力。」因為統計思維的數據能力已經如同語言、文字一般,是每個人溝通和學習的基本能力。缺了靈魂的大數據分析就如行屍走肉…
在終極的分析中,一切知識都是歷史;
在抽象的意義下,一切科學都是數學;
在理性的基礎上,所有的判斷都是統計學。
All knowledge is, in final analysis, history.
All sciences are, in the abstract, mathematics.
All judgements are, in their rationale, statistics.
這是著名印度裔統計學家C. R. Rao的語錄,大數據分析不應該是一個把資料丟進軟體的遊戲,最終還是得回歸統計學思維!
以下是三篇《台灣立報》大數據相關文章的簡要摘述,作者分別是何宗武教授與筆者。《台灣立報》未來仍會持續關注大數據的發展。
- 《數據的力量》:如果你覺得數據有趣,就盡情地享受用數據認識世界之樂;如果覺得數據無聊,那是因為還沒有意識到數據與真實世界的聯繫,不妨從生活周遭一些感興趣的小事、小物開始,試著理解小數據的力量,先跨出「數據素養」與「數據識讀」的第一步!
- 《親愛的,我把資料變大了!然後呢?》:科技帶來了大數據和演算法這些玩意,如果只把資料變大,而不是學習能力,接下來會如何?從小數據都學習不到的價值,大數據只是讓它更遙不可及。
- 《名嘴化的大數據和金融科技: 古人聞雞起舞,今者隨機起鬨大數據》:大數據分析的兩特點,其一是資料庫即便容量不大,但是串連「多樣」的資料,讓數據維度變大了;其二是要有大思維,大數據分析不是一個SOP的事情,不是一個把資料丟進軟體的遊戲。

查看更多文章:
- ║傳播║總統先生,民調沒有完蛋
- ║科技║數據的力量
- ║教育║「變中學」的「真計畫」課程
- ║傳播║即時文章是新聞媒體的續命丸或糖衣毒?-To take or not to take, that is the question
- ║傳播║三十同人,社群《立報》回來了——《立報》改版發刊詞
- ║教育║立報起蟄 推動教育創新、媒體革新