資料素養比資料量還重要!

文/何宗武 世新大學財務金融學系特聘教授

2017台灣政治學會年會今年在政大舉辦,受邀主持一場「厚數據」場次,最後被與會來賓要求總結一下,因為有了數年來的些許觀察,也借花獻佛,在立報與讀者分享:

  • 不需糾結大數據的V定義。管他呢,誰在乎比大小?大數據有泡沫,資料科學沒有。我們只要確定不管是什麼型態的數據,我們都有能力可以處理得很好,解析出意義,繼而產生有效的決策。
  • 大數據本身就是厚數據,只因現前發展出現問題,一則因為「資料工程」資料庫技術取向太過,談起來都是資料庫的結構化與非結構化,程式設計,忽略了「資料科學」的內涵;二則也因為「資料科學」這四個字被濫用的無以復加,只要再電腦前處理數據的,都自稱資料科學家。因此,我們才重新以厚數據強調在資料庫技術氾濫下,探究失落的意義維度。
  • 大數據沒有快捷鍵,不是質化或量化問題,也不是萬靈丹,進入社會科學研究的可行性尚須謹慎,目前所有的工作都只是嘗試。大數據在社會科學現行研究的工作在解析:『現行研究受到另類數據的撞擊後,意義產生的變化』。以紅樓夢為例,紅學專家的研究,遇到文字探勘的數位撞擊後,產生的意義變化和衝突,要如何去調和?匯率變動的預測,遇到情緒資料的數位衝擊時,對現行模型的預測有何衝擊?關於這樣的關係,對學術研究有利有害,都還不知道。
  • 不要屈服於壓力而向外界展示你很時尚,正在用大數據做什麼事;也不需要什麼事都要冠上一個「大」字;不然就陷入一種宗教術語,好比大佛,大阿羅漢,大菩薩等等。許多聰明的企業,因為被市場炒作蠱惑,花大錢一頭栽進去。顯而易見的教訓,代價卻很高。

大數據分析的三個價值創造的問題:擴充現有的分析流程,增加額外價值;找到新方法來處理當下的問題;找到全新的亟待解決之問題。簡而言之,在這個數據消費的時代,每一個人多多少少被迫透過一定的數據來完成某些工作。因此,大數據之餘,還須要由資料素養或識讀(Data Literacy)來紮根。在這樣的背景下,去年在世新通識開設了<街道上的統計學>一門課,最高分竟是英語系的幾位同學,本科有學過統計學的學生,表現反而多不如預期,可見得學以致用是一個很大的問題。

為了更深入教學品質,隨後將課程內容結晶成一本輕統計,期望在資料素養的教育上,能夠更紮根。世新大學除了成立大數據中心,由資料科學專家蘇建州教授領軍,另一方面也很認真落實在「資料素養教育」這件事。不是老王賣瓜,是希望明年在教室看到中文系和法律系的學生,一同踏入識讀資料的世界。

23550185_10155694581522906_897088725713606961_o

查看更多文章:

(本文圖片來源:作者提供)

隨時補充新觀點,《立報傳媒》Line→http://bit.ly/2YyjUW1