「大數據」已成為人們衝口而出的詞彙,龐大數目的私人資料、網上紀錄,以及當中呈現的行為模式和個人取向、隱私,究竟在展示社會規範的偽善,還是人性確有不為人知的真相?《紐約時報》撰稿人大衛德維茲 (Seth Stephens-Davidowitz) 2017年出版了《數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目》一書,就很值得參考。
德維茲是美國《紐約時報》撰稿人,2013年哈佛大學經濟學博士畢業,曾在Google擔任數據分析師,一直研究大數據對人類未來的影響,也是華盛頓商學院客席講師。《數據、謊言與真相》一書,是他在Google工作過程觀察所得的進一步研究,指出在網絡獲得的大數據,比我們平日在人前的言談舉止,或在訪問、問卷調查表達的意見,都更能反映最真實的內心世界;然而這樣的真相,卻充滿傳統規範定義的政治不正確,不少甚至有違法、道德問題。
面對所有人心底裏的黑暗面無所遁形的年代,國際關係又會面對怎樣的變革?
《數據、謊言與真相》的成書背景,源於作者對Google的親身經歷,因為他本來就是Google的數據分析師。在工作中,他發現當每人每日都使用網上搜尋器,不論是學術資料、新聞、商品、還是揭秘,搜尋行為日積月累,已形成個人行為模式、選擇和偏好的龐大資料庫,而且這是不可逆轉的。
通過個人在Google的搜尋關鍵詞、這些詞彙的搜尋次數、頻率和組合,這些資料建構了一個平行時空的世界,隱然透露了「真正」的主流價值觀。然後,他進一步研究Facebook、twitter等社交媒體,以及維基百科、約會網站、色情網站等,發現用戶在這些平台留下的痕跡,都有一個共通點:它們與民調或訪問收集的主流意見,往往大相逕庭。
基於以上設定,大衛德維茲認為大數據在未來世界,具有以下四項關鍵力量:
(1) 由於大數據是基於網絡使用者無意識、或「以為沒有人知道」的情況下,作出的搜尋行為而提供,反映更誠實、不加掩飾的數據資料,呈現人們生活的真實面貌和狀況,而非人們希望自己展現給別人的「政治正確」、「高大全」完美形象,也和我們平日要堅守的底線無關。
(2) 大數據讓分析員只需利用特定程式碼,就能輕易獲取數以十萬、百萬計網絡使用者的資訊,令獲取個人資訊的成本大幅降低,被數據主導未來的可能性則大增。而且大數據更可讓人不只看到整體趨勢,亦可針對特定組群如性別、年齡等,將數據切割分解,對特定群組具體分析,巨細無遺。
(3) 大數據能通過電腦運算的力量(機械學習),將龐大數量的數字、文字和圖像資訊加以編程整理,而成為更有意義的資料,再提供其他變項,從而了解本來貌似毫無關聯的事物之間,也許存在更複雜的關係。
(4) 大數據基於在網絡蒐集和整理的特性,更容易進行實驗、運算和分析,幫助知道不同數據和變項之間的因果關係,也更容易掌握箇中的相關性,例如「教徒是否特別表裏不一」這類問題,很可能在網絡得到答案。
(待續)
*改編自沈旭暉《信報財經新聞》文章
HO Wong
2025-09-03 02:46:36 +0000 UTCGood Year
2025-09-02 01:53:38 +0000 UTCGary Lee
2025-09-01 09:12:40 +0000 UTC