在資料「爆炸」的時代,巨量資料常常被寄予厚望。到底,什麼樣的資料才算巨量資料,怎樣才能用好巨量資料,傳統統計學還有用武之地嗎?清華大學統計學研究中心前不久成立,著名統計學家、哈佛大學終身教授劉軍擔任主任。日前,劉軍做客人民日報、人民網《文化講壇》,分享他的思考。
——編者
讓巨量資料區別於資料的,是其海量積累、高增長率和多樣性
什麼是資料?資料(data)在拉丁文里是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。籠統地說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為資料。古人「結繩記事」,打了結的繩子就是資料。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數字是資料,文字是資料,圖像、音頻、視頻等都是資料。
什麼是巨量資料呢?量的增多,是人們對巨量資料的第一個認識。隨著科技發展,各個領域的資料量都在迅猛增長。有研究發現,近年來,數字資料的數量每3年多就會翻一番。
巨量資料區別於資料,還在於資料的多樣性。正如高德納諮詢公司研究報告指出的,資料的爆炸是三維的、立體的。所謂的三維,除了指資料量快速增大外,還指資料增長速度的加快,以及資料的多樣性,即資料的來源、種類不斷增加。
從資料到巨量資料,不僅是量的積累,更是質的飛躍。海量的、不同來源、不同形式、包含不同信息的資料可以容易地被整合、分析,原本孤立的資料變得互相聯通。這使得人們通過資料分析,能發現小資料時代很難發現的新知識,創造新的價值。
通過資料來研究規律、發現規律,貫穿了人類社會發展的始終。人類科學發展史上的不少進步都和資料採集分析直接相關,例如現代醫學流行病學的開端。倫敦1854年發生了大規模的霍亂,很長時間沒有辦法控制。一位醫師用標點地圖的方法研究了當地水井分布和霍亂患者分布之間的關係,發現有一口水井周圍,霍亂患病率明顯較高,藉此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之後,霍亂的發病率明顯下降。這種方法,充分展示了資料的力量。
本質上說,許多科學活動都是資料挖掘,不是從預先設定好的理論或者原理出發,通過演繹來研究問題,而是從資料本身出發通過歸納來總結規律。近現代以來,隨著我們面臨的問題變得越來越複雜,通過演繹的方式來研究問題常常變得很困難。這就使得資料歸納的方法變得越來越重要,資料的重要性也越發凸顯出來。
巨量資料是非競爭性資源,有助於政府科學決策、商家精準營銷
巨量資料時代,資料的重要作用更加凸顯,許多國家都把巨量資料提升到國家戰略的高度。
政府合理利用巨量資料,引導決策的將是基於實證的事實,政府會更有預見性、更加負責、更加開放。中國古代治國就已經有重資料的思想,如商鞅提出,「強國知十三數……欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削」。巨量資料時代,循「數」治國將更加有效。小資料時代,政府做決策更多依憑經驗和局部資料,難免頭痛醫頭、腳痛醫腳。比如,交通堵塞就多修路。巨量資料時代,政府做決策能夠從粗放型轉向集約型。路堵了,利用巨量資料分析,可以得知哪一時間、哪一地段最容易堵,或在這一地段附近多修路,或提前預警引導居民合理安排出行,實現對交通流的最佳配置和控制,改善交通。
對於商家來說,巨量資料使精準營銷成為可能。一個有趣的故事,是沃爾瑪超市的「啤酒、尿布」現象。沃爾瑪超市分析銷售資料時發現,顧客消費單上和尿布一起出現次數最多的商品,竟然是啤酒。跟蹤調查後發現,有不少年輕爸爸會在買尿布時,順便買些啤酒喝。沃爾瑪發現這一規律後,搭配促銷啤酒、尿布,銷量大幅增加。巨量資料時代,每個人都會「自發地」提供資料。我們的各種行為,如點擊網頁、使用手機、刷卡消費、觀看電視、坐地鐵出行、駕駛汽車,都會生成資料並被記錄下來,我們的性別、職業、喜好、消費能力等信息,都會被商家從中挖掘出來,以分析商機。
巨量資料也將使個人受益。從生物學、醫學上講,以前生物學家只是通過對單個或幾個基因的操控來觀察其對生物體的影響,很難發現整體的關聯。現在由於技術的發展,可以分析很多,如遺傳信息、全體基因的表達量信息、蛋白質族譜信息、全基因組甲基化信息、表觀遺傳信息等。同時還有個人健康指標、病歷、藥物反應等資料。如果真能達成生物學上多維多向資料的有機融合,就能夠把個人完整地描述出來,從而實現精準醫療的目的。
巨量資料時代,審核資料的真實性也有了更有效的手段。巨量資料的特徵之一是多樣性,不同來源、不同維度的資料之間存在一定的關聯度,可以交叉驗證。例如,某地的工業產值虛報了一倍,但用電量和能耗卻沒有達到相應的規模。這就是資料異常,很容易被系統識別出來。發現異常後,相關部門再進行複核,就能更有針對性地防止、打擊資料造假。
資料是一種資源,但資料又跟煤、石油等物質性資源不一樣。物質性資源不可再生,你用多了,別人就用少了,因而很難共享。資料可以重複使用、不斷產生新的價值。巨量資料資源的使用是非惡性競爭的,共享的前提下,更能夠製造雙贏。從另一個角度來說,資料如果不被融合、聯繫在一起,也不能稱之為巨量資料。
巨量資料不能被直接拿來使用,統計學依然是資料分析的靈魂
現在社會上有一種流行的說法,認為在巨量資料時代,「樣本=全體」,人們得到的不是抽樣資料而是全資料,因而只需要簡單地數一數就可以下結論了,複雜的統計學方法可以不再需要了。
在我看來,這種觀點非常錯誤。首先,巨量資料告知信息但不解釋信息。打個比方說,巨量資料是「原油」而不是「汽油」,不能被直接拿來使用。就像股票市場,即使把所有的資料都公布出來,不懂的人依然不知道資料代表的信息。巨量資料時代,統計學依然是資料分析的靈魂。正如加州大學伯克利分校邁克爾•喬丹教授指出的,「沒有系統的資料科學作為指導的巨量資料研究,就如同不利用工程科學的知識來建造橋樑,很多橋樑可能會坍塌,並帶來嚴重的後果。」
其次,全資料的概念本身很難經得起推敲。全資料,顧名思義就是全部資料。這在某些特定的場合對於某些特定的問題確實可能實現。比如,要比較清華、北大兩校同學數學能力整體上哪個更強,可以收集到兩校同學高考時的數學成績作為研究的資料對象。從某種意義上說,這是全資料。但是,並不是說我們有了這個全資料就能很好地回答問題。
一方面,這個資料雖然是全資料,但仍然具有不確定性。入校時的數學成績並不一定完全代表學生的數學能力。假如讓所有同學重新參加一次高考,幾乎每個同學都會有一個新的成績。分別用這兩組全資料去做分析,結論就可能發生變化。另一方面,事物在不斷地發展和變化,同學入校時的成績並不能夠代表現在的能力。全體同學的高考成績資料,僅對於那次考試而言是全資料。「全」是有邊界的,超出了邊界就不再是全知全能了。事物的發展充滿了不確定性,而統計學,既研究如何從資料中把信息和規律提取出來,找出最優化的方案;也研究如何把資料當中的不確定性量化出來。
所以說,在巨量資料時代,資料分析的很多根本性問題和小資料時代並沒有本質區別。當然,巨量資料的特點,確實對資料分析提出了全新挑戰。例如,許多傳統統計方法應用到巨量資料上,巨大計算量和存儲量往往使其難以承受;對結構複雜、來源多樣的資料,如何建立有效的統計學模型也需要新的探索和嘗試。對於新時代的資料科學而言,這些挑戰也同時意味著巨大的機遇,有可能會產生新的思想、方法和技術。

4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:數盟