大數據時代的現實生活

發布時間:2012-09-27

●改變我們(men) 生活的科學革命停留在了自然科學的邊界上,從(cong) 沒有逾越而觸及人類。

●如果我們(men) 像研究自然現象一樣研究人類,我們(men) 就能夠預測人類行為(wei) 。

●一旦收集到足夠多的數據,就可以提出這個(ge) 基本的問題:我們(men) 的可預測性有多高?並且會(hui) 得到一個(ge) 令人震驚的答案。

■艾伯特·巴拉巴西

人類不願被放在顯微鏡下觀察

某種程度上來講,有關(guan) 人類行為(wei) 的統計確實有很重要的意義(yi) 。大量有關(guan) 人類行為(wei) 的數據該怎樣為(wei) 我們(men) 所用呢?我是一個(ge) 物理學家,也可以說是一個(ge) 自然科學家,我認為(wei) 自然現象是可以被解析、描述,被量化的,並且是可以預測、可以控製的,這一點無可厚非。這是科學家應該做的,也是推動科學家研究的動力。那麽(me) ,如果我們(men) 用人類來代替之前提到的自然現象呢?剛才那句話將變成:人類是可以被解析、描述,被量化,並且是可以預測、可以控製的。這顯然是一個(ge) 會(hui) 令人感到非常恐慌的陳述。

然而,我們(men) 無須恐慌,這其實是一個(ge) 好消息。在科學領域有一個(ge) 我們(men) 從(cong) 不去探討的小秘密,改變我們(men) 生活的科學革命停留在了自然科學的邊界上,從(cong) 沒有逾越而觸及人類。

我們(men) 不會(hui) 阻止科學家去預測電子移動軌跡,卻不願預知電子危機、金融危機等;我們(men) 不介意科學家去研究基因,卻不願預知戰爭(zheng) 、重大的危機等。原因非常簡單。人類和細菌或其他有機體(ti) 有一個(ge) 根本的不同,即細菌不會(hui) 因為(wei) 被放到顯微鏡下而惱怒,月亮也不會(hui) 因為(wei) 飛船登陸到它的表麵而提出控訴。

預測需要數據

想要預測,必須要掌握大量數據,那些說自己不需要數據就可以作預測的人不是看手相的就是商業(ye) 顧問。

在對人類行為(wei) 的預測方麵,我們(men) 現在擁有了大量數據的支持。我們(men) 發出的每封郵件都留下了一個(ge) 人的社會(hui) 關(guan) 係、愛好等生活線索。銀行了解我們(men) 的支付能力、品味、購買(mai) 意願以及購物地點。雖然我們(men) 常常選擇不去想這些,但事實是我們(men) 已經將自己放在了記錄事實的多倍顯微鏡下,這些數據細節讓他人可以迅速了解我們(men) 的生活。

《爆發》講的就是數據統計給掌控人類行為(wei) 的研究帶來的改變。這裏麵包括方方麵麵的數據,其中之一是隱私方麵的數據。《爆發》一書(shu) 雖然提到了隱私,卻不是在講隱私。它講的是我們(men) 的社會(hui) 正在變成一個(ge) 大實驗室,自動收集的數據揭示了人類行為(wei) 模式。

說到人類行為(wei) ,我首先要解釋一個(ge) 問題:“為(wei) 什麽(me) 一個(ge) 物理學家要關(guan) 注人類行為(wei) ?”事實是,物理學家關(guan) 心人類行為(wei) ,是想了解其背後複雜的係統。這裏有很多複雜的體(ti) 係值得研究。大腦是一方麵,還有經濟、細胞,以及計算機係統。去年我們(men) 發現,要了解個(ge) 人行為(wei) ,社會(hui) 是最好的平台。這些數據幫助我們(men) 了解到每個(ge) 人的日常行為(wei) ,比如每一個(ge) 神經元每一刻都在做什麽(me) ,或者說每一個(ge) 基因都有什麽(me) 作用。因為(wei) 這套個(ge) 人統計數據統計了每個(ge) 人的行為(wei) ,包括他們(men) 的行為(wei) 模式、運動模式,以及方方麵麵,所以如果你想實用一些,並且相信每一個(ge) 複雜體(ti) 係都是相似的,那麽(me) 你就在朝著掌握更多數據、取得更大進展的方向前進。過去的五年、十年中,人類社會(hui) 朝著逐步變成一個(ge) 本源的複雜體(ti) 係、一個(ge) 便於(yu) 我們(men) 掌控的體(ti) 係的方向發展,但這是一個(ge) 漫長的過程。

所謂“爆發”,是一個(ge) 人人都在遵循的行為(wei) 模式,如果你觀察現實生活中人們(men) 的行為(wei) 模式:什麽(me) 時候發郵件,什麽(me) 時候打電話,什麽(me) 時候瀏覽網頁,你一定會(hui) 發現確實存在這樣的模式,我們(men) 在這一方麵掌握了大量數據。這些行為(wei) 都不是隨機的,而是聚集,最終爆發。也就是說,你會(hui) 在一段很短的時間裏發出大量郵件,然後在接下來很長一段時間裏什麽(me) 都不做,然後接下來又是一個(ge) 爆發,打電話也是一樣。所以,在過去十年我們(men) 關(guan) 於(yu) 人類行為(wei) 一個(ge) 很重要的發現就是,人類行為(wei) 不是隨機的,而是聚集帶來的爆發。而最重要的是這些行為(wei) 都遵循“冪律分布”。

當然沒有人認為(wei) 自己的行為(wei) 模式是隨機的,這從(cong) 來就不是問題所在。問題是,隨機行為(wei) 的特點是什麽(me) ?爆發是特點之一,而且爆發也會(hui) 將我們(men) 引向下一個(ge) 問題,這個(ge) 我在前麵也提到了。如果我們(men) 像研究自然現象一樣研究人類,我們(men) 就能夠預測人類行為(wei) 。

預測本身其實就是一個(ge) 令人感到恐懼的詞。我們(men) 要預測什麽(me) ?我們(men) 要預測今晚會(hui) 夢到什麽(me) 嗎?我們(men) 要預測下次升職是什麽(me) 時候嗎?或者預測我們(men) 會(hui) 偶遇誰?所有這些預測都需要數據的支持,需要大量數據的支持。我們(men) 作預測的能力取決(jue) 於(yu) 我們(men) 掌握多少數據,有了這些數據我們(men) 才能說預測的可能性有多大。所以,幾年前我開始思考這個(ge) 問題時,我決(jue) 定從(cong) 收集人類行為(wei) 軌跡的相關(guan) 數據開始,即我們(men) 在哪裏,接下來又要去哪裏。我當時沒有收集他人數據的渠道,卻又非常好奇作預測的可能性,所以我決(jue) 定從(cong) 收集自己的數據開始。

進入大數據時代

其實,很多人行為(wei) 軌跡的數據都被收集了。現在還有人不用手機嗎?當然,人們(men) 不會(hui) 自欺欺人地去否認這個(ge) 事實:即你的手機廠商知道你每一時刻都在哪裏。他們(men) 不僅(jin) 知道你的位置信息,還知道你打的每一通電話(為(wei) 了統計話費)。他們(men) 不僅(jin) 知道你在哪裏,也知道其他成千上萬(wan) 的客戶在哪裏。所以,相對於(yu) 我所收集的關(guan) 於(yu) 自己的數據,他們(men) 掌握的數據要豐(feng) 富很多。有了這些數據,人們(men) 就可以對不同的個(ge) 體(ti) 進行比較。當然,手機商很擔心這些數據會(hui) 外泄,因為(wei) 他們(men) 要保持用戶對他們(men) 的信任,同時外泄信息還會(hui) 受到法律的處罰。但是近幾年,他們(men) 逐步意識到這些數據的價(jia) 值所在,於(yu) 是開始將數據提供給研究者和其他公司。我的研究小組也得到了大量有關(guan) 人類行為(wei) 軌跡和通話模式的信息,信息的主人當然是匿名的,我們(men) 不知道主人是誰,也不知道他們(men) 的電話號碼。我們(men) 隻是將他們(men) 看做在宇宙中移動的小個(ge) 體(ti) ,就像組成汽油的溴一樣。

有了這些數據,我們(men) 終於(yu) 可以問:人類行為(wei) 的可預測性是多少?人的行為(wei) 可以預測嗎?

我們(men) 之前提出的問題之一是:人們(men) 每天會(hui) 移動多遠?答案很簡單。如果你想要查一查移動這麽(me) 遠的人有多少,這是一個(ge) 典型的行車距離,大部分人都會(hui) 移動這麽(me) 遠。你會(hui) 發現大部分人傾(qing) 向於(yu) 在一個(ge) 相對小的範圍內(nei) 移動。當然也有少數住在城郊的人會(hui) 移動一段相當長的距離,移動範圍較小的人的數量對比移動範圍較大的人的數量正好符合一個(ge) 精確的“冪律分布”。所以,如果你掌握了大量數據,就可以預測有多少人是旅行者,有多少人在很遠的地方上班,有多少人大多數時間待在附近,或是在家中工作。這是我們(men) 研究的第一步。這已經表明,在研究一個(ge) 龐大的人群時,我們(men) 會(hui) 發現不同人的行為(wei) 是迥異的。下一步,我們(men) 用得出的行為(wei) 軌跡算出每個(ge) 人的熵。

什麽(me) 是熵呢?整個(ge) 體(ti) 係的熵是零,就是說這個(ge) 係統的狀態很明朗,你知道每一個(ge) 點在哪裏,每一個(ge) 點的位置都是完全確定的,這也就是我們(men) 所說的:“熵為(wei) 零。”熵是衡量隨機性的值。原則上,如果可以根據個(ge) 人過去出現的地點寫(xie) 出數據挖掘運算法則,那麽(me) 就可以百分之百地精確算出他將出現的地點,他的可預測性是1,也就是說這個(ge) 人的運動完全沒有隨機性。他每天在同一時間往返於(yu) 家和單位。

我們(men) 認為(wei) 人與(yu) 人之間的行為(wei) 模式存在很大差異,很多人的行為(wei) 很難被預測,因為(wei) 他們(men) 的生活豐(feng) 富,並且行動無計劃性。但是還有一些人可能更容易被預測,這種人是我們(men) 一開始就提到的,他們(men) 的行為(wei) 發生在一個(ge) 確定範圍內(nei) 。於(yu) 是我們(men) 分別計算出了這些人的平均值,並將他們(men) 的可預測性標記在圖中。我們(men) 測量的是大批手機用戶的可預測性,首先應該注意到的就是這個(ge) 預測基數很大,峰值是93,也就是說,對於(yu) 一個(ge) 普通人來講,如果我們(men) 知道他過去過的地方,原則上有93%的可能性可以準確預測出他接下來將出現的地方。而且所有人的可預測性都高於(yu) 80%

因此,一旦收集到足夠多的數據,就可以提出這個(ge) 基本的問題:我們(men) 的可預測性有多高,並且會(hui) 得到一個(ge) 令人震驚的答案?如果我們(men) 談到對未來的預測,我們(men) 可以說:“如果我們(men) 擁有足夠的數據,是不是所有事情都是可以預測的?”這是我們(men) 現在要思考的問題。

(作者係美國東(dong) 北大學榮譽教授,複雜網絡科學研究中心主任,《爆發》一書(shu) 作者。本文譯者為(wei) 湛廬文化。)

《中國科學報》 (2012-09-24 B3 觀點)

數學會獎項

華羅庚獎

華羅庚先生是我國著名數學家

華羅庚先生是我國著名數學家,他熱愛祖國,獻身科學事業(ye) ,一生為(wei) 發展我國的數學事業(ye) 和培養(yang) 人才做出了卓越貢獻。

陳省身獎

陳省身教授是一位國際數學大師

國際數學大師陳省身教授是美籍華裔數學家、中國科學院外籍院士。他非常關(guan) 心祖國數學事業(ye) 的發展,幾十年來在發展我國數學事業(ye) 、培養(yang) 數學人才等方麵做了大量工作。

鍾家慶獎

鍾家慶教授生前對祖國數學事業的發展極其關切

鍾家慶教授生前對祖國數學事業(ye) 的發展極其關(guan) 注,並為(wei) 之拚搏一生。為(wei) 了紀念並實現他發展祖國數學事業(ye) 的遺願,數學界有關(guan) 人士於(yu) 1987年共同籌辦了鍾家慶基金,並設立了鍾家慶數學獎,委托米兰体育官方网站入口承辦。

關注微信

掃描二維碼關(guan) 注

  京公網安備 110402430128號 版權所有:米兰体育官方网站入口  法律法規 | OA/ERP係統