數據科學與信息服務產業:海量信息和海量數據的時代, 互聯網,計算技術

發布時間:2012-08-27

來源:科學網

我們(men) 生活在一個(ge) 信息時代,一個(ge) 海量信息和海量數據的時代:互聯網,計算技術,電子商務和各種其它的新興(xing) 技術使我們(men) 獲取數據、分析數據和利用數據的能力有了一個(ge) 本質的變化。這個(ge) 變化正在不斷深入地、全麵地影響著我們(men) 的日常生活。由此也影響著社會(hui) 、文化、國防和國民經濟的發展。信息服務產(chan) 業(ye) 已成為(wei) 發達國家經濟轉型的主要支柱。以穀歌和臉書(shu) 為(wei) 代表的信息服務企業(ye) ,在短短幾年的時間裏就進入了全世界最大、最受矚目的企業(ye) 的行列。它們(men) 的發展速度是在傳(chuan) 統的工業(ye) 模式下難以想象的。它們(men) 的成功也展示了信息服務產(chan) 業(ye) 巨大的發展空間。另外,數據和信息資源已成為(wei) 繼人力資源和物質資源以外的第三大資源。數據資源的開發和利用將是未來社會(hui) 和經濟發展的主要手段之一,也應該成為(wei) 製定國家長遠發展計劃需要考慮的主要因素之一。

我們(men) 自然要問,信息時代對社會(hui) ,對政府,特別是對我們(men) 的教育和科學研究體(ti) 製提出了什麽(me) 樣的新的要求;信息服務產(chan) 業(ye) 的科學基礎是什麽(me) ?

傳(chuan) 統工業(ye) ,尤其是製造業(ye) 的科學基礎是自然科學。物理學提供了自然科學最基本的原理。在此之上、化學、生命科學、地球物理、天文學以及各種各樣的工程科學為(wei) 傳(chuan) 統工業(ye) 提供了科學指導。從(cong) 大學、科研機構,到企業(ye) 、政府部門,我們(men) 都已經建立起了一整套教學、科研、開發、生產(chan) 到市場的機製。

信息服務產(chan) 業(ye) 的科學基礎是數據科學。簡單說來,它由兩(liang) 個(ge) 部分組成:即用數據的方法來研究科學和用科學的方法來研究數據。

先談第一點。科學研究有兩(liang) 個(ge) 最基本的模式,姑且叫做開普勒模式和牛頓模式。開普勒關(guan) 於(yu) 行星運動的三大定律完全是從(cong) 前人所觀察到的數據中所總結出來的。而牛頓則更進了一步,他尋求的是基本原理。他對行星運動規律的認識是建立在基本原理的基礎之上的。牛頓不僅(jin) 知其然,而且知其所以然。牛頓的認識無疑比開普勒要深刻得多。所以牛頓模式成了科學研究的首選模式。幾百年來的科學研究都是沿著一條以尋求基本原理為(wei) 目標,而從(cong) 根本上認識世界,認識自然這樣一條道路走過來的。

時至今日,科學家們(men) 在對基本原理的尋求方麵取得了長足的進步。隨著量子力學的建立,人們(men) 已經基本了解了在生命科學、化學、能源、環境等與(yu) 日常生活息息相關(guan) 的領域所需要的基本原理。現實的困難在於(yu) 這些係統的複雜性——從(cong) 基本原理出發去理解這些係統在目前和不太遙遠的未來基本上都是一件不可能的事情。牛頓模式因此而麵臨(lin) 著難以逾越的困難。而另一方麵,由於(yu) 人們(men) 獲取數據和分析數據能力的提高,從(cong) 數據中直接總結出客觀規律的開普勒模式的優(you) 勢就體(ti) 現了出來。生物信息學的成功就是一個(ge) 很好的例子。

再談第二點。從(cong) 傳(chuan) 統的角度來看,分析數據屬於(yu) 統計學的範疇。但近年來,隨著機器學習(xi) 、數據挖掘、生物信息、圖像處理、信號處理等方麵的發展,數據分析已經深入到了計算機科學、社會(hui) 學、電子工程、生命科學、天文、地理、氣象等各個(ge) 領域。而且,從(cong) 數據分析的角度來看,這些不同學科中的不同問題有著相當程度的統一性。正是這種統一性,使得數據科學有存在和發展的必要。

這裏特別值得一提的是數學的作用。從(cong) 根本上來講,自然科學的基本原理來自於(yu) 物理;而數據科學的基本原理則來自於(yu) 數學。數據分析的主要手段就是給數據建立起數學結構。這種數學結構可以是多方麵的:拓撲的、幾何的、或代數的。最簡單的結構是圖的結構。這也可以看作是一種拓撲結構。傳(chuan) 統的統計學中最最常用的是分析方麵的結構,如參數化模型。所以數據科學給數學也帶來了許多根本性的問題:例如怎樣把數據集(如網頁)坐標化?怎樣給數據集定義(yi) 拓撲結構或曲率?怎樣利用數據集中可能隱含的對稱性?怎樣設計高效的算法?怎樣處理噪聲,等等?數據和數,方程以及圖形一樣,也將成為(wei) 數學研究的基本元素之一。這不僅(jin) 能給數學的各個(ge) 領域提供了新的問題,同時也會(hui) 加深我們(men) 對數學中一些最基本的概念的認識。

數據科學中最受矚目的成就之一是小波理論。係統的小波理論出現之前,人們(men) 對在信號處理中引進局部基函數和對信號按尺度作分解都有過很多的嚐試。但這些工作都是經驗性的,缺乏係統性。小波理論從(cong) 根本上解決(jue) 了這一問題。它使這些嚐試性的工作由經驗變成了科學。這樣的轉變是本質性的。它所帶來的變化也是有目共睹的。壓縮感知理論也經曆了一個(ge) 類似的過程。它所產(chan) 生的影響也將是巨大的。

另外需要強調的一點是,由自然科學的成就轉換成工業(ye) 產(chan) 品往往要經過一個(ge) 漫長的過程。而數據科學則不同,數據科學與(yu) 應用,與(yu) 產(chan) 業(ye) 有著更為(wei) 密切的聯係。從(cong) 小波理論的出現到它在圖像處理方麵的應用僅(jin) 僅(jin) 經過了幾年的時間。正因為(wei) 如此,對數據科學的研究更應該努力地走在最前沿:因為(wei) 落後一步就意味著徹底失去機會(hui) 。

目前數據科學的發展存在著如下幾個(ge) 問題:一是缺乏一個(ge) 統一的平台。數據科學被瓜分到計算機科學、統計、數學、生物等等學科。他們(men) 之間還缺乏應有的聯係。這使數據科學的發展受到了製約。二是數學作為(wei) 數據科學的基礎,其作用還沒有被充分認識到,更沒有充分發揮出來。這在一定程度上限製了數據科學研究的深度。三是企業(ye) 界與(yu) 學術界之間的相互影響還不夠完善。企業(ye) 界搜集的數據經常不夠規範,企業(ye) 界和學術界之間協同創新的模式還有待完善。

具體(ti) 到我國的實際情況,在很多方麵更是令人擔憂。我國現行的教育和科研體(ti) 製幾乎將學科分類推到了極致。這更加不利於(yu) 數據科學這樣一個(ge) 新型的,跨學科的領域的發展。另一方麵,從(cong) 穀歌、臉書(shu) 等例子來看,信息服務產(chan) 業(ye) 中許多最有創造的想法都來自於(yu) 年青人。而我們(men) 國家所通行的教育方式,如中學裏的應試式教育和大學裏的灌輸式教育都極大地抑製了年青人的創造性。

認識到這些以後,我們(men) 自然要問:怎樣應對數據科學和信息服務產(chan) 業(ye) 所提出的新的要求?

從(cong) 大學的層麵來看,應該充分認識到數據科學發展的巨大空間,將數據科學提高到一個(ge) 和自然科學並列的高度。以數學、計算機科學、統計、生物信息、金融和經濟學、社會(hui) 學等學科為(wei) 依托,建立起一個(ge) 數據科學的教育和科研平台。要建立起一個(ge) 完整的本科生和研究生培養(yang) 計劃。這個(ge) 教學計劃的基礎課程應該包括線性代數、逼近論、離散數學、概率論和隨機過程、以及數理統計等數學課程;同時也應包括數據庫、數據結構、機器學習(xi) 、數據挖掘等計算機科學的課程。

這裏應該特別強調算法的重要性:沒有高效的算法,所有的理論模型都將被束之於(yu) 高閣。而在傳(chuan) 統的框架下,算法被分割到了計算數學和計算機科學兩(liang) 個(ge) 學科中。這兩(liang) 個(ge) 學科對算法研究的風格和出發點各不相同,但它們(men) 所研究的許多問題在本質上是相同的。數據科學的發展更是要求把這兩(liang) 種不同風格,不同背景的算法研究緊密結合起來。

課程設置僅(jin) 僅(jin) 是這個(ge) 教學計劃的一部分,更富有挑戰性的是怎樣創造出一個(ge) 能充分發揮學生主動性和積極性的教育環境,並能使教學計劃和信息服務產(chan) 業(ye) 的前瞻性需求緊密結合起來。

從(cong) 企業(ye) 界的角度來看,要充分認識到創新的重要性。中國本身就是一個(ge) 很大的市場。其很多方麵,如政策、語言、經濟等方麵的特點給國內(nei) 的企業(ye) 在占據國內(nei) 市場方麵提供了很多優(you) 勢。但應該認識到,僅(jin) 僅(jin) 依靠這樣的自然保護是難以持久發展的。要保證中國的信息產(chan) 業(ye) 能走到世界的前列,就必須走創新的道路,必須開拓國際市場。企業(ye) 界應該學會(hui) 充分利用大學和其它研究機構等資源,來提高自己的創新能力。

從(cong) 政府的層麵來看,要把發展數據科學和信息服務產(chan) 業(ye) 作為(wei) 一項戰略計劃來抓。充分認識到這是關(guan) 係到國計民生,關(guan) 係到國家的經濟、科學、和文化發展的根本利益和長遠利益的一件大事。從(cong) 組織、資源、政策等多方麵製定出一整套的相關(guan) 計劃。

從(cong) 我國的具體(ti) 情況來看,政府的指導作用尤其重要。首先,數據作為(wei) 一種資源,我們(men) 必須有意識地積累這種資源並使之成為(wei) 可利用的資源。這就需要政府在數據搜集、存儲(chu) 、特別是在開放數據等方麵提供一係列的指導政策。其次,數據科學和信息服務產(chan) 業(ye) 的發展需要學術界和企業(ye) 界的密切配合。政府可以通過各種方式鼓勵這種配合,尤其是在前瞻性的研究方麵。再次,數據科學是一門跨學科的領域,而我國目前的科研和教育體(ti) 係對跨學科領域的發展是極為(wei) 不利的。我們(men) 不能等體(ti) 製方麵的問題都解決(jue) 了以後再去發展數據科學,而應該通過政府的一些引導性的措施來有效地避免體(ti) 製方麵的問題所造成的困難。

總的來說,數據科學的研究還處在一個(ge) 初級階段:盡管一些西方國家占據著領先位置,但所形成的差距還不是太大。從(cong) 另一方麵來講,有理由相信數據科學和相關(guan) 的信息產(chan) 業(ye) 比較適合於(yu) 中國人的習(xi) 慣性思維。關(guan) 鍵是我們(men) 必須把握住這個(ge) 曆史時機,迅速建立起一整套適合於(yu) 數據科學及相關(guan) 的信息產(chan) 業(ye) 發展的體(ti) 製和環境。要做到這一點,政府,學術界和企業(ye) 界之間的密切配合是必不可少的。

數學會獎項

華羅庚獎

華羅庚先生是我國著名數學家

華羅庚先生是我國著名數學家,他熱愛祖國,獻身科學事業(ye) ,一生為(wei) 發展我國的數學事業(ye) 和培養(yang) 人才做出了卓越貢獻。

陳省身獎

陳省身教授是一位國際數學大師

國際數學大師陳省身教授是美籍華裔數學家、中國科學院外籍院士。他非常關(guan) 心祖國數學事業(ye) 的發展,幾十年來在發展我國數學事業(ye) 、培養(yang) 數學人才等方麵做了大量工作。

鍾家慶獎

鍾家慶教授生前對祖國數學事業的發展極其關切

鍾家慶教授生前對祖國數學事業(ye) 的發展極其關(guan) 注,並為(wei) 之拚搏一生。為(wei) 了紀念並實現他發展祖國數學事業(ye) 的遺願,數學界有關(guan) 人士於(yu) 1987年共同籌辦了鍾家慶基金,並設立了鍾家慶數學獎,委托米兰体育官方网站入口承辦。

關注微信

掃描二維碼關(guan) 注

  京公網安備 110402430128號 版權所有:米兰体育官方网站入口  法律法規 | OA/ERP係統