“全國科普日”陳鬆蹊院士網絡科普報告:數據實驗與統計分析—從大氣汙染到女士品茶

發布時間:2022-09-20

當今時代,大數據的獲得越來越容易,但其也附帶許多混雜因素。要想從(cong) 大數據中提煉出科學的結果需要使用統計學技術,因此如何使用統計學技術剔除、調整、建模大數據中的混雜因素是數據實驗與(yu) 統計分析中的重要問題。

2022年全國科普日的主題是“喜迎二十大、科普向未來”, 側(ce) 重圍繞大數據、人工智能等科技發展前沿,讓更多公眾(zhong) 深刻感知前沿科技魅力。為(wei) 此,米兰体育官方网站入口聯合中國工業(ye) 與(yu) 應用數學學會(hui) 、中國運籌學會(hui) 和中國現場統計研究會(hui) 特別邀北京大學陳鬆蹊院士,為(wei) 廣大科技工作者和數學愛好者獻上了精彩的網絡科普報告:“數據實驗與(yu) 統計分析—從(cong) 大氣汙染到女士品茶”。米兰体育官方网站入口副理事長周愛輝研究員主持了報告,一起出席的還有中國工業(ye) 與(yu) 應用數學學會(hui) 副理事長王兆軍(jun) 教授、中國運籌學會(hui) 科普工作委員會(hui) 主任劉歆研究員。

9月18日上午9點,在大家的熱切期待中,報告正式開始。陳院士的報告用三個(ge) 例子說明了為(wei) 何從(cong) 大數據中提煉出科學的結果需要使用統計學技術。這三個(ge) 例子分別是:(1)從(cong) 大氣汙染監測網絡數據提取汙染排放信息,介紹團隊八年來分析、追蹤北方地區大氣汙染變化的實證研究,給出大氣汙染評估的統計學思路和方法; (2)女士品茶及充分隨機實驗;(3)吸煙對壽命影響的大樣本觀測研究。

環境大數據時代

陳院士從(cong) 一封與(yu) 朋友來往的郵件講起他和大氣汙染研究的淵源,強調對大氣汙染的研究關(guan) 係到人民的生命健康及生活質量。

12.png

目前我國已建立包括汙染物思維時空數據、氣象思維時空數據、人口與(yu) 經濟數據、衛星數據、遙感數據在內(nei) 的生態環境檢測數據,真正進入了環境大數據時代。而如何使用監測大數據度量汙染物排放量是大氣管理的關(guan) 鍵科學問題。陳院士首先對比了用“排放源清單”監測的傳(chuan) 統方法和用“環境大數據”監測的新方法,接著詳細闡述了用統計學方法剔除氣象因素幹擾後能更準確地度量汙染物排放以及在最理想的情況下用充分隨機實驗Treatment Effect檢驗方法(t-檢驗方法)能很好地解決(jue) “如何評判今年的汙染低於(yu) 去年”的問題。最後,陳院士通過對比隨機化實驗和觀測實驗,說明充分隨機實驗的有效性和理想性。

13.png

女士品茶

“女士品茶”案例是充分隨機試驗的範例,它描述了Ronald A. Fisher的實驗和隨機化的想法,是隨機試驗數據分析的兩(liang) 大支柱之一,更是20世紀最偉(wei) 大的科學思想之一。

14.png

1920年,英國的Bristol女士聲稱可以隻通過品嚐就能區分一杯奶茶是茶先倒進杯子還是奶先倒進杯子。“現代統計學之父”Ronald Fisher和生物學家William Roacb用充分隨機試驗的方法(隨機給出八杯其它條件一樣而僅(jin) 倒茶倒奶順序相反的茶,兩(liang) 類各四杯,隨機從(cong) 八杯中挑選四杯讓Bristol猜,結果Bristol全部猜對)檢驗了Bristol女士是真有“能區分出來是茶先倒進杯子還是奶先倒進杯子”的能力,該試驗被稱為(wei) 最著名的“八杯牛奶”充分隨機試驗。

陳院士強調“女士品茶”說明了充分隨機試驗的強大。隨後在農(nong) 業(ye) 中(如育種、種子的產(chan) 量等)也做了相關(guan) 隨機化的試驗,但此方法並未在社會(hui) 學中進行試驗。而1948年美國用定額抽樣方法進行大選預測,結果大選預測失敗。這說明在人群中存在隱性偏差,而充分隨機試驗能消除各種隱性偏差。因此現在的民意測驗包括市場研究、營銷的基本理論都是用隨機抽樣法進行。

陳院士總結在對大數據研究時做充分隨機實驗和進行統計偏差調整這兩(liang) 種方法要選其一進行。

1960年的論爭—吸煙有害嗎

陳院士首先介紹對吸煙是否有害這個(ge) 問題的數據研究不能在充分隨機化實驗的條件下進行。所以將選定的三組實驗人群(英國醫生加拿大退休人員、美國25個(ge) 州的男性)分三類:(1)不抽煙;(2)隻抽香煙;(3)抽雪茄、煙鬥。根據人群中每1000人死亡率可知:(1)抽雪茄、煙鬥的吸煙者應該放棄吸煙,因為(wei) 死亡率高;(2)如果戒不掉吸煙,那抽雪茄、煙鬥的人可以考慮隻抽香煙,因為(wei) 抽香煙的死亡率明顯低於(yu) 抽雪茄、煙鬥組,甚至與(yu) 不抽煙組差別不大。為(wei) 什麽(me) 會(hui) 出現上麵的結論,陳院士解釋結論裏麵有混雜因素:年齡,如果按年齡分層就能消除不同吸煙組間的年齡差異,結果會(hui) 得到相反的結論。

1663644891(1).png

最後陳院士總結(1)大氣汙染是“觀測研究”。如果要評估今年大氣汙染是否低於(yu) 去年,需要Control氣象因素,且兩(liang) 年的簡單平均值是不可比的,因為(wei) 氣象分布不一樣。(2)大氣環境研究是“統計觀測研究”。因為(wei) 它不能在大氣中隨機化氣象條件,而且每年氣象變量分布有變異(氣象變異),氣象變異造成的bias需通過統計調整去掉。因此對大氣汙染PM2.5的研究要去除風向及平均氣象密度的幹擾。通過構造基準氣象分布和調整均值的辦法來調整氣象,並且可以很好的反映排放的變化,這也是統計學因果推斷的思想。陳院士還介紹了團隊八年來分析、追蹤北方地區大氣汙染的變化的實證研究,給出大氣汙染評估的統計學思路和方法,並提出了“人努力-天幫忙”指數,該指數分解了“氣象因素”與(yu) “人為(wei) 因素”對汙染的影響。

1663644948(1).png

報告結束後,周愛輝研究員主持提問環節。嘉賓們(men) 代表網友提出三個(ge) 問題,分別是:麵向未來大數據、萬(wan) 物互聯等新場景,統計分析要麵臨(lin) 哪些新挑戰以及如何展望未來的發展趨勢?深度學習(xi) 在很多領域都有卓越的性能表現,相信深度學習(xi) 也可以用於(yu) “從(cong) 大數據中提煉出科學的結果”,陳院士是如何看待這個(ge) 方向?以及如何看待這個(ge) 過程中模型的可解釋性與(yu) 可信問題;因果推斷被譽為(wei) 下一代AI的核心,因果推斷在未來統計分析中將會(hui) 扮演怎樣的角色?這三個(ge) 問題是通過米兰体育官方网站入口官方微信公眾(zhong) 號收集遴選。陳院士對這些問題做了詳細的回答。



數學會獎項

華羅庚獎

華羅庚先生是我國著名數學家

華羅庚先生是我國著名數學家,他熱愛祖國,獻身科學事業(ye) ,一生為(wei) 發展我國的數學事業(ye) 和培養(yang) 人才做出了卓越貢獻。

陳省身獎

陳省身教授是一位國際數學大師

國際數學大師陳省身教授是美籍華裔數學家、中國科學院外籍院士。他非常關(guan) 心祖國數學事業(ye) 的發展,幾十年來在發展我國數學事業(ye) 、培養(yang) 數學人才等方麵做了大量工作。

鍾家慶獎

鍾家慶教授生前對祖國數學事業的發展極其關切

鍾家慶教授生前對祖國數學事業(ye) 的發展極其關(guan) 注,並為(wei) 之拚搏一生。為(wei) 了紀念並實現他發展祖國數學事業(ye) 的遺願,數學界有關(guan) 人士於(yu) 1987年共同籌辦了鍾家慶基金,並設立了鍾家慶數學獎,委托米兰体育官方网站入口承辦。

關注微信

掃描二維碼關(guan) 注

  京公網安備 110402430128號 版權所有:米兰体育官方网站入口  法律法規 | OA/ERP係統