90後華裔自建新冠死亡人數模型,準確率擊敗權威機構

彭博社發布文章,介紹了美國一位華裔小夥用一周時間建立的一個新冠死亡人數預測模型,準確率擊敗了耗費巨資建模的全球權威機構的故事。作者:Ashlee
Vance

華裔數據科學家顧友陽(Youyang Gu,音譯)。來源:彭博社推特

2020年春天,權威的統計模型應運而生,當公眾試圖判斷冠狀病毒在3月和4月可能會有多大影響時,人們一再提到兩個預測係統:一個來自倫敦帝國理工學院建立,另一個來自總部位於西雅圖的衛生計量與評估研究所(下文簡稱IHME)。

但這些模型的預測結果大相徑庭,帝國理工學院警告稱,到去年夏天,美國可能會有多達200萬人死於新冠,而IHME的預測要保守得多,預計到8月將有6萬人死亡。事實證明,兩者的預測都不是很準確。截至8月初,美國死亡人數最終達到了16萬人。

去年春天預測數據的巨大差異引起了當時26歲的數據科學家顧友陽(Youyang
Gu,音譯)的注意。這個年輕人擁有麻省理工學院的電氣工程和計算機科學碩士學位,還有一個數學學位,但沒有接受過醫學或流行病學等流行病相關領域的正式培訓。盡管如此,他認為他處理數據模型的經曆在疫情期間可能會派上用場。

4月中旬,顧友陽和父母住在加州的聖克拉拉,他花了一周時間建立了自己的新冠病毒死亡人數預測模型和一個展示病例信息的網站。不久之後,他的模型預測的結果開始比那些擁有數億美元資金和數十年經驗的機構預測的結果更加準確。

舊金山大學著名數據專家和研究科學家傑裏米·霍華德說:“他的模型是唯一看起來合理的,其他模型一次又一次地被證明是無稽之談,但發表預測的人或報道這些預測的記者卻沒有反省。人們的生活依賴於這些東西,而友陽是唯一一個認真看數據並好好處理的人。”

顧友陽建立的預測模型從某種程度上來說很簡單。他一開始考慮研究新冠檢測、住院和其他因素之間的關係,但後來發現各州和聯邦政府報告的數據不一致,最可靠的數字似乎是每天的死亡人數。顧友陽說:“其他模型使用了更多的數據來源,但我決定依靠過去的死亡來預測未來的死亡,把它作為唯一的數據輸入,有助於過濾掉信號中的雜質。”

Photo by Mathew Schwartz on Unsplash

顧友陽的模型中新穎、複雜的變化來自於他使用機器學習算法來打磨他的數據。從麻省理工畢業後,顧磊在金融行業工作了幾年,為高頻交易係統編寫算法,如果他想保住這份工作,他的預測必須是準確的。當談到新冠疫情時,顧友陽不斷地將他的預測結果與最終報告的死亡人數進行比較,並不斷調整他的算法,以便得出更精確的預測。盡管這活和一份耗費精力的全職工作需要的時間一樣多,但顧友陽還是自願花時間去做,依靠自己的積蓄生活。他希望他的數據不存在任何利益衝突或政治偏見。

盡管並不完美,顧友陽的模型從一開始就表現良好。他在4月底預測,到5月9日,美國將有8萬人死亡。實際死亡人數為79,926人。IHME
4月底的一份類似預測稱,美國在2020年全年的死亡人數不會超過8萬人。顧友陽預測5月18日的死亡人數為9萬人,5月27日的死亡人數為10萬人,再一次和實際數字相吻合。

IHME預計,由於保持社交距離和其他政策的影響,病毒會逐漸消失,但顧預測,隨著許多州重新開放,將會出現第二波大規模感染和死亡。

由於預測數據與實際情況不符,IHME在3月和4月受到了一些批評。盡管如此,在特朗普政府成員的疫情簡報會上,幾乎每天都會提到這個基於華盛頓大學、得到比爾和梅林達·蓋茨基金會逾5億美元資助,聲名顯赫的研究中心。今年4月,美國傳染病專家安東尼·福奇在接受采訪時表示,新冠肺炎死亡人數“看起來更像是6萬人,而不是曾經預計的10萬至20萬人”,這是一個基於IHME的數據得出的結論。4月19日,就在顧友陽提醒第二波疫情的同一天,特朗普指出,IHME預測的死亡人數為6萬人,這預示著抗擊病毒的戰鬥將很快結束。

IHME的官員也積極推廣他們的數字。顧友陽說:“在所有相關新聞節目中,IHME都試圖告訴人們,到7月死亡人數將降至零,任何有常識的人都知道,在今後一段時間內,我們每天會有1000到1500人死亡。我認為他們這樣做是非常不誠實的。”

IHME主任克裏斯托弗·穆雷表示,一旦該組織在4月份之後更好地掌握了病毒情況,預測的準確度就會大大改善。

但去年春天,一周又一周,越來越多的人開始關注顧友陽的工作。他在Twitter上向記者展示了他的模型,並給流行病學家發了電子郵件,請他們檢查他的數據。4月底,華盛頓大學著名生物學家卡爾·伯格斯托姆在推特上發布了顧友陽的模型,不久之後,美國疾控中心將顧友陽的數據納入了其新冠肺炎疫情預測網站。隨著疫情的發展,在伊利諾伊州和加利福尼亞州長大的華裔移民顧友陽,逐漸開始參加與疾控中心、專業建模師和流行病學家團隊的定期會議,大家都在努力改進他們的預測。

顧友陽網站的流量呈爆炸式增長,每天都有數百萬人登陸,以了解他們所在的州和美國發生了什麽。通常情況下,他的預測數字會和幾周後發生的真實死亡數字相吻合。

Photo by James Yarema on Unsplash

由於人們對這些預測的興趣如此濃厚,更多的模型在2020年春夏開始出現。馬薩諸塞大學阿默斯特分校生物統計和流行病學副教授尼古拉斯·賴克收集了大約50個模型,並在新冠預測中心用了好幾個月的時間測量了它們的準確性。賴克說:“友陽的模型準確度一直名列前茅。”

去年11月,顧友陽決定停止他的新冠死亡病例預測業務。賴克將各種預測混合在一起,發現最準確的預測來自一種“集成模型”,或者叫做合並數據。

賴克說:“友陽帶著一種非凡的謙遜退出了。他看到其他模型做得很好,他在這裏的工作也完成了。”在叫停該項目的一個月前,顧友陽預測美國11月1日的死亡人數將達到23.1萬人。當11月1日到來時,美國報告的死亡人數為23.0995人。

IHME的穆雷對顧友陽的退出有自己的看法。他說,顧友陽的模型沒有注意到冠狀病毒的季節性,也沒有注意到冬季病例和死亡的激增。穆雷說:“他在冬天讓這種流行病消失了,我們早在5月就發現了病毒的季節性。”

穆雷說,顧友陽使用的機器學習方法在短期預測方麵很有效,但在更大的範圍內“不太善於理解正在發生的事情”。穆雷說,基於過去(死亡病例)的算法不能解釋病毒變異,也不能說明疫苗對病毒有多大作用。說到他們自己的模型,穆雷認為IHME正確地預測了病毒的早期高峰,然後錯誤預測了死亡人數的急劇下降,直到模型調整以後才更好地反映了現實。穆雷說:“我們在4月的時候出了錯,從那以後,我們是唯一一個始終保持正確的預測模型。”

編輯整合模型清單的賴克說,該組織在疫情後期的預測是合格的。賴克說:“早期,IHME的模式並沒有達到它所宣傳的效果。最近,它形成了一個合理的模式。我不會說這是最好的一種,但它是合理的。”

顧友陽拒絕回應穆雷關於他模型的評論。相反,他提供了數據科學家式的反諷恭維。顧友陽說:“我非常感謝克裏斯·穆雷博士和他的團隊所做的工作,沒有他們,就不會有我今天的成績。”

說道從這個故事中學到的一些東西,賴克提醒人們在下一次疫情到來時不要對早期的個人模型抱太大的信心。他對超過六到八周後的預測是否會非常準確持懷疑態度。理想情況下,疾控中心和其他機構將在未來會更快地組合模型並分發混合數據。賴克說:“我希望我們能夠投入時間、精力和金錢來建立一個係統,以便在剛開始的時候,就有更多的模型來應對。我們必須自己做好準備,而不是到處去敲別人的門。”

經過一段時間的休息,27歲的顧友陽回到了紐約的公寓裏,他重新回到了建模領域。這一次,他做了一個與美國有多少人感染新冠,疫苗推出的速度有多快,以及美國何時(如果可能的話)達到群體免疫等相關的預測,他的預測表明,到6月,大約61%的人口將擁有某種形式的免疫力,無論是通過疫苗還是通過感染。

在疫情發生前,顧友陽希望開始新的創業,可能是在體育分析領域。現在他考慮堅持做公共衛生。他希望找到一份可以產生巨大影響的工作,同時避免政治、偏見以及有時大型機構帶來的包袱。他說:“這個領域有很多不足之處,可以由我這種背景的人改進,但我仍然不知道自己如何才能融入其中”。

好看新聞|時事與歷史:90後華裔自建新冠死亡人數模型,準確率擊敗權威機構