目前位置: 首頁 / 新聞與專欄 / 國外新聞 / 如何利用大數據?

如何利用大數據?

蒂姆•哈福德
IBM稱,全球所有計算機每天產生250億億個字節的數據。這相當於每人每天產生大約半張CD的數據量。無數激動人心的會議展示和咨詢報告都以“大數據”為主題。那麽,它對經濟學可能有何幫助?
IBM稱,全球所有計算機每天產生250億億個字節的數據。這相當於每人每天產生大約半張CD的數據量。無數激動人心的會議展示和咨詢報告都以“大數據”為主題。那麽,它對經濟學可能有何幫助?

每個人所說的“大數據”含義不盡相同,但以下為一些共識。第一,如果不依賴某些可視化軟件的幫助,人類不可能理解如此大的數據量。用散點圖尋找規律或異常情況的傳統辦法,在這里毫無作用。第二,數據從產生到被利用往往只有很短的時間,至少對一些人如此。你的手機運營商能夠實時獲悉你手機所在位置。第三,數據可能高度互相關聯。理論上,谷歌(Google)可掌握你的電子郵箱和安卓(Android)手機位置信息,知道你在Google Plus社交網絡上有哪些好友,並瞭解你的搜索記錄。第四,數據是雜亂無章的:你儲存在手機上的視頻屬於“大數據”,但它與整齊有序的分類數據庫(按照生日、就業狀況、性別、收入等分類)還相去甚遠。

這可能給經濟學家帶來問題。經濟學家已經被慣壞了:20世紀30和40年代,西蒙•庫茲涅茨(Simon Kuznets)和理查德•斯通(Richard Stone)建立了清晰有序、邏輯連貫的國民賬戶系統。幾十億項個人交易一下子被概括為“英國2012年GDP”;幾十億次價格變動體現為通脹指數這麽一項指標。數據整齊地排列成矩形,例如,橫排為若乾個國家,豎排為年份,每個方格內的數據對應某個國家在某個年份的通脹率。

大數據的方法截然不同。以信用卡數據為例。理論上,萬事達(Mastercard)擁有一套完美的數據:它知道何人在何地為何種產品消費的金額,而且這些數據都是實時的。但這是經濟學家麗蘭•安納夫(Liran Einav)和喬納森•萊文(Jonathan Levin)所說的“便利樣本”(convenience sample),因為不是每個人都有萬事達卡,也不是每個擁有萬事達卡的人都會經常使用萬事達卡。

如果說萬事達卡的數據無法為經濟研究人員帶來一點兒有用信息,那未免不符合常識。但它與我們平常使用的那類數據非常不同,甚至跟我們通常的問題幾乎不是一回事。經濟學家喜歡尋找因果聯系,而不只是規律。而且,經濟學家希望他們找到的因果聯系適用於所有人或是有代表性的群體樣本,而不只是一個隨機的子群體。

或許不令人意外的是,經濟學對大數據的最直接應用是在預測(或短時預測)領域,這一直是經濟學的實用領域,也是學術上的邊緣領域。有人專門分析Twitter消息、谷歌上失業福利或汽車保險的搜索量、或德國卡車的行車記錄,以瞭解經濟運行的狀況。這種做法似乎效果不錯。麻省理工學院(MIT)的“海量價格數據項目”(billion prices project)每天提供世界各地通脹率的估計數字。

一些學者嘗試以更為傳統的方式利用大數據,他們的努力取得了一些效果。例如,拉吉•切迪(Raj Chetty)、約翰•弗里德曼(John Friedman)和喬納•羅克夫(Jonah Rockoff)研究了紐約市250萬名學童的官方數據與他們成年後收入的關系。研究表明,哪怕有一年時間接受差老師的教導,也會在長遠上極大地影響事業上的成功。艾米•芬克爾斯坦(Amy Finkelstein)和同事一起評估了美國低收入醫保計劃——聯邦醫療補助計劃(Medicaid) ,發現了醫院記錄與信用記錄等變量之間的聯系。沒有龐大的成組數據,此類研究將無法進行。

上述這些最新研究意味著,經濟學在這方面還將大有作為。但如要完全利用數據革命,經濟學家必須改變其目前對何為問題、何為答案的看法。

譯者/劉鑫

引用來源:英國《金融時報》
分類: ,