數(shù)據(jù),自古就有,人口普查、農(nóng)業(yè)統(tǒng)計、軍事戰(zhàn)爭、政治計算……數(shù)據(jù)雖小,卻有助于治國安邦。美國之所以繁榮鼎盛,數(shù)據(jù)文化根基牢不可破概是主因之一。 信息爆炸、互聯(lián)互通、智慧城市時代,大數(shù)據(jù),更以排山倒海之勢席卷全球,政府施政、企業(yè)掘金,大眾要公平與正義,大數(shù)據(jù)被賦予了新的歷史使命。 在這本書中,從小數(shù)據(jù)時代到大數(shù)據(jù)的崛起,作者以宏大的歷史觀、文化觀、大數(shù)據(jù)觀,給我們描繪了一幅數(shù)據(jù)科學(xué)、智慧文化的全景圖。全書從美國建國之基講起,通過闡述初數(shù)時代、內(nèi)戰(zhàn)時代、鍍金時代、進步時代、抽樣時代、大數(shù)據(jù)時代的特征,系統(tǒng)梳理了美國數(shù)據(jù)文化的形成,闡述了其數(shù)據(jù)治國之道,論述了中國數(shù)據(jù)文化的薄弱之處,展望了未來數(shù)據(jù)世界的遠景。 “尊重事實,用數(shù)據(jù)說話”,“推崇知識和理性,用數(shù)據(jù)創(chuàng)新”,作者不僅意在傳承黃仁宇“數(shù)目字”管理的薪火,還試圖把數(shù)據(jù)這個科技符號在中國轉(zhuǎn)變?yōu)槲幕,形成一種文化話語體系。大數(shù)據(jù)正在撬動中國的制度創(chuàng)新、科技創(chuàng)新。閱讀此書,歷史與現(xiàn)實相互融合,知識與激情相互交織,思想與觀念相互碰撞,未來與前景必定豁然開朗。 作者簡介: 涂子沛,江西吉安人,現(xiàn)居美國硅谷。2012年其著作《大數(shù)據(jù)》在中國社會開大數(shù)據(jù)之先河,引發(fā)了大數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治國和開放數(shù)據(jù)的討論,歷史學(xué)家許倬云先生盛贊其“為華文世界開創(chuàng)了一個重要話題”。本書為作者第二本著作,全書對大數(shù)據(jù)追根溯源,提出當(dāng)前信息技術(shù)的發(fā)展,已經(jīng)讓中國獲得了后發(fā)優(yōu)勢,中國要在大數(shù)據(jù)時代的全球競爭中勝出,必須把大數(shù)據(jù)從科技符號提升成為文化符號,在全社會倡導(dǎo)數(shù)據(jù)文化。 作者本科畢業(yè)于華中科技大學(xué)計算機系,研究生畢業(yè)于中山大學(xué)和卡內(nèi)基梅隆大學(xué),獲公共管理碩士和信息科學(xué)碩士學(xué)位。 目錄: 目錄: 推薦序一進入一個重要的現(xiàn)代文化園地/許倬云//XV 推薦序二一部精彩紛呈的時代杰作/郭為//XIX 推薦序三大數(shù)據(jù)可以創(chuàng)造未來/王巍//XXIII 第一部分小數(shù)據(jù)之歷史 第一章初數(shù)時代:奠基共和 克服民主的劣勢:用數(shù)據(jù)分權(quán)//004 制度創(chuàng)新:變對抗為合作的魔法棒//010 兩黨之爭:無法精確分割的權(quán)力//013 亞拉巴馬悖論:沒有完美的方案//021 有數(shù)初成:共和政治反哺數(shù)據(jù)文化//027 中國往事:第一次現(xiàn)代意義上的人口普查//035 第二章內(nèi)戰(zhàn)時代:終結(jié)奴隸制的燈塔 目錄: 推薦序一進入一個重要的現(xiàn)代文化園地/許倬云//XV 推薦序二一部精彩紛呈的時代杰作/郭為//XIX 推薦序三大數(shù)據(jù)可以創(chuàng)造未來/王巍//XXIII 第一部分小數(shù)據(jù)之歷史 第一章初數(shù)時代:奠基共和 克服民主的劣勢:用數(shù)據(jù)分權(quán)//004 制度創(chuàng)新:變對抗為合作的魔法棒//010 兩黨之爭:無法精確分割的權(quán)力//013 亞拉巴馬悖論:沒有完美的方案//021 有數(shù)初成:共和政治反哺數(shù)據(jù)文化//027 中國往事:第一次現(xiàn)代意義上的人口普查//035 第二章內(nèi)戰(zhàn)時代:終結(jié)奴隸制的燈塔 人口普查:南方最大的敵人//040 用數(shù)據(jù)辯論:南北戰(zhàn)爭的序幕//046 用數(shù)據(jù)遠征:向大海進軍//053 政治計算:解放黑奴的真正原因//069 兵家和數(shù)據(jù):中國歷史上的吉光片羽//074 第三章爆發(fā):鍍金時代的三重崛起 用數(shù)據(jù)預(yù)測:轉(zhuǎn)變思維方式//083 總統(tǒng)之死:專業(yè)化的悲情序曲//089 世紀巔峰:大數(shù)據(jù)驅(qū)動的創(chuàng)新//102 和政治分家:勞工統(tǒng)計的異軍突起//110 姑娘、棉花和數(shù)據(jù):究竟誰在推動歷史//116 塵封的瑰寶:中國的數(shù)據(jù)可視化先驅(qū)//122 第四章量化:進步時代的數(shù)據(jù)大潮 用數(shù)據(jù)決策:水利工程中的數(shù)據(jù)競爭//138 沖擊量化的極限:給生命定價//146 “平托”風(fēng)波:福特公司的道德危機//151 用數(shù)據(jù)來審判:理性的必然選擇//159 代理人需要監(jiān)督:成本收益分析方法的未來//163 思考中國話題:民族復(fù)興能否量化?//172 第五章抽樣時代:統(tǒng)計革命的福祉 從選票到電影票:和《亂世佳人》共舞//178 用數(shù)據(jù)跨界:質(zhì)量大師是怎樣煉成的//188 旋轉(zhuǎn)質(zhì)量的飛輪:日本崛起//193 世紀之問:日本行,為什么我們不行?//203 第二部分大數(shù)據(jù)的崛起 第六章開放時代:內(nèi)開放的歷程 內(nèi)開放1.0:數(shù)據(jù)承載知情權(quán)//217 內(nèi)開放2.0:用數(shù)據(jù)制衡//219 悲劇現(xiàn)場的第一個問題:普查局的數(shù)據(jù)之痛//224 LEHD項目:開放數(shù)據(jù)的使用權(quán)//229 內(nèi)開放3.0:用數(shù)據(jù)推動創(chuàng)新//244 2012年:來自中國的組織創(chuàng)新//250 第七章大數(shù)據(jù)時代:通往計算型的智能社會 世上本沒有數(shù):正解大數(shù)據(jù)//255 改變世界的三股力量:大數(shù)據(jù)的成因//259 有數(shù)據(jù),還要有計算:計算型社會的興起//270 普適計算:即將到來的超級數(shù)據(jù)爆炸//278 數(shù)據(jù)和計算:第三次工業(yè)革命的CPU//280 數(shù)據(jù)之巔:通向智能型社會的挑戰(zhàn)//288 第八章智慧城市:正在拍打世界的浪潮 西方和東方:聰明和智慧//303 目標鎖定“城市平臺”:神州數(shù)碼對話錄//309 眾包、眾智和眾創(chuàng):讓大眾解決大眾的問題//315 云、隱私和未來:中國和美國的不同挑戰(zhàn)//325 結(jié)語把握后發(fā)優(yōu)勢:把科技符號變成文化符號//335 后記蝴蝶振翅//341涂子沛先生開啟了一道大門,我相信,后面會有更多的發(fā)展,讓大家進入這一個重要的現(xiàn)代文化園地。 ——許倬云著名歷史學(xué)家、美國匹茲堡大學(xué)歷史系榮譽講座教授 在《數(shù)據(jù)之巔》這本書中,涂先生跳到了哲學(xué)思考的層面,以統(tǒng)計學(xué)的社會應(yīng)用為切入點,解構(gòu)數(shù)據(jù)文化在美國政治、經(jīng)濟乃至軍事發(fā)展上起到的關(guān)鍵作用,一環(huán)扣一環(huán),構(gòu)思精巧,故事生動,邏輯清晰,讀起來實在“解渴”。感謝涂先生的智慧,為時代貢獻了一部杰作! ——郭為神州數(shù)碼控股有限公司董事局主席 涂子沛先生的《數(shù)據(jù)之巔》通過追溯梳理美國的數(shù)據(jù)歷史、展望人類的數(shù)據(jù)未來,給中國社會提出了一個數(shù)據(jù)時代的新命題——如何構(gòu)建數(shù)據(jù)文化?本書引人入勝、發(fā)人深思,是不可不讀的好書。 ——馬蔚華招商銀行前行長 數(shù)據(jù)表示的是過去,但表達的是未來,所以觀察數(shù)據(jù)需要有歷史觀。涂子沛先生的這本新作《數(shù)據(jù)之巔》以大歷史、大數(shù)據(jù)、大社會、大進步的格局,通過數(shù)據(jù)將遙遠拉近,將涂子沛先生開啟了一道大門,我相信,后面會有更多的發(fā)展,讓大家進入這一個重要的現(xiàn)代文化園地。 ——許倬云著名歷史學(xué)家、美國匹茲堡大學(xué)歷史系榮譽講座教授 在《數(shù)據(jù)之巔》這本書中,涂先生跳到了哲學(xué)思考的層面,以統(tǒng)計學(xué)的社會應(yīng)用為切入點,解構(gòu)數(shù)據(jù)文化在美國政治、經(jīng)濟乃至軍事發(fā)展上起到的關(guān)鍵作用,一環(huán)扣一環(huán),構(gòu)思精巧,故事生動,邏輯清晰,讀起來實在“解渴”。感謝涂先生的智慧,為時代貢獻了一部杰作! ——郭為神州數(shù)碼控股有限公司董事局主席 涂子沛先生的《數(shù)據(jù)之巔》通過追溯梳理美國的數(shù)據(jù)歷史、展望人類的數(shù)據(jù)未來,給中國社會提出了一個數(shù)據(jù)時代的新命題——如何構(gòu)建數(shù)據(jù)文化?本書引人入勝、發(fā)人深思,是不可不讀的好書。 ——馬蔚華招商銀行前行長 數(shù)據(jù)表示的是過去,但表達的是未來,所以觀察數(shù)據(jù)需要有歷史觀。涂子沛先生的這本新作《數(shù)據(jù)之巔》以大歷史、大數(shù)據(jù)、大社會、大進步的格局,通過數(shù)據(jù)將遙遠拉近,將悠久縮短,將巨大歸聚,將過程簡直。無論你從事何業(yè)或研究何題,都值得認真閱讀這部巔峰之作。 ——朱小黃中信銀行行長、中信集團監(jiān)事長 大數(shù)據(jù)是互聯(lián)網(wǎng)金融的基礎(chǔ)支柱;ヂ(lián)網(wǎng)金融是云計算、大數(shù)據(jù)、社交網(wǎng)絡(luò)這個移動互聯(lián)大時代里的小時代。時代潮流,浩浩蕩蕩!涂子沛先生的大數(shù)據(jù)系列著作,帶您觀時代大潮! ——肖風(fēng)通聯(lián)數(shù)據(jù)董事長、萬向信托董事長 涂子沛先生《數(shù)據(jù)之巔》一書的歷史高度和現(xiàn)實意義,超出了他的《大數(shù)據(jù)》。如果說他上部書開啟了中國人對大數(shù)據(jù)的認識,此書則從歷史的角度來說明,對數(shù)據(jù)的理解和掌握是人類文明進步的標志。 ——田溯寧中國寬帶資本董事長 涂先生深思熟慮,用語殷殷,穿行在中美兩國的歷史中,努力發(fā)掘各個大數(shù)據(jù)改變觀念,改造社會,改革制度的故事,無論人與事件,都是栩栩如生,發(fā)人深省。這本書讓我們有目標有信心,也給我們創(chuàng)新的無限空間。 ——王巍中國金融博物館理事長 大數(shù)據(jù)的江湖有兩派,國家治理派和產(chǎn)業(yè)升級派。涂子沛先生無疑是國家治理派的宗師,這本書在美國200多年的政界商海、刀光劍影中勾勒出雄渾的數(shù)據(jù)思維、文化、價值觀和方法論。 ——吳甘沙英特爾中國研究院院長 涂子沛先生已經(jīng)成為中國大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域最前沿的思想者和專家,如果您想了解大數(shù)據(jù)的歷史、現(xiàn)實和未來,這本書將是您的必讀書目。 ——托馬斯H達文波特巴布森學(xué)院教授,麻省理工學(xué)院數(shù)字商務(wù)中心研究員 ZipeiTuhasbecometheforemostthinkerandexpertonbigdataandanalytics inChina.Ifyouwanttoknowthepast,present,andfutureofbigdatainthatcountry,youmustreadthisbook. ThomasH.Davenport DistinguishedProfessor,BabsonCollege Fellow,MITCenterforDigitalBusiness 涂子沛先生不僅在寫書,還在用書來傳遞他的熾熱激情:大數(shù)據(jù)時代是上帝恩賜給中國人的,國人切切不可錯過這個經(jīng)濟發(fā)展和社會進步的時代機遇。如其書中所言,在這個新的時代,我們不僅要用數(shù)據(jù)來說話,還要用數(shù)據(jù)來創(chuàng)新。 ——劉鷹清華大學(xué)社會科學(xué)學(xué)院教授 在全球化、信息化和市場化的今天,國際競爭本質(zhì)上是軟實力的競爭,即制度和文化的競爭。涂子沛先生倡導(dǎo)的客觀、精確、理性和邏輯的“數(shù)據(jù)文化”理念,不僅是挖掘中國傳統(tǒng)優(yōu)秀文化、吸納西方文明,重塑中華文化的新范式,也是推進國家治理體系和治理能力現(xiàn)代化的利器。 ——周超中山大學(xué)公共政策研究中心主任、教授 《數(shù)據(jù)之巔》以數(shù)據(jù)為軸線洞察人類社會的發(fā)展規(guī)律,描繪未來的趨勢和走向,力透紙背的還有作者嚴謹?shù)闹螌W(xué)風(fēng)格及其赤子情懷。涂子沛老師的這本新書就是一座橋梁,實現(xiàn)了中西方之間、歷史與現(xiàn)實之間、政治與商業(yè)之間的貫通融合,深入研讀,可以幫助我們進入通達無礙的智慧境界! ——付偉中國銀聯(lián)支付學(xué)院院長 身處國內(nèi)喧囂浮華的互聯(lián)網(wǎng)金融蜃景,此書恰似撥云見日,涂子沛先生跨洋而來的目光深邃地看清了中華文明與西方文明在虛與實上的認知鴻溝。民主的細節(jié)在于數(shù)據(jù),金融的血液中流淌的也是數(shù)據(jù),《數(shù)據(jù)之巔》,眾心向往! ——郭宇航點融網(wǎng)創(chuàng)始人、首席執(zhí)行官 作為《大數(shù)據(jù)》最早的一批讀者,我曾于2012年10月專程前往美國拜會涂子沛先生。涂先生的格局和視野、勤奮和雅靜以及時代的責(zé)任感令我印象深刻。這本新書立意高遠、數(shù)往知來,把數(shù)據(jù)從科技符號演進到文化符號,在今天這樣一個尤其需要高瞻遠矚的大變革時代,相信《數(shù)據(jù)之巔》會再次成為熱點話題,推動中國數(shù)據(jù)文化的普及。 ——陳登坤金蝶集團執(zhí)行董事、高級副總裁、金蝶醫(yī)療軟件公司總經(jīng)理 涂子沛先生的新作《數(shù)據(jù)之巔》揭示了在人類近、現(xiàn)代文明進程中,在民主和共和體制的創(chuàng)立演化中那無形的數(shù)據(jù)之手。國內(nèi)鮮有類似的作品。把數(shù)據(jù)與人類社會的進步、民主體制的演化聯(lián)系起來,這是真正的人文關(guān)懷。當(dāng)下的中國,從不缺“民主自由”的口號,但口號建不起先進的人類文明,數(shù)據(jù)才能。 ——趙嘉敏譯言網(wǎng)聯(lián)合創(chuàng)始人、首席執(zhí)行官 通過《數(shù)據(jù)之巔》,涂子沛先生再次深入美國歷史中的細節(jié),以真正治學(xué)之人的責(zé)任與良心,發(fā)掘“數(shù)據(jù)”所凝聚的可以再生的思想文化資源。數(shù)據(jù)文化是一個全新的視角,非常值得教育工作者探索和思考。在智能型社會、人機共生的時代敲響鼓點、加速到來的時刻,本書的閱讀,也是一場自我啟蒙之旅,將為我們推開那扇未來世界之門。 ——潘江雪上海真愛夢想基金會理事長 數(shù)據(jù)自古存在。本書截取歷史長卷中的數(shù)據(jù)剖面,或古今中外,或政經(jīng)產(chǎn)學(xué),案例生動,立意高遠,令人心生欽敬。 ——趙國棟中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟秘書長第七章大數(shù)據(jù)時代:通往計算型的智能社會 大數(shù)據(jù)是人類文明新的土壤,在這片土壤之上,人類將開始建設(shè)一個智能社會。 —本書作者,2014年 世上本沒有數(shù):正解大數(shù)據(jù) 傳統(tǒng)意義上的“數(shù)據(jù)”,是指“有根據(jù)的數(shù)字”,數(shù)字之所以產(chǎn)生,是因為人類在實踐中發(fā)現(xiàn),僅僅用語言、文字和圖形來描述這個世界是不精確的,也是遠遠不夠的。例如,有人問“姚明有多高”,如果回答說“很高”、“非常高”、“最高”,別人聽了,只能得到一個抽象的印象,因為每個人對“很”、“非!庇胁煌睦斫,“最”也是相對的,但如果回答說“2.26米”,就一清二楚。除了描述世界,數(shù)據(jù)還是我們改造世界的重要工具。人類的一切生產(chǎn)、交換活動,可以說都是以數(shù)據(jù)為基礎(chǔ)展開的,例如度量衡、貨幣的背后都是數(shù)據(jù),它們的發(fā)明和出現(xiàn),都極大地推動了人類文明的進步。 數(shù)據(jù)最早來源于測量,所謂“有根據(jù)的數(shù)字”,是指數(shù)據(jù)是對客觀世界測量結(jié)果的記錄,而不是隨意產(chǎn)生的。測量是從古至今科學(xué)研究最主要的手段,可以說,沒有測量,就沒有科學(xué);也可以說,一切科學(xué)的本質(zhì)都是測量。就此而言,數(shù)據(jù)之于科學(xué)的重要性,就像語言之于文學(xué)、音符之于音樂、形色之于美術(shù)一樣,離開數(shù)據(jù),就沒有科學(xué)可言。 除了測量,新數(shù)據(jù)還可以由老數(shù)據(jù)經(jīng)計算衍生而來。測量和計算都是人為的,也就是說,世上本沒有數(shù),一切數(shù)據(jù)都是人為的產(chǎn)物。我們說的“原始數(shù)據(jù)”,并不是“原始森林”這個意義上的“原始”,原始森林是指天然就存在的,而原始數(shù)據(jù)僅僅是指第一手的、沒有經(jīng)過人為修改的數(shù)據(jù)。 傳統(tǒng)意義上的數(shù)據(jù),和信息、知識也是完全不同的概念:數(shù)據(jù)是信息的載體,信息是有背景的數(shù)據(jù),而知識是經(jīng)過人類的歸納和整理,最終呈現(xiàn)規(guī)律的信息。 圖7–1傳統(tǒng)意義上的數(shù)據(jù)和信息的區(qū)別 但進入信息時代之后,“數(shù)據(jù)”二字的內(nèi)涵開始擴大:不僅指代“有根據(jù)的數(shù)字”,還統(tǒng)指一切保存在電腦中的信息,包括文本、圖片、視頻等。其中的原因是,20世紀60年代軟件科學(xué)取得了巨大進步、發(fā)明了數(shù)據(jù)庫,此后,數(shù)字、文本、圖片都不加區(qū)分地保存在電腦的數(shù)據(jù)庫中,數(shù)據(jù)也逐漸成為“數(shù)字、文本、圖片、視頻”等的統(tǒng)稱,也即“信息”的代名詞。 文本、音頻、視頻本身就已經(jīng)是信息,而且其來源也不是對世界的測量,而是對世界的一種記錄,所以信息時代的數(shù)據(jù)又多了一個來源:記錄。 圖7–2數(shù)據(jù)的三大來源 圖7–3現(xiàn)代意義上的“數(shù)據(jù)”:范疇比信息還要大 注:進入信息時代之后,數(shù)據(jù)成為信息的代名詞,兩者可以交替使用。一封郵件雖然包含很多條信息,但從技術(shù)的角度出發(fā),可能還是“一個數(shù)據(jù)”,就此而言,現(xiàn)代意義上的數(shù)據(jù)的范疇,其實比信息還大。 除了內(nèi)涵的擴大,數(shù)據(jù)庫發(fā)明之后,還出現(xiàn)了另外一個重要現(xiàn)象,那就是數(shù)據(jù)的總量在不斷增加,而且增加的速度不斷加快。 20世紀80年代,美國就有人提出了“大數(shù)據(jù)”的概念。這個時候,其實還沒有進入數(shù)據(jù)大爆炸的時代,但有人預(yù)見到,隨著信息技術(shù)的進步,軟件的重要性將下降,數(shù)據(jù)的重要性將上升,因此提出“大數(shù)據(jù)”的概念。這時候的“大”,如“大人物”和“大轉(zhuǎn)折”之“大”,主要指價值上的重要性;到了21世紀前10年,尤其是2004年社交媒體產(chǎn)生之后,數(shù)據(jù)開始爆炸,大數(shù)據(jù)的提法又重新進入大眾的視野并獲得了更大的關(guān)注。這個時候的“大”,含義也更加豐富了:一是指容量大,二是指價值大。 從這個角度出發(fā),大數(shù)據(jù)可以首先理解為傳統(tǒng)的小數(shù)據(jù)加上現(xiàn)代的“大記錄”,這種大記錄的主要表現(xiàn)形式是文本、圖片、音頻、視頻等,和傳統(tǒng)的測量完全是兩回事。而且大數(shù)據(jù)之所以“大”,主要是“大記錄”的增長,基于信息技術(shù)的進步,人類記錄的范圍在不斷擴大: 大數(shù)據(jù)=傳統(tǒng)的小數(shù)據(jù)+現(xiàn)代的大記錄 。ㄔ从跍y量)(源于記錄) 但到底多大才算大呢?針對這一問題,十多年來爭議頗多。這首先涉及衡量數(shù)據(jù)大小的單位,2000年的時候,一般認為,“太”(T)級別的數(shù)據(jù)就是大數(shù)據(jù)了,當(dāng)時擁有“太”級別數(shù)據(jù)的企業(yè)并不多,但自此之后,互聯(lián)網(wǎng)企業(yè)開始崛起,這些企業(yè)擁有各種各樣的數(shù)據(jù),其中大部分都是文本、圖片和視頻,其數(shù)據(jù)量之大,傳統(tǒng)企業(yè)根本無法望其項背。 理解幾個主要的存儲單位 一首音樂≈4兆(M) 一部電影≈1吉(G,1吉=1024兆,相當(dāng)于250首歌曲的大小) 一個普通圖書館的藏書≈1太(T,1太=1024吉,相當(dāng)于1024部電影的大小) 我認為,不僅僅是互聯(lián)網(wǎng)行業(yè),其實各行各業(yè)的數(shù)據(jù)都在爆炸,只是規(guī)模不同。如果僅僅把大數(shù)據(jù)的標準限定在互聯(lián)網(wǎng)企業(yè),認為只有互聯(lián)網(wǎng)企業(yè)才擁有大數(shù)據(jù),那就嚴重窄化了大數(shù)據(jù)的意義。畢竟容量只是表象,價值才是本質(zhì),而且大容量并不一定代表大價值,大數(shù)據(jù)的真正意義還在于大價值,價值主要是通過數(shù)據(jù)的整合、分析和開放而獲得。大數(shù)據(jù)是指人類有前所未有的能力來使用海量的數(shù)據(jù),在其中發(fā)現(xiàn)新知識、創(chuàng)造新價值,從而為社會帶來“大知識”、“大科技”、“大利潤”和“大智能”等發(fā)展機遇。 以上論述,是從概念上分析“數(shù)據(jù)”和“大數(shù)據(jù)”的區(qū)別,而掌握一個概念最好的方法,還是從動態(tài)上了解其成因。大數(shù)據(jù)的成因,還是人類信息技術(shù)的進步,而且是信息技術(shù)領(lǐng)域不同時期多個進步交互作用的結(jié)果,其中最重要的原因,當(dāng)數(shù)摩爾定律。 改變世界的三股力量:大數(shù)據(jù)的成因 1965年,英特爾的創(chuàng)始人之一戈登?摩爾(GordonMoore)在考察了計算機硬件的發(fā)展規(guī)律之后,提出了著名的摩爾定律。該定律認為,同一面積芯片上可容納的晶體管數(shù)量,一到兩年將增加一倍。1 要理解這種增加的意義,并不簡單。摩爾的本意是,由于單位面積芯片上晶體管的密度增加了,計算機硬件的處理速度、存儲能力,即其主要性能一到兩年將提升一倍。本來性能提升了,價格也應(yīng)該上升才對,但現(xiàn)實卻很詭異:半個多世紀以來,硬件的性能不斷提高,價格卻持續(xù)下降。之所以這樣,竟然還是因為晶體管越做越小,這種體積的縮小也導(dǎo)致其成本下降,再加上人類對晶體管的需求越來越大,大規(guī)模的生產(chǎn)也導(dǎo)致價格不斷下降。 回顧這半個多世紀的歷史,硬件的發(fā)展基本符合摩爾定律。以物理存儲器為例,其性能確實不斷上升,與此同時,價格不斷下降。1955年,IBM推出了第一款商用硬盤存儲器,一兆字節(jié)的存儲量需要6000多美元,此后,其價格不斷下降:1960年,一兆字節(jié)下降到3600美元;1993年,下降到大概1美元;2000年,再降至1美分左右;到2010年,每兆價格約為0.005美分。半個多世紀,存儲器的價格下降了1億多倍,這種變化的速度既巨大又劇烈,令人瞠目結(jié)舌。事實上,考察人類全部的歷史,沒有其他任何一種產(chǎn)品的價格下降空間能夠如此巨大! 圖7–41971~2011年中央處理器上的晶體管數(shù)量和摩爾定律 注:縱坐標為晶體管數(shù)量,橫坐標為年份。該曲線表明,在1971~2011年,大概每兩年相同面積的中央處理器集成電路上的晶體管數(shù)量就增加1倍。需要注意的是,縱坐標從2300到10000再到 100000,其實不成比例,如果嚴格按比例作圖,這將是一條非常陡峭的曲線,頁面將無法容納。(資料來源:維基百科) 晶體管的產(chǎn)量多過全世界的大米顆粒 晶體管由硅構(gòu)成,相當(dāng)于一個開關(guān),通電的時候表示“1”,不通電時候表示“0”,是電子產(chǎn)品最小的組織單元。一部手提電腦大概有400億個晶體管,一部智能手機約有10億個晶體管。晶體管行業(yè)(即半導(dǎo)體行業(yè))堪稱人類歷史上最高產(chǎn)的行業(yè),F(xiàn)在一年生產(chǎn)的晶體管比全球一年消耗的大米顆粒還要多:2002年,人類生產(chǎn)的晶體管數(shù)量大概是大米顆粒的40倍,買1粒米的錢可以購買100個晶體管2;2009年,晶體管的產(chǎn)量上升到大米顆粒的250倍,1粒大米的價錢可以購買10萬個晶體管3。 摩爾定律發(fā)展到今天,一根頭發(fā)尖大小的地方,就能放上萬個晶體管。當(dāng)然,晶體管不可能無限縮小,所以十幾年來,業(yè)界曾圍繞以下問題展開激烈爭論:摩爾定律所揭示的現(xiàn)象還會不會持續(xù),即單位面積上的晶體管還能不能繼續(xù)增加甚至翻倍?如果能,又能持續(xù)多久? 作為摩爾定律的發(fā)現(xiàn)者,2003年,戈登?摩爾也被問到這個問題。他認為:“創(chuàng)新無止境,下一個10年摩爾定律可能還將有效。” 事實證明,摩爾是對的。2011年,英特爾公司宣布發(fā)明了22納米的3D(三維)晶體管,這使爭論暫時畫上了句號。此前的晶體管為31納米,22納米的晶體管小了大約1/3,因為小,新的晶體管比現(xiàn)在更便宜、更節(jié)能。2012年,英特爾又宣布將投資50億美元在美國亞利桑那州建廠,計劃2014年投產(chǎn)14納米的晶體管,這比21納米的尺寸又將縮小1/3。 英特爾的發(fā)明使大部分科學(xué)家相信,摩爾定律的生命將延續(xù)到2020年。預(yù)計到2020年,1太硬盤的價格將下降到3美元,這相當(dāng)于一杯咖啡的價格。前面我們提到,美國的國會圖書館是全世界最大的圖書館,其印刷品館藏量約為15太;一所普通大學(xué)的圖書館,其館藏量可能也就一兩個太。也就是說,到2020年,只需花上一杯咖啡的錢,就可以把一個圖書館的全部信息拷進一個小小的硬盤。信息保存的過程如此方便、成本如此低廉,歷史上從來沒有過。 圖7–51太容量的硬盤價格變化 注:1太容量的硬盤價格正在持續(xù)下降,已經(jīng)從2012年11月的94.99美元下降到2014年3月的49.99美元。以上數(shù)據(jù)是作者在亞馬遜網(wǎng)站上跟蹤的希捷硬盤在不同時段的報價。 摩爾定律已經(jīng)成為描述一切呈指數(shù)級增長事物的代名詞,它給人類社會帶來的影響非常深遠。正是因為存儲器的價格在半個世紀之內(nèi)經(jīng)歷了空前絕后的下降,人類才可能以非常低廉的成本保存海量的數(shù)據(jù),這為大數(shù)據(jù)時代的到來鋪平了硬件道路。這相當(dāng)于物質(zhì)基礎(chǔ),沒有它,大數(shù)據(jù)無異于水中月、鏡中花。 摩爾定律促使硬件成為大眾消費品 摩爾定律導(dǎo)致的硬件價格大幅下降,最終使曾經(jīng)昂貴的硬件成為大眾消費品,原來“高大上”的產(chǎn)品,如激光打印機、服務(wù)器、智能手機,已經(jīng)逐漸從科研機構(gòu)、大型企業(yè)進入普通家庭。由于這些設(shè)備的普及,美國的一些公司甚至出現(xiàn)了一種新趨勢:鼓勵員工自己帶設(shè)備來上班(BYOD),公司只提供網(wǎng)絡(luò)和辦公場地,成為“輕”公司。 除了便宜、功能強大,摩爾定律也導(dǎo)致各種計算設(shè)備變得越來越小。這個現(xiàn)象在1988年被美國科學(xué)家馬克?韋澤(MarkWeiser)概括為“普適計算”。普適計算理論認為,計算機發(fā)明以后,將經(jīng)歷三個主要階段:一是主機型階段,指的是很多人共享一臺大型機,一臺機器就占據(jù)半個房間;二是個人電腦階段,計算機變小,人手一機,韋澤當(dāng)時就處于這個時代,這似乎已經(jīng)是很理想的狀態(tài),但韋澤天才般地預(yù)見到,人手一機不是時代的終結(jié);在第三個階段,計算機將變得很小,小得將從人們的視線中消失,人們可以在日常環(huán)境中廣泛部署各種各樣微小的計算設(shè)備,在任何時間、地點都能獲取并處理數(shù)據(jù),計算最終將和環(huán)境融為一體,這個階段,被稱為普適計算階段。 今天,第三股浪潮正向我們奔涌而來,小小的智能手機,其功能已經(jīng)毫不遜色于一臺計算機,各種傳感器正越做越小,RFID(射頻識別)標簽方興未艾,可穿戴式設(shè)備又向我們走來。 RFID標簽已經(jīng)在零售、醫(yī)療、動物飼養(yǎng)等領(lǐng)域得到了廣泛應(yīng)用。近兩年,美國費城等城市在垃圾桶內(nèi)安裝RFID傳感器,垃圾裝滿或者因為腐爛而散發(fā)異味時,傳感器就會發(fā)出信號,這可以優(yōu)化垃圾車的巡回路線,減少城市管理人員收集垃圾的次數(shù)。 可穿戴式設(shè)備是指可以穿戴在身上、不影響個人活動的微型電子設(shè)備,這些設(shè)備可以記錄佩戴者的物理位置、熱量消耗、體溫、心跳、睡眠模式、步伐多少以及健身目標等數(shù)據(jù)。2013年,德國霍芬海姆足球俱樂部(TSG1899Hoffenheim)已經(jīng)把傳感器裝到了足球和每個球員的護膝或衣服上。這些傳感器可以實時記錄運動員的活動軌跡、奔跑速度、加速過程、控球時間,一場比賽打下來,系統(tǒng)可以收集6000萬條記錄,球員、教練都可以對這些數(shù)據(jù)做出分析,并借此提高訓(xùn)練質(zhì)量、制定最佳組合、減少運動員受傷的概率。 除了足球,傳感器還進入了網(wǎng)球場。法國的運動器材制造商Babolat把傳感器安裝在了網(wǎng)球拍的手柄上,它可以記錄球員擊球時的狀態(tài),例如正反拍、擊球點、擊球的力量、球速、球的旋轉(zhuǎn)方向等參數(shù)。這些數(shù)據(jù)以幾乎實時的速度傳到現(xiàn)場的智能手機和平板電腦上,運動員和教練可以隨時查看。2014年在澳網(wǎng)封后的中國網(wǎng)球一姐李娜,用的就是這個品牌的球拍。為了配合這種球拍的使用,2013年,國際網(wǎng)球聯(lián)合會(InternationalTennisFederation,ITF)已經(jīng)修改了章程,從2014年1月起,允許運動員在國際比賽中使用帶有傳感器的球拍,以記錄、分析自己的數(shù)據(jù)。在未來的比賽中,如果運動員同意,這些數(shù)據(jù)甚至可以實時出現(xiàn)在比賽場地的大屏幕上,供觀眾分析參考。 除了足球、網(wǎng)球,傳感器也在快速進入棒球、橄欖球等領(lǐng)域。美國的一些研究機構(gòu)認為,美國運動產(chǎn)業(yè)的營收,近年內(nèi)會有大幅增長,主要原因就是,基于傳感器的數(shù)據(jù)收集和分析技術(shù)將改寫整個領(lǐng)域的生態(tài)。 除了運動,可穿戴式設(shè)備還有很多。2014年2月,日本東京大學(xué)的研究人員發(fā)明了一種比羽毛還輕的傳感器,把它放置在紙尿片內(nèi),紙尿片一濕就會發(fā)出信號,看護就會知道并及時更換。這種傳感器的成本只有幾美分,不僅適用于嬰兒,還適用于老人、病人。此外,作為可穿戴式設(shè)備最經(jīng)典的產(chǎn)品,風(fēng)靡一時的谷歌眼鏡也在娛樂之外得到了更廣泛的應(yīng)用:美國紐約市的警察準備在日常巡邏中佩戴谷歌眼鏡,以快速記錄事故現(xiàn)場的情形,并通過網(wǎng)絡(luò)和同事共享數(shù)據(jù)。 普適計算的根本,是在人類生活的物理環(huán)境中廣泛部署微小的計算設(shè)備,實現(xiàn)無處不在的數(shù)據(jù)自動采集,這意味著人類數(shù)據(jù)收集能力的增強。在此之前,電子化的數(shù)據(jù)主要由各種信息系統(tǒng)產(chǎn)生,這些信息系統(tǒng)記錄的主要是商業(yè)過程的數(shù)據(jù),而傳感器的出現(xiàn)及其技術(shù)的成熟,使人類開始有能力大規(guī)模記錄物理世界的狀態(tài),這種進步推動了大數(shù)據(jù)時代的到來。 但人類數(shù)據(jù)的真正爆炸發(fā)生在社交媒體時代。 從2004年起,以臉譜網(wǎng)(Facebook)、推特(Twitter)為代表的社交媒體相繼問世,這拉開了一個互聯(lián)網(wǎng)的嶄新時代—Web2.0。在此之前,互聯(lián)網(wǎng)的主要作用是信息的傳播和分享,其最主要的組織形式是建立網(wǎng)站,但網(wǎng)站是靜態(tài)的;進入Web2.0時代之后,互聯(lián)網(wǎng)開始成為人們實時互動、交流協(xié)同的載體。2011年8月23日,美國弗吉尼亞州發(fā)生5.9級地震,紐約市居民首先在推特上看到這個消息,幾秒鐘之后,才感覺到地震波從震中傳過來的震感,社交媒體把人類信息傳播的速度,帶到了比地震波還快的時代! 除了把交流和協(xié)同的功能推到了一個登峰造極的高度,社交媒體的另外一層重要意義就是,給全世界無數(shù)的網(wǎng)民提供了一個平臺,使其隨時隨地都可以記錄自己的行為、想法,這種記錄其實就是貢獻數(shù)據(jù)。我們談到過,所有的數(shù)據(jù)都是人為產(chǎn)生的,所有的數(shù)據(jù)都是對世界的測量和記錄。從1946年人類發(fā)明第一臺計算機并進入信息時代算起,到社交媒體產(chǎn)生之前,主要是信息系統(tǒng)、傳感器在產(chǎn)生和收集數(shù)據(jù),但由于社交媒體的橫空出世,人類自己也開始在互聯(lián)網(wǎng)上生產(chǎn)數(shù)據(jù),例如發(fā)推特、微博和微信,記錄各自的活動和行為,這部分數(shù)據(jù)也因此被稱為“行為數(shù)據(jù)”。 圖7–6各種數(shù)據(jù)類型和大小 注:數(shù)據(jù)是對人類生活和客觀世界的測量和記錄。過去,是我們選擇什么東西需要記錄,才對它進行記錄;在大數(shù)據(jù)時代,是選擇什么東西不需要記錄,才取消對它的記錄。隨著記錄范圍的不斷擴大,可以肯定,人類的數(shù)據(jù)總量還將呈滾雪球式擴大。 由于社交媒體的出現(xiàn),全世界的網(wǎng)民都開始成為數(shù)據(jù)的生產(chǎn)者,每個網(wǎng)民都猶如一個信息系統(tǒng)、一個傳感器,不斷地制造數(shù)據(jù),這引發(fā)了人類歷史上迄今為止最龐大的數(shù)據(jù)爆炸。除了數(shù)據(jù)總量驟然增加,社交媒體還使人類的數(shù)據(jù)世界更為復(fù)雜:在大家發(fā)的微博中,你的帶圖片、他的帶視頻,大小、結(jié)構(gòu)完全不一樣。因為沒有嚴整的結(jié)構(gòu),在社交媒體上產(chǎn)生的數(shù)據(jù),也被稱為非結(jié)構(gòu)化數(shù)據(jù)。這部分數(shù)據(jù)的處理,遠比結(jié)構(gòu)嚴整的數(shù)據(jù)困難。2012年,喬治敦大學(xué)的教授李塔魯(KalevLeetaru)考察了推特上產(chǎn)生的數(shù)據(jù)量,他做出估算說,過去50年,《紐約時報》總共產(chǎn)生了30億個單詞的信息量,現(xiàn)在僅僅一天,推特上就產(chǎn)生了80億個單詞的信息量。也就是說,如今一天產(chǎn)生的數(shù)據(jù)總量相當(dāng)于《紐約時報》100多年產(chǎn)生的數(shù)據(jù)總量。 在這種前所未有的數(shù)據(jù)生產(chǎn)速度下,社交媒體的出現(xiàn)雖然還不到10年,目前全世界的數(shù)據(jù)大約75%都是非結(jié)構(gòu)化數(shù)據(jù)。今天回頭看,社交媒體的出現(xiàn),才是讓大數(shù)據(jù)一錘定音的力量。基于以上分析,我們也可以這樣認為: 大數(shù)據(jù)=結(jié)構(gòu)化數(shù)據(jù)+非結(jié)構(gòu)化數(shù)據(jù) 但我們前面談到,大數(shù)據(jù)之大,不僅在于其大容量,更在于其大價值。價值在于使用,如同埋在地底下的石油,遠古即已有之,人類進入石油時代,是因為掌握了開采、冶煉石油的技術(shù),現(xiàn)在進入大數(shù)據(jù)時代,最根本的原因,也是人類使用數(shù)據(jù)的能力取得了重大突破和進展。 這種突破集中表現(xiàn)在數(shù)據(jù)挖掘上,數(shù)據(jù)挖掘是指通過特定的算法對大量的數(shù)據(jù)進行自動分析,從而揭示數(shù)據(jù)當(dāng)中隱藏的規(guī)律和趨勢,即在大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)新知識,為決策者提供參考。數(shù)據(jù)挖掘進步的根本原因是人類能夠不斷設(shè)計出更強大的模式識別算法4,這其實是軟件的進步,其中最重要的里程碑,是1989年美國計算機協(xié)會(ACM)下屬的數(shù)據(jù)挖掘及知識發(fā)現(xiàn)專委會(SIGKDD)舉辦了第一屆數(shù)據(jù)挖掘?qū)W術(shù)年會,出版了專門期刊,此后數(shù)據(jù)挖掘得到了如火如荼的 發(fā)展。 正是通過數(shù)據(jù)挖掘,近幾十年來,各大商家譜寫了不少點“數(shù)”成金的傳奇故事,例如沃爾瑪通過捆綁“啤酒和尿布”提高銷量。又如,奈飛公司利用客戶的網(wǎng)上點擊記錄,預(yù)測其喜歡觀看的內(nèi)容,實現(xiàn)精準營銷。再如,阿里巴巴等互聯(lián)網(wǎng)公司憑借長期以來積累的用戶資金流水記錄,涉足金融領(lǐng)域,在幾分鐘之內(nèi)就能判斷用戶的信用資質(zhì),決定是否為其發(fā)放貸款…… 近年來,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用還在不斷推陳出新,有望到達一個新高度。例如,2014年1月,美國的電子零售巨頭亞馬遜宣布了一項新的專利:“預(yù)判發(fā)貨”(AnticipatoryShipping),即在網(wǎng)購時,顧客還沒有下單,亞馬遜就將包裹寄出。這種顧客未動、包裹先行的做法聽起來有些不可思議,中國的新聞媒體甚至驚呼:“亞馬遜這是要逆天嗎?”5 在商言商,亞馬遜當(dāng)然不會做賠本生意,預(yù)判發(fā)貨的核心技術(shù)還是數(shù)據(jù)挖掘。其本質(zhì)是,通過預(yù)測,把發(fā)貨這個過程“外包”給算法,讓算法自動發(fā)貨,實現(xiàn)智能化!亞馬遜解釋說,發(fā)貨的根據(jù)是顧客以前的消費記錄、搜索記錄以及顧客的心愿單,甚至包括用戶的鼠標在某個商品頁面上停留的時間。根據(jù)這些數(shù)據(jù),亞馬遜如果判斷某位顧客對一件新商品有購買意愿,就會直接將商品寄給他,或者將該商品發(fā)送到離他最近的倉庫,顧客一旦下單,那收貨時間就將以“小時”計,而不是以“天”計。亞馬遜認為,正是從下單到收貨之間的物流延遲,導(dǎo)致人們購買意愿降低,如果能夠縮短物流時間,將極大地改善客戶體驗。 亞馬遜還提到,并不是所有的商品都會采用預(yù)判發(fā)貨的形式,這種形式比較適合在上市之初就容易吸引大量買家的商品,例如暢銷書。為了降低預(yù)判發(fā)貨的風(fēng)險,亞馬遜還有一些配套技巧,例如模糊填寫用戶的收貨地址,只將商品配送到離他最近的倉庫,如果在配送過程中收到訂單,再將地址信息補充完整,在這個等待的過程中,亞馬遜還會向這位潛在顧客推送信息,以提升這筆交易成功的可能性。 但這些都不是其算法的關(guān)鍵,預(yù)判發(fā)貨這種模式之所以有商業(yè)價值,是因為亞馬遜會鎖定其適用的群體,例如年收入較高的家庭,他們對某些消費有固定的預(yù)算;又如某一領(lǐng)域的狂熱粉絲,他們愿意為最新的時尚一擲千金。這批高端用戶更注重購物體驗,如果把發(fā)貨流程外包給算法,顧客就不用操心自己想買什么,這相當(dāng)于節(jié)省了他的時間;流行物品在第一時間就送上門,這是急顧客之所急?梢韵胂,當(dāng)這些家庭拆開郵包時,更多的可能是欣喜,這種欣喜將強化顧客的忠誠度。當(dāng)然,假如顧客真的堅持退貨,亞馬遜還有解決辦法:一是打折銷售,二是作為禮物免費贈送,這也有利于亞馬遜在高端客戶中提升口碑。 亞馬遜有1億客戶,這些人的消費記錄日積月累,可以說是海量數(shù)據(jù),但數(shù)據(jù)雖然多,卻沒有人會直接將自己的收入高低和興趣愛好告訴亞馬遜,所有的預(yù)判,亞馬遜都必須靠數(shù)據(jù)挖掘來完成。 2013年5月,加拿大蒙特利爾交通局(SociétédeTransportdeMontréal,STM)宣布,將利用SAP(思愛普)公司的大數(shù)據(jù)處理平臺,對所有顧客的消費歷史和個人信息進行分析,然后按照其偏好、習(xí)慣和需要,為每位顧客定制專門的消費計劃和個性化票價。蒙特利爾交通局共有120萬名顧客,這意味著這120萬人都將得到不同的票價,其目的是優(yōu)化公共交通的運營,提高顧客的忠誠度。 蒙特利爾交通局之所以能夠這么做,還是因為其掌握了大量顧客的數(shù)據(jù)。在信息時代之前,受限于記錄手段,商家對于自己產(chǎn)品及服務(wù)的銷售和流向,只有一個粗略的記錄,但現(xiàn)在的信息技術(shù)已經(jīng)可以把一件產(chǎn)品的流向、每位消費者的情況都記錄下來,再通過數(shù)據(jù)挖掘,為客戶量身定制,把消費和服務(wù)推向一個高度個性化的時代。 數(shù)據(jù)挖掘技術(shù)的不斷成熟也在挑戰(zhàn)現(xiàn)有的統(tǒng)計體系。在第五章我們談到,20世紀30年代,由于抽樣技術(shù)的出現(xiàn),統(tǒng)計科學(xué)發(fā)生了一場革命,即社會調(diào)查可以通過選取有代表性的樣本來完成,而不必像人口普查一樣,把全社會的人都問一遍。但前文也談到,即使是抽樣技術(shù),也有其缺陷。1948年,杜魯門和杜威競選,蓋洛普通過抽樣調(diào)查預(yù)測杜威將當(dāng)選,但結(jié)果讓所有人都大跌眼鏡。其失敗的原因在于,抽樣調(diào)查需要經(jīng)過問卷設(shè)計、信息收集、數(shù)據(jù)分析等多個步驟,這導(dǎo)致它掌握的數(shù)據(jù)滯后于真實的情況,在最后兩周里,蓋洛普不得不停止調(diào)查,而杜魯門恰恰在最后的關(guān)頭扭轉(zhuǎn)了乾坤。在大數(shù)據(jù)時代,對誰將當(dāng)選總統(tǒng)的預(yù)測已經(jīng)出現(xiàn)了新方法:在投票前后,對社交媒體上的數(shù)據(jù)進行觀點的挖掘,可以較為準確地預(yù)測出誰能當(dāng)選。最近兩次美國總統(tǒng)的選舉,都有人通過挖掘推特、臉譜網(wǎng)上的數(shù)據(jù),準確預(yù)測到奧巴馬的當(dāng)選。 這種基于網(wǎng)絡(luò)數(shù)據(jù)的挖掘,不需要制定問卷,也不需要逐一調(diào)查,成本低廉。更重要的是,這種分析是實時的,沒有滯后性,所以有越來越多的科學(xué)家相信,因為大數(shù)據(jù)的出現(xiàn),統(tǒng)計科學(xué)將再次發(fā)生革命,進入統(tǒng)計2.0時代。在這個新的時代,數(shù)據(jù)挖掘?qū)⒊蔀樵絹碓街匾姆治鲱A(yù)測工具,抽樣技術(shù)將下降為輔助工具。 表7–1數(shù)據(jù)挖掘和統(tǒng)計抽樣的區(qū)別 數(shù)據(jù)樣本 數(shù)據(jù)來源 數(shù)據(jù)時效 數(shù)據(jù)成本 數(shù)據(jù)挖掘 用的是已經(jīng)存在的大數(shù)據(jù),樣本偏差可能很大,但如果數(shù)據(jù)量足夠大,偏差又可能縮小 多個源頭 實時 基本免費 統(tǒng)計抽樣 根據(jù)設(shè)計好的問卷,收集自己需要的數(shù)據(jù),如果設(shè)計科學(xué),那樣本會比較均勻、偏差小 比較單一 滯后 比較昂貴 注:數(shù)據(jù)挖掘的優(yōu)越性,也集中反映了大數(shù)據(jù)“量大、多源、實時”等三個特點。 雖然數(shù)據(jù)挖掘正如日中天,但在一定程度上,數(shù)據(jù)挖掘已經(jīng)不是大數(shù)據(jù)的前沿和熱點,取而代之的是機器學(xué)習(xí)。當(dāng)下興起的機器學(xué)習(xí)憑借的也是計算機算法,但和數(shù)據(jù)挖掘相比,其算法并不是固定的,而是帶有自調(diào)適參數(shù)的,也就是說,它能夠隨著計算、挖掘次數(shù)的增多,不斷自動調(diào)整自己算法的參數(shù),使挖掘和預(yù)測的結(jié)果更為準確,即通過給機器“喂取”大量的數(shù)據(jù),讓機器可以像人一樣通過學(xué)習(xí)逐步自我改善、提高,這也是該技術(shù)被命名為“機器學(xué)習(xí)”的原因。 除了數(shù)據(jù)挖掘和機器學(xué)習(xí),數(shù)據(jù)的分析、使用技術(shù)已經(jīng)非常成熟,并且形成了一個譜系,例如數(shù)據(jù)倉庫、多維聯(lián)機分析外理(MultidimensionOLAP)、數(shù)據(jù)可視化、內(nèi)存分析(In-memoryAnalytics)都是其體系的重要組成部分,在人類數(shù)據(jù)技術(shù)的進步過程中,都扮演過重要的角色。6 回顧半個多世紀人類信息社會的歷史,正是因為1966年提出的摩爾定律,晶體管越做越小、成本越來越低,才形成了大數(shù)據(jù)現(xiàn)象的物理基礎(chǔ),這相當(dāng)于鑄器,人類有能力制造巨鼎盛載海量的數(shù)據(jù);1989年興起的數(shù)據(jù)挖掘,則相當(dāng)于把原油煉成石油的技術(shù),是讓大數(shù)據(jù)產(chǎn)生“大價值”的關(guān)鍵,因為如果沒有技術(shù),石油再多,我們也只能“望油興嘆”;2004年出現(xiàn)的社交媒體,則把全世界每個人都變成了潛在的數(shù)據(jù)生成器,向摩爾定律鑄成的巨鼎當(dāng)中貢獻數(shù)據(jù),這是“大容量”形成的主要原因。 圖7–7大數(shù)據(jù)的三大成因 分析了大數(shù)據(jù)的靜態(tài)概念和動態(tài)成因,我們更清楚地理解了大數(shù)據(jù)的特點,現(xiàn)在可以從以下角度來理解、定義大數(shù)據(jù): 圖7–8大數(shù)據(jù)的概念和維度 注:正如前文討論的,當(dāng)前人類的數(shù)據(jù)約75%都是非結(jié)構(gòu)化數(shù)據(jù),大記錄的表現(xiàn)形式主要就是非結(jié)構(gòu)化數(shù)據(jù),而大記錄、非結(jié)構(gòu)化數(shù)據(jù)要體現(xiàn)出價值,當(dāng)前主要的處理方法,還是把它們轉(zhuǎn)化為有嚴整結(jié)構(gòu)的數(shù)據(jù),即傳統(tǒng)的小數(shù)據(jù),因此我認為,大數(shù)據(jù)的價值維度主要體現(xiàn)在傳統(tǒng)的小數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之上,而大數(shù)據(jù)的容量維度主要體現(xiàn)在現(xiàn)代的大記錄和非結(jié)構(gòu)化數(shù)據(jù)兩個方面。 大數(shù)據(jù)產(chǎn)生之后,全世界的科學(xué)家都在預(yù)測和展望。這股由信息技術(shù)掀起的新浪潮將對人類社會產(chǎn)生何種影響,將帶領(lǐng)我們的世界走向何方?我認為,有更多的數(shù)據(jù),就必定會有更多的使用,而使用數(shù)據(jù)最根本的方法就是計算,大數(shù)據(jù)時代就是大計算的時代,無處不在的計算標志著一個計算型社會的興起。 有數(shù)據(jù),還要有計算:計算型社會的興起 前文談到,進入信息時代之后,“數(shù)據(jù)”這個概念的內(nèi)涵擴大了,它不僅僅指代傳統(tǒng)的數(shù)字,還包括文字、圖片甚至音頻、視頻等。 由于數(shù)據(jù)的內(nèi)涵擴大,可以想象,計算的內(nèi)涵也應(yīng)該發(fā)生相應(yīng)的變化。計算是以數(shù)據(jù)為基礎(chǔ)的,其本質(zhì)是對輸入的數(shù)據(jù),經(jīng)過一定規(guī)則的處理后,例如加、減、乘、除,輸出一個新數(shù)據(jù),從這個意義上說,計算就是對數(shù)據(jù)進行有規(guī)則的轉(zhuǎn)換。 傳統(tǒng)的計算自然以傳統(tǒng)的“數(shù)字”為基礎(chǔ),例如:8×8=64,而在大數(shù)據(jù)時代,文本是數(shù)據(jù),視頻是數(shù)據(jù),這些數(shù)據(jù)是否也能計算?例如,輸入一段文本,經(jīng)過一定規(guī)則的處理,得出另外一段文本或者一張圖片,甚至一個視頻,那是不是也應(yīng)該算作“計算”? 這個新型的數(shù)據(jù)轉(zhuǎn)換過程,其實就是我們熟悉的搜索和數(shù)據(jù)挖掘。 按照我們對計算的定義:計算是按照一定的規(guī)則對數(shù)據(jù)進行轉(zhuǎn)換的過程,而文本、圖片、音頻和視頻都是大數(shù)據(jù)時代的數(shù)據(jù),那以上的過程就應(yīng)該是計算。換句話說,在大數(shù)據(jù)時代,計算的內(nèi)涵也擴大了,搜索就是計算,數(shù)據(jù)挖掘也是計算!它們依照的規(guī)則,并不是簡單的加、減、乘、除,而是特定的、更為復(fù)雜的算法。 我們的世界主要由物理環(huán)境、人和社會構(gòu)成,如果按此劃分,人類的計算也可以分為兩大類:物理環(huán)境的計算、人和社會的計算。社會領(lǐng)域的計算主要是研究個人和群體的行為,包括過去和現(xiàn)在的行為,也包括有組織的群體行為和無組織的群體行為,傳統(tǒng)學(xué)科如經(jīng)濟學(xué)、政治學(xué)、社會學(xué)、歷史學(xué)等都屬于這個范疇;物理環(huán)境領(lǐng)域的計算主要研究人類生活環(huán)境的狀態(tài),傳統(tǒng)學(xué)科如物理、化學(xué)、天文學(xué)、地理學(xué)、動物學(xué)、植物學(xué)等都屬于這個范疇。 在大數(shù)據(jù)時代,人和社會、物理環(huán)境這兩大領(lǐng)域的計算都將蓬勃興起。物理環(huán)境領(lǐng)域的計算由來已久,大數(shù)據(jù)時代最大的亮點就是人和社會的計算,越來越多的社會問題都將通過計算得到解決。換句話說,由于大數(shù)據(jù)的出現(xiàn),社會正逐漸變得可以計算! 可以計算的原因是,個人在真實世界的活動和社會狀態(tài)被前所未有地記錄,這種記錄的粒度很高,頻度也在不斷增加,為社會領(lǐng)域的計算提供了極為豐富的數(shù)據(jù)。 2011年10月,美國佛羅里達州勞德代爾堡市(FortLauderdale)發(fā)生了一起惡性交通事故,事故原因是一名退休警察超速行駛。佛羅里達州《太陽哨兵報》的記者克斯汀(SallyKestin)在查閱歷年的數(shù)據(jù)后發(fā)現(xiàn):從2004年起,整個佛羅里達州發(fā)生過320起警察超速導(dǎo)致的交通事故,并且導(dǎo)致19人喪生,而最后的結(jié)果,只有一名警察入獄服刑?怂雇∫庾R到,這可能是一個非常值得關(guān)注的社會問題,她甚至懷疑這個數(shù)據(jù)只是冰山一角,類似的警察很多,開快車可能是其經(jīng)常性的行為。 但懷疑只能是懷疑,克斯汀知道,要證明它,無異于要證明警察這個群體知法犯法、凌駕于法律之上,這是個很大的挑戰(zhàn),最大的困難就在于取證。 為了取證,克斯汀嘗試過跟蹤警車,獲取其超速的第一手記錄。她抱著測速雷達,一連幾天守在高速公路邊,一看見有超速的黑點,就驅(qū)車直追,但她很快發(fā)現(xiàn),這無異于守株待兔,難度太大:一是路上車輛太多,難以確定目標,追來追去,常常發(fā)現(xiàn)不是警車,一到晚上,目標更是難以辨認;二是就算運氣好、碰上的恰好就是警車,克斯汀也無權(quán)截停,僅僅通過照片或錄像,證據(jù)還是不夠充分,事后也無法服人。 克斯汀最后想出的辦法,是根據(jù)美國內(nèi)開放1.0時代制定的《信息自由法》,向當(dāng)?shù)氐慕煌ü芾聿块T申請數(shù)據(jù)開放,因為警車是公務(wù)用車,公民有權(quán)了解其使用狀態(tài),她因此獲得了110萬條當(dāng)?shù)鼐囃ㄟ^不同高速路口收費站的原始記錄。在專業(yè)數(shù)據(jù)分析人員的幫助下,克斯汀用了3個月的時間對這些記錄進行了整合和分析。 克斯汀的分析方法是:她選取兩個特定的收費站并測算兩點之間的距離,再在110萬條記錄中找到每一輛警車通過這兩個不同收費站的時間點,兩點之間的距離除以其時間差,即為該警車在這段路程中的平均行駛速度。 克斯汀的分析得到了令人震驚的結(jié)果。她發(fā)現(xiàn),在13個月期間,當(dāng)?shù)氐?br/> 3900輛警車一共發(fā)生了5100宗超速事件,也就是說,警車超速的行為幾乎每天都在發(fā)生;96%的超速在144公里/小時至176公里/小時之間,當(dāng)?shù)?/5的警車都有時速超過144公里的“劣跡”,而且,時間記錄表明,絕大部分超速行為發(fā)生在上下班時間和上下班的途中。這意味著,他們開快車并不是為了執(zhí)行公務(wù)。 克斯汀的懷疑終于得到了證實,2012年2月,她利用這些數(shù)據(jù)分析的結(jié)果,在《太陽哨兵報》上發(fā)表了一系列報道,頭篇報道的標題為“他們凌駕法律之上?”7。在大量數(shù)據(jù)和調(diào)查訪談的基礎(chǔ)上,克斯汀得出結(jié)論說,因為工作需要和警察身份的特權(quán)意識,開快車成了警察群體的普遍習(xí)慣,即使下班之后身著便服,其駕駛速度也沒能降下來,而路上值勤的警察也警警相護,互相理解并縱容這種行為。 鐵數(shù)如山?梢韵胂螅怂雇〉膱蟮酪灰妶,輿論一片嘩然。接下來一個月,《太陽哨兵報》的電話響個不停。全國各地的讀者紛紛打來電話,有的表示感謝,有的要來取經(jīng)。當(dāng)?shù)鼐瘎?wù)部門則發(fā)生了一場“大地震”,5100宗超速案件涉及12個部門近800名警察,一些被“坐實”的警察陸續(xù)受到處理:48名州高速公路巡警被處以警告處分或者被勒令紀律反。44名地方刑警被剝奪開車上下班的權(quán)利并回爐參加安全駕駛培訓(xùn);邁阿密市的38名警察被處理,其中1名開除、10名停發(fā)工資;各地還有33名基層警察也受到警告、剝奪駕駛權(quán)利等不同程度的處罰。 故事到這里,還沒有完。警務(wù)部門的整頓是否有效呢?2012年12月,克斯汀又向交通管理部門申請開放了最新的原始數(shù)據(jù)。她對新的數(shù)據(jù)又做了分析,并和2011年的同期數(shù)據(jù)進行了對比。數(shù)據(jù)表明,從2012年2月到10月,警察超速的個案已經(jīng)從2011年同期的3179宗下降為495宗,下降幅度高達84%。克斯汀又在《太陽哨兵報》上發(fā)表了一篇新報道—《警察猛踩剎車!》8。在這篇報道中,她甚至把數(shù)據(jù)分解到了各個警務(wù)部門,詳細地列出了每一個部門的改進水平。 圖7–9哪些部門的警察還在開快車?(2012年2月至10月與2011年的同期對比) 《太陽哨兵報》只是美國一個縣的地方報紙,總發(fā)行量不足23萬份,但因為克斯汀的報道,該報名聲大振,并于2013年4月獲得了2013年度的普利策新聞獎,其獲獎理由是:“克斯汀的報道以無可辯駁的技術(shù)調(diào)查,記錄了警察在非公務(wù)期間開快車、危及市民生命的事實,這種致命的威脅在報道引發(fā)的討論和整頓中得到消減! 可以想象,如果不是通過使用數(shù)據(jù),如果沒有上百萬條充沛的數(shù)據(jù)記錄以及成熟的數(shù)據(jù)分析手段,類似于“警察群體普遍開快車”的社會問題,人類可能永遠都無法在法庭上得到證實,這種知法犯法的特權(quán)行為,也永遠得不到有效的治理和糾正。 通過計算來解決社會問題,正變得越來越普遍。2013年,美國肯塔基大學(xué)利用大數(shù)據(jù)平臺,對學(xué)生的各種行為數(shù)據(jù)進行整合,例如各門課程的成績、出勤率、在線學(xué)習(xí)平臺的活躍度、使用圖書館等各種設(shè)施的記錄,再通過數(shù)據(jù)挖掘,快速確認可能存在問題的學(xué)生,對他們開展專門的輔導(dǎo),以減少學(xué)生流失。其實,國內(nèi)也有類似的應(yīng)用。2013年7月,有報道稱,華東師范大學(xué)的一位女生收到校方的短信:“同學(xué)你好,發(fā)現(xiàn)你上個月餐飲消費較少,不知是否有經(jīng)濟困難?”9這條溫暖的短信也要歸功于數(shù)據(jù)挖掘:校方通過挖掘校園飯卡的消費數(shù)據(jù),發(fā)現(xiàn)其每頓的餐費都偏低,于是發(fā)出了關(guān)心的詢問,但隨后發(fā)現(xiàn)這是一個美麗的錯誤——該女生其實是在減肥?梢韵胂,誤會之所以發(fā)生,還是因為數(shù)據(jù)不夠大,大數(shù)據(jù)的特點除了“量大”,還有“多源”,如果除了飯卡,還有其他來源的數(shù)據(jù)作為輔助,判斷就可能更加準確。 社會領(lǐng)域的計算,也被很多學(xué)者稱為“社會計算”(socialcomputing),這個概念的提出已經(jīng)有20多年的歷史。20世紀90年代,美國的學(xué)者最早提出這個概念之時,是從“社會軟件”(socialsoftware)這個角度出發(fā)的,最早的社會軟件是指支持群體交流的軟件,如MSN(微軟網(wǎng)絡(luò)服務(wù))、QQ(騰訊公司的一款即時通信軟件)等。社會軟件也是相對于“商業(yè)軟件”的一個概念,兩種軟件的目的不同:傳統(tǒng)的信息系統(tǒng)降低的是商業(yè)交易的費用,但社會軟件降低的主要是人際交往的成本,使大規(guī)模的合作成為可能。 2004年,社交媒體產(chǎn)生之后,社會軟件的功能被發(fā)揮得淋漓盡致,個人的行為和思想通過臉譜網(wǎng)、推特、微博等工具被廣泛記錄,有學(xué)者進一步明確主張,將基于社交媒體的行為分析稱作“社會計算”。近年來,隨著大數(shù)據(jù)的崛起,越來越多的學(xué)者認為,關(guān)于人和社會本身的數(shù)據(jù)現(xiàn)在已經(jīng)極為豐富,而且這類數(shù)據(jù)還在快速增長,未來一切的社會現(xiàn)象、社會過程和社會問題,都可以而且應(yīng)該通過以計算為特點的定量方法分析解決,這樣更加精確、更加科學(xué)。 雖然關(guān)于“社會計算”的定義正在演進當(dāng)中,國際共識也還未形成,但這并不妨礙相關(guān)研究的開展。近年來,美國的國家人文研究基金會(NationalEndowmentfortheHumanities,NEH)甚至還大力鼓勵利用基于歷史的大數(shù)據(jù)來研究、解決社會問題。2012年,美國的喬治梅森大學(xué)聯(lián)合英國的兩所大學(xué),將英國倫敦市240年的罪犯庭審記錄輸入電腦,然后對這些數(shù)據(jù)加以分析和挖掘,以研究各種案件的發(fā)展趨勢、觸發(fā)原因以及和社會背景的關(guān)系。另外一個研究更有意思,1918年,美國曾經(jīng)發(fā)生一起大流感,死亡上百萬人,歷史學(xué)家認為,大部分死亡其實都可以避免,但問題究竟出在哪里呢?美國弗吉尼亞技術(shù)大學(xué)的一個課題組著手收集了當(dāng)年各個地區(qū)的死亡人數(shù),并將這個時期全國各地所有的新聞報道都電子化,他們試圖研究信息傳播的時序、路線和死亡人數(shù)的關(guān)系,例如,什么樣的報道方式、新聞措詞最有效,什么樣的傳播渠道最有可能減少死亡人數(shù)。 又如,文藝復(fù)興期間,歐洲的思想界群星璀璨,出現(xiàn)了一大批思想先驅(qū),但歷史研究的一個困難在于,某一特定新思想的首倡者往往難以確定。隨著新證據(jù)的出現(xiàn),早年歷史學(xué)家認定的事實,常常被發(fā)現(xiàn)是張冠李戴。美國大學(xué)的一個課題組提供了一個新的方法和思路:他們把文藝復(fù)興時期幾千封名人之間的通信電子化,然后進行文本挖掘和分析,追蹤確定一個新思想、新概念的首倡者,同時研究這些新思想和新概念又是怎樣在人們的交流和互動中發(fā)展成形的。 就此而言,通過社會計算,一些精細的、微妙的、在人類歷史上曾經(jīng)難以捕捉的關(guān)系和知識,現(xiàn)在都可以捕捉到,并被上升為顯性知識。對此,麻省理工學(xué)院的教授布林約爾松(ErikBrynjolfsson)比喻說,大數(shù)據(jù)的影響,就像4個世紀之前人類發(fā)明的顯微鏡一樣:顯微鏡把人類對物理環(huán)境的觀察和測量水平推進到了“細胞”的級別,為人類社會帶來了歷史性的進步和革命,而大數(shù)據(jù),將成為我們下一個觀察人類自身行為以及社會行為的“顯微鏡”。 當(dāng)然,社會領(lǐng)域的計算、對類似知識和關(guān)系的捕捉,不僅能夠有效推動社會治理,還能產(chǎn)生商業(yè)價值。 2012年6月歐洲杯足球賽期間,中國國內(nèi)出現(xiàn)了多篇《男人一看球,女人就網(wǎng)購》的相關(guān)報道10。報道稱,根據(jù)淘寶網(wǎng)的銷售數(shù)據(jù),歐洲杯開賽以來,女性網(wǎng)購的成交量明顯上升,而且“網(wǎng)購的高峰期延時兩個小時,變成了23點到24點”,此外,在“凌晨1點45分第一場球結(jié)束到凌晨2點45分第二場球開始前”,出現(xiàn)了一個新的網(wǎng)購高峰,這個新的高峰和賽前的同時段相比,成交量“增長超過260%”。 這個現(xiàn)象背后的邏輯不難理解。球賽期間,男性沉迷于球賽,冷落了妻子(女朋友)和孩子,女性,特別是已婚女性會覺得沮喪、惱火、失落。每天晚上球賽開始的時候,在個體層面,每位女性都有很多選擇,她可以做家務(wù)、輔導(dǎo)孩子、跟閨蜜聊天、和母親通電話以及逛街購物,也就是說,其行為具有不確定性,她究竟會做什么,難以預(yù)測。但是,當(dāng)我們把幾個電子商務(wù)平臺的交易數(shù)據(jù)一匯總、一分析,就會發(fā)現(xiàn),群體的行為有規(guī)可循。隨著球賽的開始,女性在網(wǎng)上購物的成交量就開始增加,其中的高檔物品也較平時明顯增多,也就是說,平時舍不得買的東西,這時候終于出手了。在小數(shù)據(jù)時代,“男人一看球,女人就網(wǎng)購”永遠是一個猜測,無法得到證實,但在大數(shù)據(jù)時代,很容易就能證實,甚至連成交的商品有什么特點,都可以進行分析。等到明年球賽再開始的時候,商家的廣告就可以更有的放矢,不僅可以把廣告對象瞄得更準,推廣的商品也會更有針對性,猜測上升為知識,知識將創(chuàng)造利潤。 關(guān)于個人行為和社會狀態(tài)的數(shù)據(jù)已經(jīng)無處不在,這些數(shù)據(jù)是多源的、即時的、分散的、多形式的、碎片化的,同時又是海量的。高明的商家通過大數(shù)據(jù)的整合和挖掘,可以從這些海量的、零散的數(shù)據(jù)中找到規(guī)律,發(fā)現(xiàn)大眾行為背后的心理機制。這些心理機制,在個人層面,可能是隱性的需要、無意識的訴求或者無法言說的欲望,但通過整理大量的數(shù)據(jù),商家就可以理清大眾生活中這些無意識的原型,掌握消費者背后真正的心理動機,從而提供創(chuàng)造性、突破性的產(chǎn)品和服務(wù),獲得更多的消費者和更大的市場份額。事實上,這也正是大數(shù)據(jù)用于精準營銷的最高境界。為什么當(dāng)年沃爾瑪啤酒和尿布的故事能讓全世界津津樂道幾十年?原因就在于,即使是在購買尿布時喜歡順便購買啤酒來犒勞自己的年輕父親,可能也不清楚這個行為背后的心理動機,但沃爾瑪通過數(shù)據(jù),捕捉到了這個無意識的原型,并通過數(shù)據(jù)分析的驗證,將其提升為知識。 普適計算:即將到來的超級數(shù)據(jù)爆炸 除了社會領(lǐng)域的計算正在興起,物理環(huán)境領(lǐng)域的計算也在面臨一場革命,其中的原因,就是上文中提到的普適計算。傳感器、可穿戴式設(shè)備等微小的計算設(shè)備將進一步普及,裝備到全世界的各種物體之上,包括機器、電器、人體、動物、植物等需要監(jiān)測的目標,真正形成“萬物皆聯(lián)網(wǎng)、無處不計算”的狀態(tài)。 隨著這場革命的到來,人類的數(shù)據(jù)總量還要爆炸,這場爆炸將達到史無前例的規(guī)模。 其中,機器將是第一梯隊。人類在進入機器大生產(chǎn)的時代之初,機器的效率在不斷提高,但到達一個臨界點之后,機器的效率就很難再優(yōu)化了。當(dāng)機器和機器相聯(lián)、形成一個系統(tǒng)的時候,其效率問題就顯得更為顯著,一臺機器的效率可能成為系統(tǒng)的瓶頸,一臺機器的故障可能導(dǎo)致整個系統(tǒng)癱瘓,系統(tǒng)的復(fù)雜性使工程師常常顧此失彼,難以優(yōu)化系統(tǒng)的效率。如果能通過傳感器監(jiān)測機器的運行狀態(tài),通過計算確認各類設(shè)備的良好程度,算準時間進行設(shè)備優(yōu)化和維修更新,就能控制生產(chǎn)過程中的不確定性,減少意外情況帶來的損失。 全球最大的工業(yè)制造商通用電氣將這種運營效率的提高總結(jié)為“1%現(xiàn)象”。該公司經(jīng)過估算指出,如果全世界的飛機引擎維護效率提升1%,每年全世界就可以節(jié)省2.5億美元;能源行業(yè)的發(fā)電設(shè)備每提高1%的效率,就可為全球經(jīng)濟貢獻40億美元;醫(yī)療器械的效率如果提升1%,則可以幫助全球醫(yī)療行業(yè)節(jié)約630億美元。也就是說,所有機器只要提高1%的效率,就能為全世界帶來非?捎^的收入。 目前,全世界現(xiàn)在大概有300萬個重要的、巨大的、日夜運行的機器,這些機器都在一定的溫度、濕度、壓力、振動、旋轉(zhuǎn)狀態(tài)下工作,這些參數(shù)都是重要的監(jiān)測指標。此外,全世界還有上百億臺帶有微處理器的機器或者電器,未來都可以裝上傳感器,全球人口共有60多億,當(dāng)社交媒體被發(fā)明的時候,每個網(wǎng)民都成了一個數(shù)據(jù)生成器,就已經(jīng)引起了一次數(shù)據(jù)大爆炸,而機器遠比人多,而且日夜不停地旋轉(zhuǎn)、工作,可以想象,這次即將到來的數(shù)據(jù)爆炸,遠非上次可比,將是超級大爆炸。 通用電氣公司為此發(fā)布了專門的研究報告、制訂了相應(yīng)的規(guī)劃,并且計劃在旗下大至飛機、小至激光手術(shù)刀等數(shù)萬種產(chǎn)品上都安裝傳感器,通過網(wǎng)絡(luò)將設(shè)備運行狀態(tài)數(shù)據(jù)實時傳至平臺,并將該計劃稱為“工業(yè)互聯(lián)網(wǎng)”。2012年7月,通用電氣公司投資1.7億美元在紐約州斯克內(nèi)克塔迪市(Schenectdy)開設(shè)了一家電池工廠,1.6萬平方米的廠房內(nèi)安裝了1萬個傳感器。這些傳感器分布在各條生產(chǎn)線上,監(jiān)控、記錄生產(chǎn)過程中的溫度、氣壓、濕度、生產(chǎn)配料、能源消耗等數(shù)據(jù),工廠的管理人員則通過隨身攜帶的iPad(蘋果平板電腦)獲取這些數(shù)據(jù),以便在第一時間發(fā)現(xiàn)問題,對生產(chǎn)進行監(jiān)督和調(diào)整。 通過傳感器監(jiān)測生產(chǎn)過程,還只是通用電氣工業(yè)互聯(lián)網(wǎng)計劃的一部分,通用電氣的目標是“讓每件產(chǎn)品產(chǎn)生記憶”:未來,產(chǎn)品在出廠前就被植入了傳感器,記錄了它的生產(chǎn)過程,在產(chǎn)品抵達顧客、進入服務(wù)狀態(tài)之后,傳感器將每時每刻都記錄產(chǎn)品的運行情況,一旦出現(xiàn)問題和故障,通用電氣可以快速地整合生產(chǎn)記錄、銷售記錄、產(chǎn)品運行記錄這三種數(shù)據(jù)進行分析。 除了通用電氣高調(diào)突進的工業(yè)互聯(lián)網(wǎng),還有生活物聯(lián)網(wǎng),即生活電器入網(wǎng)。2014年1月,谷歌以32億美元的現(xiàn)金收購了智能家居設(shè)備商Nest。業(yè)界紛紛認為,生活物聯(lián)網(wǎng)的腳步越來越臨近,我們即將邁進一個智能家居的時代:你坐在辦公室里,就可以調(diào)節(jié)家里電冰箱的溫度;你在下班的路上,就可以控制電飯煲的開關(guān),并關(guān)上窗戶、打開空調(diào)。 但智能家居的作用可能還遠遠不止自動化這么簡單。例如,大部分美國家庭都有自己的車庫,每個車庫都有一個電動卷簾門,電動門利用一個小感應(yīng)器來監(jiān)測電動門伸縮期間的震動情況,F(xiàn)在有人提出來,北美大地上有幾百萬個這樣的車庫門,傳感器都是現(xiàn)成的,如果把它們?nèi)窟B接到互聯(lián)網(wǎng)上,房主可以監(jiān)控自家的大門不說,美國大地上每平方米的面積上震動一下,互聯(lián)網(wǎng)上都知道,這種網(wǎng)絡(luò)對地震監(jiān)測是不是有輔助作用?這啟發(fā)人們思考,機器、電器入網(wǎng)可能在功能上還會有外部性,起到意想不到的作用,因為世界的萬事萬物都是普遍聯(lián)系、高度相關(guān)的。 物理環(huán)境領(lǐng)域的計算的崛起將給全世界帶來巨大的機遇。新一代的機器是能夠記錄自己行為以及與其他機器的交換數(shù)據(jù)的智能機器,在機器“出生”的時候,傳感器就已經(jīng)和機器一體化了。面對機器產(chǎn)生的海量數(shù)據(jù),各行各業(yè)都需要制定很多數(shù)據(jù)標準,使同一類別的機器、同一品牌的機器產(chǎn)生的數(shù)據(jù)能夠自由整合、對比和分析。我們還需要新的分析平臺和工具,同時,因為生產(chǎn)過程中機器工作過程中實時數(shù)據(jù)的獲得,我們需要制定新的生產(chǎn)流程和商業(yè)規(guī)范,以提高各種決策的效率,在這個過程中,全世界會需要一大批數(shù)字機械工程師、軟件工程師、數(shù)據(jù)科學(xué)家和人機交互界面專家。 此外,因為這種超級大爆炸,全世界的數(shù)據(jù)中心將大量增加,這將拉動硬件產(chǎn)業(yè)的發(fā)展。通用電氣公司估計,數(shù)據(jù)中心的需求將每兩年翻一倍。2015年,對數(shù)據(jù)中心的投資將增長到1000億美元;到2020年,數(shù)據(jù)中心的數(shù)量會增長40倍;到2025年,這一數(shù)字將達到2000億美元。數(shù)據(jù)中心是耗電大戶,據(jù)統(tǒng)計,美國所有數(shù)據(jù)中心每年的耗電量是整個紐約城居民用電量的兩倍。建設(shè)清潔、高效、具有彈性的數(shù)據(jù)中心將是未來的一個重大挑戰(zhàn)。此外,數(shù)據(jù)中心的增加還將推動寬帶網(wǎng)、光纖網(wǎng)的建設(shè),使各種數(shù)據(jù)中心能夠跨地區(qū)、跨產(chǎn)業(yè)相聯(lián)。 數(shù)據(jù)和計算:第三次工業(yè)革命的CPU 2012年以來,第三次工業(yè)革命、新工業(yè)革命、數(shù)字工業(yè)革命等各種工業(yè)革命論的提法頻頻在全球激起討論、見諸報端,雖然這些提法各異,但其中心思想是一致的,即全球的制造業(yè)正在面臨一場挑戰(zhàn)和變革,未來的工業(yè)制造將呈現(xiàn)數(shù)字化、智能化、定制化、互聯(lián)化以及綠色化等特點。而且,無論哪種提法,都離不開對3D打印機的關(guān)注和討論。學(xué)界的共識是,3D打印已經(jīng)成為第三次工業(yè)革命當(dāng)中最活躍的因素之一,它將終結(jié)人類大規(guī)模工業(yè)生產(chǎn)的歷史,引發(fā)商業(yè)組織和管理形態(tài)的重大變革。 前文我們談到物理環(huán)境領(lǐng)域的計算即將爆炸,討論了工業(yè)互聯(lián)網(wǎng)如何引導(dǎo)未來的工業(yè)制造進入一個智能化、互聯(lián)化的時代,而3D打印將實現(xiàn)的是生產(chǎn)制造過程的數(shù)字化和定制化。隨著下文討論的展開,我們將看到,3D打印對未來設(shè)計、生產(chǎn)、流通和消費等各個環(huán)節(jié)產(chǎn)生的影響,離不開數(shù)據(jù)的驅(qū)動和協(xié)同。也就是說,第三次工業(yè)革命離不開數(shù)據(jù)! 3D打印是一種加式制造 3D打印是一種以數(shù)字文件為基礎(chǔ),運用粉末狀金屬或塑料等可黏合材料,通過逐層打印的方式來構(gòu)造物體的技術(shù)。傳統(tǒng)的制造方式是“減式制造”,即通過模具,利用機器外力對原始材料進行“壓、切、割、沖”等機械加工,將原材料轉(zhuǎn)化成產(chǎn)品,在這個過程中,原材料縮減了,因此叫作減式制造。而3D打印是通過逐層疊加、不斷增加材料的方式,一次性完成生產(chǎn)過程,所以被稱為“加式制造”。 首先,3D打印是以“數(shù)據(jù)包”為基礎(chǔ)的生產(chǎn),只要這個數(shù)據(jù)包在打印機上運行,并且具備打印的原材料,生產(chǎn)就可以完成。2013年5月,美國有人把制造槍支各種零部件的數(shù)據(jù)包上傳到了互聯(lián)網(wǎng)上,在美國政府做出反應(yīng)、發(fā)布禁令之前,該數(shù)據(jù)包被下載了數(shù)十萬次,民間就有人利用這些數(shù)據(jù)包打印出了可以發(fā)射子彈的塑料手槍。半年后,美國的科技工程公司SolidConcepts公司又用3D打印機打印了一支真正的金屬手槍,并試射了幾十發(fā)子彈。除槍支這種高危管控物品外,近一兩年以來,在世界各國科學(xué)家的努力下,可以打印的物品種類迅速增多,大到飛機的零部件、房子的建筑材料,小到下顎骨、心臟瓣膜、電路板等,不斷刷新人們的想象力。可以肯定,隨著數(shù)字化生產(chǎn)的擴大,未來任何可見的物理實體的背后都會有一個數(shù)據(jù)包與其對應(yīng)存在。從這個意義上來看,3D打印為大數(shù)據(jù)時代貢獻了一種新的數(shù)據(jù)種類:物理實體數(shù)據(jù)。 圖7–10數(shù)字工業(yè)革命將豐富大數(shù)據(jù)時代的數(shù)據(jù)類型 除了可以打印的物品越來越多,更重要的改變是,由于摩爾定律的持續(xù)作用,3D打印機的價格也在不斷下降。目前,不少3D打印機只需要一兩千美元,可以預(yù)計,就像其他曾經(jīng)“高大上”的硬件設(shè)備一樣,3D打印機也將快速走進普通家庭。 3D打印機的普及對人類的意義非同小可。在全面暢想其對未來社會帶來的沖擊和改變之前,我們還必須了解一個重要的概念:眾包。 “眾包”是美國的兩位記者在2005年發(fā)明的新詞,意思是利用互聯(lián)網(wǎng)將工作打包分配出去,其關(guān)鍵在于,分包時并不知道接包人是誰,這正是“眾包”區(qū)別于“外包”的地方。更有意思的是,接包人的目的可能并不是為了報酬,而是為了公益、興趣,或者尋求一種幫助他人的滿足感,甚至在一些情況下,連接包人自己也沒意識到,就在不知不覺中幫助發(fā)包人把任務(wù)完成了。 眾包最經(jīng)典的例子是維基百科。這個人類社會最大的知識分享網(wǎng)站、最重要的“百科全書”成立于2001年,目前僅僅英文詞條就有近450萬個,全部由志愿者完成。2011年3月11日下午2點46分,日本發(fā)生了有觀測記錄以來規(guī)模最大的地震,其后引發(fā)了大海嘯,導(dǎo)致了核泄漏和火災(zāi),日本東北部分地區(qū)因此遭受到毀滅性的破壞。地震發(fā)生后的半小時不到,3點18分,維基百科上就建立了相應(yīng)的詞條“2011Tōh(huán)okuearthquakeandtsunami”(2011年日本東北地區(qū)近海地震),這之后,該英文詞條經(jīng)過了全世界2122人共計6781次的修改和完善,如今已經(jīng)形成了一個圖文并茂、帶有352條引用、兩萬多字、非常復(fù)雜和完善的詞條,在英文詞條的基礎(chǔ)上,還衍生出近80種不同語言的翻譯和補充11。 圖7–11“2011年日本東北地區(qū)近海地震”英文詞條的變化 注:左上為該詞條在2011年3月11日日本時間下午3點18分建立時的歷史記錄,只有短短一句話;右下為該詞條在2014年2月的截屏,詞條已經(jīng)分為十幾個部分,有兩萬多字的介紹。(圖片來源:網(wǎng)絡(luò)截屏) 對于眾包當(dāng)中蘊藏的巨大社會能量,我也有親身體會。2012年的一個下午,我決定為華人歷史學(xué)家許倬云先生在維基百科建立一個英文詞條。為了證明資料的真實性,維基百科規(guī)定新建的詞條必須至少有三個引用。詞條建好之后,系統(tǒng)提示我還缺一個引用,我于是回頭去找資料。僅僅一分鐘之后,我一刷屏,發(fā)現(xiàn)第三個引用竟然已經(jīng)被人加上了!我的心頭如過電般涌起一股驚訝和欣喜之情:在世界的另一個角落,竟有人在協(xié)同我的工作!短短幾十秒的時間,在這個廣袤的大千世界,就有人看到了我在互聯(lián)網(wǎng)上搭建的這個新頁面,而且,他和我一樣關(guān)心許先生的詞條,并且?guī)椭已a充了最后需要的一個引用。 除了基于興趣和公益的志愿貢獻,眾包也已經(jīng)成為一種可以創(chuàng)造價值和利潤的商業(yè)模式,驗證碼(CAPTCHA)的應(yīng)用就是另外一個經(jīng)典例子。2002年,卡內(nèi)基梅隆大學(xué)的博士生路易斯(LuisvonAhn)發(fā)明了我們熟悉的驗證碼,即用一排人為扭曲、奇形怪狀的字符來判斷當(dāng)下程序的使用者是“人”還是“機器”。因為機器無法自動識別這些變形的字符,所以驗證碼可以用來防止互聯(lián)網(wǎng)上廣泛存在的惡意機器注冊。恰恰在這個時候,《紐約時報》正面臨一個令人頭痛的任務(wù):他們試圖把100多年的歷史報紙全部電子化,當(dāng)時最可行的方法就是通過掃描進行光學(xué)字符識別(OCR),但因為舊報紙上油墨的痕跡、折疊的印記和發(fā)黃變色,加上幾十年前的字體與現(xiàn)在的也不一樣,因此識別率很低。當(dāng)然,還有一個最笨的方法就是逐字敲打,再找人校對,但這樣不僅速度慢,效果也不好。這時候,路易斯想到了一個天才的辦法:全世界每一天都有幾億個驗證碼在被校驗,他把《紐約時報》的文章切成小片,把它當(dāng)作驗證碼發(fā)給全世界的人,這些人在使用驗證碼的時候,在不知不覺中就幫助《紐約時報》完成了輸入和校對。對于難以識別的字符,系統(tǒng)可以發(fā)給多個校驗者,當(dāng)幾個人返回的結(jié)果一致的時候,就說明識別的結(jié)果是正確的,然后再把這個結(jié)果返回系統(tǒng)進行整合。2007年,路易斯成立了驗證碼公司reCAPTCHA,該公司利用這個辦法把《紐約時報》幾十年的報紙都電子化了。2009年,該公司被谷歌收購。 類似的例子還有很多,例如Airbnb網(wǎng)站,通過它,個人可以將多余的房間臨時出租給旅游者;又如將翻譯任務(wù)打包發(fā)給其他國家的外語學(xué)習(xí)者作為練習(xí)素材,以較低的成本,甚至免費的形式就可以完成大量翻譯;再如中國的知乎、大眾點評網(wǎng)等問答型網(wǎng)站,都成功地應(yīng)用了眾包這種商務(wù)模式。說到底,眾包是通過互聯(lián)網(wǎng),在全球范圍內(nèi)利用、整合分散的、閑置的、廉價的勞動力、技能和興趣等資源,為軟件業(yè)和服務(wù)業(yè)提供一種新的勞動力組織方式。 隨著3D打印機的普及,眾包這種新的商業(yè)模式,將從服務(wù)業(yè)進入制造業(yè),改變整個社會的生產(chǎn)制造方式。 今天的制造是以大規(guī)模的減式制造為基礎(chǔ)的,對每種產(chǎn)品而言,制造商只能就若干款式,對流水線進行定制,然后進行大規(guī)模生產(chǎn)。例如,今年的女式高跟鞋可能流行立體的鞋面花飾,制造商在市場調(diào)研的基礎(chǔ)上,認為牡丹花和山茶花的花形可能最受歡迎,于是就生產(chǎn)這兩種花形的鞋子,而玫瑰花、百合花、菊花等其他花形,因為市場需求過小,生產(chǎn)商限于成本,就無法生產(chǎn)。 事實上,一雙鞋子的樣式可以千變?nèi)f化。類似于立體花形的改變還有很多,例如鞋跟的形狀、鞋面的花紋、紋理的線形等。每個顧客都可能有不同的喜好和需求,這些需求之間可能就是一個微小的區(qū)別,所以需求的種類雖多,但每一種需求的消費者群體都不大。也正因如此,制造商如果投產(chǎn),將無利可圖。這部分需求被形象地稱為長尾需求,對于長尾需求,制造商無法一一滿足,即傳統(tǒng)制造業(yè)無法滿足所有消費者的要求。 圖7–12傳統(tǒng)的制造商無法滿足市場上的長尾需求 注:此圖為消費市場上的長尾現(xiàn)象,在短頭區(qū),代表著為數(shù)不多的大規(guī)模需求;在長尾區(qū),有很多不同的需求,但每種需求的消費者群體都不多,如果投產(chǎn),制造商將無法獲得利潤。 但以數(shù)據(jù)包為基礎(chǔ)的3D打印將有能力解決這個難題。數(shù)字化制造不需要在流水線上定制,只需要找到數(shù)據(jù)包,對其中的代碼和數(shù)據(jù)進行修改,一個花形、線形的區(qū)別,可能只是幾個參數(shù)值的大小不同,在對它們做出修改和調(diào)整之后,在3D打印機上再運行一次,一款新的鞋子就生產(chǎn)出來了。 圖7–13個性化的需求可以通過修改數(shù)據(jù)包來實現(xiàn) 3D打印技術(shù)為滿足消費者個性化的長尾需求提供了契機,將開啟一個制造業(yè)的新時代。在這個新時代,因為3D打印機正在走進家庭,生產(chǎn)活動可能在工廠之外的地方進行。更復(fù)雜的情況是,每款3D打印機的打印范圍可能不同,你的能打印鞋子、我的能打印杯子、他的能打印玩具……為了找到合適的3D打印機,必須進行搜索。 不妨假設(shè)一位女性消費者心儀的高跟鞋是這個樣子:玫瑰花的立體花形;5.5厘米的高跟,后跟為圓形,圓形面積為0.8平方厘米;鞋面有細條紋,條紋間隔為1.5厘米……其要求可能無比細致且千奇百怪,傳統(tǒng)制造業(yè)絕對無法實現(xiàn),但在3D打印時代,“想法即產(chǎn)品”,一個完整的設(shè)計、生產(chǎn)、消費流程在很短的時間內(nèi)就能完成:首先上網(wǎng)搜索類似產(chǎn)品的數(shù)據(jù)包,或者搜索懂得修改這個數(shù)據(jù)包的設(shè)計師,再委托他按照新的要求進行修改,一個有經(jīng)驗的設(shè)計師可能在幾分鐘之內(nèi)就能夠完成修改;這之后,進入生產(chǎn)環(huán)節(jié),消費者要尋找愿意給她提供打印服務(wù)的3D打印機,這又需要搜索,當(dāng)然,她最后可能就在自己居住的小區(qū)附近找到了合適的打印機,雙方達成協(xié)議之后,就可以委托生產(chǎn)。 這個搜索的過程,就是計算。我們前面談到過,搜索就是一種計算,而且是一種典型的基于大數(shù)據(jù)的計算。在這里,通過搜索,社會需求和生產(chǎn)資料將實現(xiàn)動態(tài)的、實時的、最經(jīng)濟的對接;搜索完成之后,委托、授權(quán)對方進行設(shè)計、生產(chǎn)的過程就是眾包。 當(dāng)然,未來可能出現(xiàn)一個互聯(lián)網(wǎng)平臺,擁有3D打印機的生產(chǎn)方也可以在這個平臺上通過搜索主動尋找其潛在客戶,提前感知并且響應(yīng)用戶的個性化需求。這個平臺將不僅僅是現(xiàn)在的“電商”平臺,還將是“互聯(lián)網(wǎng)制造”的平臺!生產(chǎn)方和消費方在平臺上通過搜索對接,完成整個設(shè)計、生產(chǎn)和消費流程。也就是說,通過搜索和計算,全社會的生產(chǎn)需求和社會資源將在最短的時間內(nèi),以最經(jīng)濟的方式實現(xiàn)對接,數(shù)據(jù)和計算,將是未來生產(chǎn)制造的CPU(中央處理器)! 2012年,中國科學(xué)院的研究員王飛躍先生率隊考察了美國的加式制造產(chǎn)業(yè)。他認為,這場新的產(chǎn)業(yè)革命已經(jīng)觸手可及,未來的新型制造模式可以稱為“社會制造”。所謂社會制造,“就是利用3D打印、網(wǎng)絡(luò)技術(shù)和社會媒體,通過眾包等方式讓社會民眾充分參與產(chǎn)品的全生命制造過程,實現(xiàn)個性化、實時化、經(jīng)濟化的生產(chǎn)和消費模式。在社會制造的環(huán)境中,大批3D打印機形成制造網(wǎng)絡(luò),并與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和物流網(wǎng)無縫連接,形成復(fù)雜的社會制造網(wǎng)絡(luò)系統(tǒng),實時地滿足人們的各種需求”。12 圖7–14大數(shù)據(jù):社會制造的CPU 對于社會制造這種新的生產(chǎn)模式,雖然還有諸多細節(jié)有待想象和商榷,但可以肯定的是,人類社會對個性化產(chǎn)品的需求,猶如隱藏在海底的冰山,非常巨大,只不過受制于上百年傳統(tǒng)減式制造的局限,它一直被靜靜地抑在海水之下。隨著3D打印機的普及,個性化消費的需求將會大規(guī)模爆發(fā)。未來的任何一件產(chǎn)品,在傳統(tǒng)減式制造和現(xiàn)代加式制造之間,都可能存在一個“平衡點”,對生產(chǎn)的規(guī)劃,就是要通過計算找到這個平衡點,即確定哪些款式仍然是大規(guī)模的短頭需求,哪些需求是長尾需求。前者因為量大,在工廠的流水線上生產(chǎn)仍然可以獲得大規(guī)模的經(jīng)濟效應(yīng);而后者無法形成規(guī)模效應(yīng),必須留給社會上的3D打印機去生產(chǎn)制造。每種產(chǎn)品的平衡點當(dāng)然都各不相同,而且隨著制造能力的變遷,這個點還會移動。 圖7–15未來的生產(chǎn)制造:首先通過計算,確定兩種制造模式之間的平衡點 美國政府對3D打印、社會制造非常重視。2011年以來,美國總統(tǒng)科技顧問委員會(PCAST)連續(xù)發(fā)布兩份報告13,向總統(tǒng)和國會提出建議,必須確保美國在這場制造業(yè)革命當(dāng)中的領(lǐng)導(dǎo)地位。在最近兩年的國情咨文中,奧巴馬都專門提出要把3D打印作為創(chuàng)新重點,強調(diào)通過這種社會化的制造,使制造業(yè)回歸美國。奧巴馬還在2012年前后相繼成立了白宮高級制造辦公室(OMP)、高級制造聯(lián)合委員會(AMP),并批準投資10億美元,在全國成立15個加式制造創(chuàng)新中心。截至2013年年底,已經(jīng)投建了5個。2013年7月,奧巴馬又要求國會追加撥款,將建設(shè)15個加式制造創(chuàng)新中心的計劃擴大到45個。 數(shù)據(jù)之巔:通向智能型社會的挑戰(zhàn) 2012年8月,谷歌宣布,其旗下十多輛無人駕駛汽車已經(jīng)完成了50多萬公里的安全行車測試。在整個過程中,車隊只發(fā)生過兩起輕微的交通事故,事后的判定還證明,責(zé)任并不在無人駕駛汽車。 無人駕駛,是指汽車自動行駛、完全不需要人的干預(yù),其本質(zhì)是把駕駛的任務(wù)“外包”給算法。一個好的算法固然重要,但對谷歌無人駕駛汽車而言,其價值最為昂貴的部分卻不是算法,而是其全身上下裝備的激光雷達、攝像頭、紅外相機、GPS(全球定位系統(tǒng))和一系列傳感器等感應(yīng)設(shè)備,僅僅激光雷達一項就7萬美元,約占其全部裝備價值的一半。正是通過這些感應(yīng)設(shè)備,無人駕駛汽車不斷地收集路面的情況、汽車的地理位置、前后車輛精確的相對距離、車流的移動速度、道路兩旁出現(xiàn)的交通標識和前方的交通信號等數(shù)據(jù)。 可以想象,這些實時收集的數(shù)據(jù)就相當(dāng)于人類的眼睛,對無人駕駛汽車非常重要,但這還遠遠不夠。在汽車上路之前,谷歌必須派出大量工程師親自駕車在所有的道路上行駛,以收集各個路段的物理特點數(shù)據(jù),然后把這些數(shù)據(jù)添加到一個高度詳盡的立體地圖上。當(dāng)無人駕駛汽車在路上行駛時,它通過從傳感器和攝像頭上收集來的數(shù)據(jù),首先與系統(tǒng)已有的數(shù)據(jù)進行對比和分析,以快速識別自己的方位和環(huán)境。這種對比分析,每秒鐘進行上百萬次。根據(jù)這些分析結(jié)果,算法在極短的時間內(nèi),判斷是應(yīng)該減速、加速、換道還是拐彎。例如,系統(tǒng)在對兩種數(shù)據(jù)進行對比之后,會提示汽車前方一公里處有一個交通燈,準備識別信號的顏色;如果沒有這種提示,臨近現(xiàn)場時才開始識別,難度就會大大增加。又如,通過和原來收集的數(shù)據(jù)對比,無人駕駛汽車才能識別路邊的物體是原來就有的路燈桿還是其他障礙物,或者是正在移動的行人。 可見,無人駕駛汽車完全是個大數(shù)據(jù)項目,而且其成功的關(guān)鍵,首先在于數(shù)據(jù)的收集,就此而言,谷歌也還不是完全的勝者,無人駕駛汽車目前最大的技術(shù)瓶頸還是數(shù)據(jù)。例如,道路、地形等原始數(shù)據(jù)的收集工作可能是在天氣良好的情況下進行的,如果天降大雨或者路面被積雪覆蓋,整個世界的面貌發(fā)生了改變,和原來收集的數(shù)據(jù)進行對比可能就不管用了,無人駕駛汽車就無法精確地確定方位,大數(shù)據(jù)的自動導(dǎo)航也就宣告失敗。而且,沒有事先收集數(shù)據(jù)的地方,無人駕駛汽車根本就不能去。例如,中、印、韓等國不允許谷歌在自己國家為其地圖收集數(shù)據(jù),這也就意味著,谷歌的無人駕駛汽車未來根本不可能進入這些國家,因為沒有數(shù)據(jù)! 全世界的汽車巨頭,如通用、豐田、奧迪、福特都在加大對無人駕駛汽車的研發(fā)和測試,各大汽車公司都同意,其中最重要的任務(wù),就是大數(shù)據(jù)的采集。為了解決這個問題,歐洲的汽車巨頭沃爾沃甚至提出了一個“公路列車”的新理論:公路上的車隊猶如一輛輛汽車組成的一列火車,火車只需要車頭的正確帶領(lǐng),整個車廂就都可以前進,如果公路上的汽車也有個“頭車”,大部分車輛就能跟著走。換句話說,大數(shù)據(jù)的實時分析和處理只需要頭車做好就行了,其他車可以跟著頭車走,這意味著,未來的無人駕駛汽車并不是輛輛都要具備大數(shù)據(jù)的實時導(dǎo)航處理功能,只要能在公路上找到頭車就行。按照這種設(shè)計思想,2012年5月,沃爾沃組織了一個5輛車的車隊,只有頭車有人駕駛,這5輛車在西班牙巴塞羅那的公路上順利完成了200公里的測試。2013年12月,沃爾沃公司宣布,它們已經(jīng)取得了瑞典國家交通管理部門的同意,將于2017年在瑞典的第二大城市哥德堡投放100輛無人駕駛汽車,由普通的市民自由陪駕測試。 無人駕駛汽車將引起一系列社會變化 無人駕駛汽車對人類社會將要產(chǎn)生的影響,并不僅僅局限于汽車行業(yè)。隨著人類從駕駛中解放出來,未來的汽車不僅是個交通工具,還是個移動的娛樂中心、工作間和休息室。因為是由軟件控制,沒有人駕駛,無人駕駛汽車將減少一批傳統(tǒng)汽車必須裝備的操控設(shè)備,例如油門踏板、剎車踏板和方向盤,這意味著車重減輕、耗油量下降,將為全世界節(jié)省不少能源。此外,研究表明,90%的交通事故都是人為原因造成的,例如情緒不佳、酒后駕車、疲勞駕駛等,但把駕駛的任務(wù)交給算法,算法沒有情緒,也永遠不會疲勞,據(jù)保守估計,人為原因?qū)е碌慕煌ㄊ鹿蕦⑾陆?0%,這不僅能夠減少社會損失、提高人類的生命安全,也將重構(gòu)未來的保險行業(yè)。 谷歌和沃爾沃的努力,無疑將推動無人駕駛汽車的市場化,至于何時才能市場化,這也是全世界都在討論的話題。汽車是工業(yè)時代興起的標志,大數(shù)據(jù)是信息時代半個多世紀結(jié)出的碩果,通過無人駕駛汽車,兩者正在融合對接。這種融合對接標志著人類正在進入一個全新的時代:智能化時代。 而且,和谷歌無人駕駛汽車一樣,這個智能時代也是由數(shù)據(jù)驅(qū)動的。 這是因為,無論是信息、知識,還是機器智能,在大數(shù)據(jù)時代,都是以數(shù)據(jù)為載體存在的。數(shù)據(jù)是對客觀世界的記錄,當(dāng)我們賦予數(shù)據(jù)背景時,它就成為信息;信息是知識的來源,當(dāng)把信息提煉出規(guī)律的時候,它就上升為知識;知識是智能的基礎(chǔ),當(dāng)電腦、網(wǎng)絡(luò)、機器能夠利用某種知識進行自動判別并采取行動為人類服務(wù)的時候,機器智能就產(chǎn)生了。 大數(shù)據(jù)的出現(xiàn),是人類大量記錄世界的結(jié)果。大數(shù)據(jù)可以推進科學(xué)研究、改善社會治理、提高企業(yè)的運營效率和贏利能力,但歸根結(jié)底,相比于小數(shù)據(jù),大數(shù)據(jù)新的效用可以概括為兩個方面:一是通過大規(guī)模的數(shù)據(jù)整合和挖掘,發(fā)現(xiàn)新知識,實現(xiàn)“1+1>2”的數(shù)據(jù)增值效果;二是通過大量的數(shù)據(jù)訓(xùn)練機器學(xué)習(xí),實現(xiàn)自動化,這相當(dāng)于賦予機器智能,使機器自動完成曾經(jīng)種種必須由人類親力親為的工作,推動人類向智能型社會邁進,而這堪稱人類使用數(shù)據(jù)的巔峰狀態(tài)。 圖7–16數(shù)據(jù)之巔:用數(shù)據(jù)訓(xùn)練機器,使機器獲得智能,為人類提供自動化的服務(wù) 類似于無人駕駛汽車,由大數(shù)據(jù)驅(qū)動的智能化的例子正在大量涌現(xiàn)。 也是在2012年,一種新型的智能學(xué)習(xí)平臺在美國興起,成為高科技領(lǐng)域創(chuàng)新和投資的重點,其中不少公司已經(jīng)獲得了初步成功。這種智能平臺可以實現(xiàn)全球幾十萬人同步學(xué)習(xí),在同一時間聽取同一位老師授課,做同樣的作業(yè)、接受同樣的評分標準和考試。這意味著你即使身處非洲,也能和哈佛大學(xué)的學(xué)生一起學(xué)習(xí)、聽哈佛的教授講課。更關(guān)鍵的是,這是一個智能平臺,可以對學(xué)習(xí)者的學(xué)習(xí)行為進行自動提示、引導(dǎo)和評價,從而彌補沒有老師面對面交流指導(dǎo)的不足。 和谷歌汽車一樣,平臺的智能來自于大量數(shù)據(jù)。單個個體學(xué)習(xí)行為的數(shù)據(jù)似乎是雜亂無章的,但當(dāng)數(shù)據(jù)累積到一定程度時,群體行為就會在數(shù)據(jù)上呈現(xiàn)一種秩序和規(guī)律。通過收集、分析大量數(shù)據(jù),就能總結(jié)出這種秩序和規(guī)律,然后把這種規(guī)律變成不同的算法,和新的學(xué)習(xí)者的學(xué)習(xí)行為進行對比,為他們達成最佳的學(xué)習(xí)效果進行提示和導(dǎo)航,每個學(xué)習(xí)者都可能得到個性化、有針對性的輔導(dǎo)。 可見,數(shù)據(jù)還是關(guān)鍵。為了收集更多的數(shù)據(jù),各個公司、大學(xué)的在線學(xué)習(xí)平臺幾乎都向全世界免費開放。有更多的學(xué)習(xí)者,才能收集更多的數(shù)據(jù);有了數(shù)據(jù),它們才能研究世界各國男女老少等不同學(xué)習(xí)者的行為模式,進而打造更好的智能學(xué)習(xí)算法。 就此而言,大數(shù)據(jù)就是大智能。數(shù)據(jù)好比人類的新土壤,正是依托這片土壤,智能型的文明才得以滋生繁衍,土壤越廣袤,其孕育的新文明才更有生機和活力。 對于數(shù)據(jù)的重要性,谷歌的首席科學(xué)家諾維格(PeterNorvig)曾感嘆說:“我們沒有更好的算法,谷歌有的,只是更多的數(shù)據(jù)。”14這種說法雖然略有夸張,但卻揭示出信息技術(shù)的一個發(fā)展方向:數(shù)據(jù)正逐漸成為當(dāng)下競爭的關(guān)鍵、發(fā)展的瓶頸。 由于摩爾定律催生的硬件技術(shù)飛速進步,存儲能力、計算速度已經(jīng)不是信息技術(shù)發(fā)展的瓶頸,硬件算得再快、變得再小,我們?nèi)祟惪赡芤呀?jīng)感覺不到,這是因為,計算機的能力并不僅僅取決于計算的速度和存儲器的容量,兩者完全不成正比。就像在公路上,一輛車能開多快并不僅僅取決于這輛車的馬力,還有車流的速度、公路的質(zhì)量、紅綠燈的多少,這些因素都限制了車速,它們才是真實世界中車速提高的瓶頸。對計算機而言,瓶頸在不斷發(fā)生轉(zhuǎn)移,曾經(jīng)從硬件轉(zhuǎn)到軟件、算法,但現(xiàn)在正在向數(shù)據(jù)轉(zhuǎn)移。 硬件的發(fā)展不是當(dāng)下技術(shù)的瓶頸 英特爾22納米的晶體管已經(jīng)于2012年4月下線,該公司占據(jù)了全世界80%以上的個人電腦芯片市場,2013年,它還宣布要進軍智能手機市場。隨著晶體管的變小,可以預(yù)計,手機的功能還將增強,同時體積將變小。強大的計算能力意味著更多的云端計算可以轉(zhuǎn)往本地,速度會更快。但即使轉(zhuǎn)往本地,我們作為終端用戶,很多時候已經(jīng)感覺不到這種計算速度的提高了。而且,正是因為計算能力太過強大,機身的散熱和繼電問題成為手機制造過程中的新挑戰(zhàn)。 因為機器學(xué)習(xí)的長足進步,現(xiàn)在算法的好壞也和數(shù)據(jù)緊密相關(guān)。算法是運用數(shù)學(xué)和統(tǒng)計學(xué)的方法和技巧,解決某一類問題的特定步驟,其核心是建立模型。但建模首先需要的就是數(shù)據(jù),在過去很長一段時間內(nèi),由于數(shù)據(jù)不足,人類只能設(shè)計一些小的模型或者淺的模型。十幾年來,由于數(shù)據(jù)逐漸變得充沛,可以構(gòu)建更大、更深度的模型。前文還提到,通過向計算機“喂取”數(shù)據(jù),算法可以自動調(diào)適自己的參數(shù),喂的數(shù)據(jù)越多,算法就可能更好、更完善。換句話說,當(dāng)擁有了更多數(shù)據(jù),算法就可能更強大,軟件的性能就可能更好。 圖7–17軟件:從包含數(shù)據(jù)到被數(shù)據(jù)包圍 注:在信息時代的早期,信息系統(tǒng)(即軟件)是收集數(shù)據(jù)的主要手段。那個時候,數(shù)據(jù)可以說是被軟件包含;在今天的大數(shù)據(jù)時代,數(shù)據(jù)無處不在,軟件可以說已經(jīng)被數(shù)據(jù)包圍了。這種被包圍的態(tài)勢,也推動了軟件的升級。 圖7–18人類信息技術(shù)瓶頸的轉(zhuǎn)移過程 智能時代的到來,還表現(xiàn)在人機交互的形式上。 人機交互,即人類如何控制電腦,如何與電腦交流。第一次人機交互革命發(fā)生在1984年,蘋果電腦的操作系統(tǒng)采用了簡稱為WIMP的圖形界面,而在此之前,人類必須通過代碼和計算機交流,這就意味著,只有通過專業(yè)的培訓(xùn)才能操控計算機,非常不方便。WIMP的圖形界面,就是我們非常熟悉的、今天還在使用的視窗系統(tǒng),即以窗口(Window)、圖標(Icon)、菜單(Menu)以及鼠標(Pointer)這四大要素為組件的圖形化界面。通過這個界面,用戶可以借助鼠標的點擊完成電腦操作,達到“所見即所得”的目的。它因美觀、友好、快捷而大受歡迎,事實上,作為第一次人機交互革命的成果,圖形化界面是促使計算機成為大眾消費品的重要原因之一。 而當(dāng)前,我們正在見證人機交互的界面再次發(fā)生深刻的革命,這一次,將把圖形變?yōu)槁曇,即通過聲音控制電腦,實現(xiàn)智能交互,最終把“人機交流”變得像“人人交流”一樣簡單、直接。 圖7–19人類和計算機交互方式的變遷 由于智能手機的普及,手機將成為全世界最中心的計算設(shè)備。屏幕變得越來越小,即使圖形再簡潔,也不方便我們用手點擊。智能交互勢在必行! 智能交互的形式也已經(jīng)出現(xiàn),例如谷歌提供的語音搜索、蘋果手機提供的智能語音助手Siri等。蘋果的Siri已經(jīng)可以理解用戶的生活語言,幫助用戶完成一些簡單的日常事務(wù),例如發(fā)送信息、安排會議、撥打電話等。未來,類似的“個人助理”可以完成更多事務(wù)。不過,它的成功也取決于數(shù)據(jù):“個人助理”必須收集大量的用戶行為數(shù)據(jù),在分析這些數(shù)據(jù)的基礎(chǔ)上,才能為個人提供智能服務(wù)。例如,你想寫封郵件,可以和手機展開以下對話: 你:我想發(fā)封郵件給韓寒。 計算機:你想跟他說什么? 你:2015年1月1日,我們在北京見面。 計算機:你在1月1日上午已經(jīng)有一個約會了。 你:那就安排在下午兩點。 計算機:是上海的那個韓寒嗎?(你的聯(lián)系人當(dāng)中可能還有一個叫“韓涵”的同音的名字。) 你:對。 計算機:郵件準備好了,是保存還是發(fā)送? …… 統(tǒng)計語言模型 下一代人機交互界面的核心技術(shù)是自然語言處理、語音識別、聲音合成等,即實現(xiàn)文本和聲音這兩種數(shù)據(jù)之間的轉(zhuǎn)換,使計算機不僅聽得懂人類的語言,還可以開口說話。人類的語言其實極為復(fù)雜,計算機并不是真的像人一樣聰明,可以理解人類,而是通過大量數(shù)據(jù)建立語言模式,進而“理解”人究竟說的是什么,這種技術(shù)被稱為“統(tǒng)計語言模型”(StatisticalLanguageModels,SLM)。 未來的這種人機交流,在一定程度上,甚至比人人交流還要簡單,因為面對機器,你不用說“請”、“對不起”,可以省去人際交往中的一切繁文縟節(jié)。人機交互的這種革命將改變我們對計算機的認識和態(tài)度甚至感情,人類將更加仰仗計算機,進入一種更為親密的人機共生狀態(tài)。這種以聲音為載體的人機交互形式,也將拉動下一輪的軟件創(chuàng)新和增長,蘊藏著無盡的商機。 通過人機交互,我們也可以更好地理解何為智能時代以及這個時代和以前的區(qū)別。在前智能時代,是人努力向機器靠攏,通過掌握使用機器的技能,讓機器為自己服務(wù);在智能時代,是機器開始向人靠攏,主動理解人、為人服務(wù)。 前智能時代:人通過學(xué)習(xí),掌握機器的使用方法,本質(zhì)是人去適應(yīng)機器 智能時代:機器通過“理解”人的語言來適應(yīng)人、為人服務(wù) 除了用聲音和機器交流,大部分科學(xué)家都相信,未來人類將可以用眼睛和腦電波直接與計算機交流,事實上,這些技術(shù)的雛形都已經(jīng)出現(xiàn)。 機器向人靠攏,主動理解人、適應(yīng)人,其終極形式莫過于機器人。近幾年,在大數(shù)據(jù)的驅(qū)動下,機器人產(chǎn)業(yè)也有了巨大發(fā)展,IBM設(shè)計的機器人“沃森”就是其中的突出代表。之所以命名為“沃森”,正是為了紀念我們前文提到的IBM創(chuàng)始人托馬斯?沃森。2011年2月,“沃森”參加美國的電視綜藝節(jié)目《危險邊緣》(Jeopardy!)。該節(jié)目采取智力競賽的形式,由主持人自由提問,兩邊是節(jié)目當(dāng)中海選出來的兩位堪稱全美最博學(xué)的人,中間是機器人“沃森”,問題可以是天文地理,也可以是明星八卦!拔稚痹诮邮盏絾栴}之后,會同時運用不同的算法,在兩億個文檔中計算答案。如果由不同的算法找到了相同的答案,就證明答案的正確率很高,“沃森”就會按下?lián)尨鹌,再用語音合成技術(shù)讀出答案!拔稚痹诤腿祟惔蛄藘奢喥绞种,最終在第三輪勝出,贏得了100萬美元的獎金。唯一不足的是,受限于我們上文討論的人機交互界面,“沃森”是以文本的形式接收問題,而不是聲音。 圖7–20《危險邊緣》的節(jié)目現(xiàn)場:“沃森”和其他兩位參賽者 注:中間位置上的標志代表“沃森”,當(dāng)時“沃森”的體積其實很大,可以占小半個房間,因此放在幕后。2014年1月,IBM把“沃森”的體積縮小到3個比薩盒一般的大小,人可以提著走,這再次證明了人類硬件技術(shù)的快速進步。沃森每秒可處理500吉的數(shù)據(jù),相當(dāng)于100萬本書。在比賽時,為了提高運算速度,IBM還把所有的數(shù)據(jù)放置在內(nèi)存而不是硬盤里,即我們前文提到的“內(nèi)存分析”技術(shù)。(圖片來源:電視截屏) 在20世紀90年代,也有一臺機器因為具有智能而名噪一時,它就是“深藍”。“深藍”在象棋比賽中擊敗了世界冠軍卡斯帕羅夫。當(dāng)年的“深藍”,可以說是算法驅(qū)動的,隨著算法的完善,卡斯帕羅夫其實是必輸無疑,原因我們在上文也提過:人是有情緒的,情緒的波動就可能導(dǎo)致錯誤,而機器永遠在冷酷地計算,只要有了完備的算法,就不會出現(xiàn)任何失手;但和“沃森”相比,“深藍”只會做一件事—下棋。今天的“沃森”是大數(shù)據(jù)驅(qū)動的,你無論問它什么,它都可能回答得比人還要準確、還要快。2013年2月,參加過比賽的“沃森”又找到了新工作:在紐約的一所癌癥專科醫(yī)院“坐診”,輔助醫(yī)生診斷病人。 未來已經(jīng)來到我們中間,只是還沒有均勻地分布到生活的各個角落!從無人駕駛汽車、智能學(xué)習(xí)平臺、個人語音助理以及機器人領(lǐng)域取得的進步中,我們可以看到這個智能型社會的種種端倪。這將是一個由數(shù)據(jù)驅(qū)動、由算法定義的世界,自動化將接管越來越多的工作。毫無疑問,這是人類的福祉,人類將從中獲得更大的解放,但同時,這個新的社會形態(tài)也將給人類帶來空前的挑戰(zhàn)。 2012年9月,美國重思機器人公司(RethinkRobotics)推出了一款名為“Baxter”的商用機器人,這款機器人具有基本的“學(xué)習(xí)”能力,通過一小時的培訓(xùn),它就可以在流水線上獨立完成裝貨卸貨、打包拆箱、檢查和裝配零件等重復(fù)性的工作,一臺Baxter的售價僅為22000美元,這遠遠低于一名普通美國工人的年薪。更重要的是,機器人不需要公司購買醫(yī)療保險、不會請假、不會抱怨、不會要求漲工資,可以保持同樣的工作狀態(tài)5年、10年甚至幾十年! 圖7–21商用機器人Baxter的外觀 圖片來源:網(wǎng)絡(luò) 這款機器人的出現(xiàn),引起了美國社會的熱烈討論。大部分科學(xué)家、經(jīng)濟學(xué)家都相信,隨著智能時代的到來,那些重復(fù)性的、日常性的工作將逐漸被機器人接手。在這些崗位上,計算機甚至比人還可靠,它們能把工作做得更好。2013年9月,英國牛津大學(xué)馬丁學(xué)院的科研人員研究了自動化對人類就業(yè)市場的影響,他們在報告中總結(jié)說,在未來20年內(nèi),今天美國社會45%的工作,都可能被自動化和機器人接手15。 45%!這是任何社會都無法承受的失業(yè)率。 2014年1月,在達沃斯世界經(jīng)濟論壇上,谷歌的董事局主席施密特(EricSchmidt)也表達了類似的憂慮。他講到,由于信息技術(shù)的進步,越來越多的工作將從人類的手中流失,失業(yè)將引發(fā)各種嚴重的社會危機,發(fā)達國家現(xiàn)在就必須思考如何應(yīng)對這些挑戰(zhàn)。 有經(jīng)濟學(xué)家甚至支招說,開征計算機稅,使用計算機和自動化越多的公司,必須繳納更多的稅收,國家可以用這部分錢來補貼失業(yè)群體。 這種情況會不會出現(xiàn),我們首先可以以史為鑒。今天美國社會的轉(zhuǎn)型,和100多年前從農(nóng)業(yè)社會向工業(yè)社會的轉(zhuǎn)型頗有相似的地方。當(dāng)時,工作機會從農(nóng)業(yè)大規(guī)模地向工業(yè)轉(zhuǎn)移。100年前,每3個美國人當(dāng)中就有1個農(nóng)民,而今天的美國,只有2%左右的農(nóng)民,即每50個人中有1個農(nóng)民,但生產(chǎn)的糧食不僅能夠自給,美國還是世界上最大的農(nóng)產(chǎn)品出口國,也就是說,其產(chǎn)量遠比100年前還多。當(dāng)時,機器廣泛地代替了人力,失業(yè)問題也曾令當(dāng)時的建設(shè)者困擾萬分。1884年,當(dāng)賴特成為美國第一任勞工統(tǒng)計局局長時,他在全國反復(fù)調(diào)查統(tǒng)計的一個問題就是:機器的出現(xiàn)到底是增加了還是減少了就業(yè)機會?賴特最后的發(fā)現(xiàn)是,機器雖然取代了人力,但機器的出現(xiàn)還是增加了就業(yè)機會。其中的原因是,工業(yè)產(chǎn)品極大地刺激了全社會的需求,最終,工作機會的蛋糕變大了,而且變得很大,和它相比,機器對人力的取代只是很小的一部分。 但向智能社會轉(zhuǎn)型的挑戰(zhàn)又有不同的地方,形勢更為嚴峻。首先問題是,我們的蛋糕是不是還會變大? Instagram,一款基于互聯(lián)網(wǎng)的照片分享應(yīng)用程序,擁有3000多萬用戶,直到2012年4月被臉譜網(wǎng)用10億美元的高價收購時,整個公司只有13個人。WhatsApp,一個基于智能手機的社交媒體軟件,在全球擁有4億用戶,在2014年2月被臉譜網(wǎng)用190億美元的天價收購時,整個公司只有53個人。而臉譜網(wǎng)本身,在全世界擁有10多億用戶,全公司不足2000人。相比之下,幾乎在全世界都擁有用戶的推特公司更小,只有300余人。但在2013年被數(shù)字化技術(shù)擊垮、宣布破產(chǎn)的柯達公司,其雇員最多時高達15萬人,堪稱工業(yè)時代的行業(yè)巨人。今天的企業(yè),首先在基因上就完全不同于工業(yè)時代的勞動力密集型企業(yè)。未來智能社會的主流企業(yè),一定是知識密集型企業(yè),就企業(yè)的大小而言,它將變小,而絕不是變大。此外,無人駕駛汽車、智能學(xué)習(xí)平臺的出現(xiàn),都會消減原來存在的工作機會,例如,隨著無人駕駛汽車的普及,司機這個行業(yè)可能會徹底消失。前文在介紹普適計算時提到,美國費城把RFID標簽安裝在垃圾桶里,以優(yōu)化垃圾收集的路線和頻度,這個措施導(dǎo)致當(dāng)?shù)乩占藛T的隊伍縮減了1/3。除了自動化,新的商業(yè)模式也會消減工作機會,前面在介紹眾包時提到的Airbnb住房分享網(wǎng)站,通過它可以把個人的余房出租給有需要的游客,這毫無疑問也將沖擊一些低端的酒店,其工作人員就極有可能失業(yè)。 諸如美國之類的發(fā)達國家將首先遭遇這些挑戰(zhàn),但這場智能化的革命,將像旋風(fēng)一樣,逐步席卷整個世界。中國也將面臨這些挑戰(zhàn),這僅僅是個時間問題。 可以肯定,由于各國文化以及應(yīng)對戰(zhàn)略的差異,信息技術(shù)的進步將給每個國家?guī)聿煌挠绊。但在全球化大背景下的今天,向智能型社會的邁進其實也是一場世界范圍內(nèi)的競爭,中國政府如何應(yīng)對,值得認真思考,特別是在變化發(fā)生的早期階段,有效的戰(zhàn)略部署將對未來的發(fā)展起到?jīng)Q定性的作用。 擺在中國政府面前的選擇有很多,個中頭緒可謂千絲萬縷。但我相信,有一點一定是關(guān)鍵,這就是教育:通過教育提高全民素質(zhì),讓民眾具備應(yīng)對這種轉(zhuǎn)型和挑戰(zhàn)的技能,適應(yīng)新時代的需求;赝I(yè)革命時的情景,歐美等國家和地區(qū)都建立了大量學(xué)校,用來培養(yǎng)產(chǎn)業(yè)工人。今天,我們需要學(xué)校培養(yǎng)更多的知識工作者,例如軟件工程師和數(shù)據(jù)科學(xué)家,這將顯著提高中國在這場全球轉(zhuǎn)型中的競爭力。 這是工作機會的大規(guī)模轉(zhuǎn)移,對教育的需求也是海量的、多樣的。中國做得好,還可以在世界范圍內(nèi)輸出人才、輸出知識,幫助其他國家和地區(qū)應(yīng)對這些挑戰(zhàn)。但依靠現(xiàn)有的教育系統(tǒng),每一個國家,包括美國,都不可能完成這個挑戰(zhàn)。前路何在?回到我們剛剛討論過的智能學(xué)習(xí)平臺,只要有根網(wǎng)線,就可以使用世界一流的教育資源,一名老師可以同步為幾十萬人授課,這將為無數(shù)的普通人提供免費學(xué)習(xí)、終生學(xué)習(xí)和隨時隨地學(xué)習(xí)的機會。這種智能學(xué)習(xí)平臺的推廣和普及,可能是全世界應(yīng)對向智能型社會轉(zhuǎn)型最有效的工具。 正所謂,技術(shù)的發(fā)展給我們帶來了難題,同時又給我們開出了處方。大數(shù)據(jù)給人類帶來了挑戰(zhàn),也帶來了新時代的曙光。人類終將受益于技術(shù)的發(fā)展和進步,在即將到來的智能時代獲得更大的自由和解放。
|