“21世紀的競爭是數(shù)據(jù)的競爭,誰掌握數(shù)據(jù),誰就掌握未來。”——馬云
不難理解大數(shù)據(jù)在我們生活的重要性。隨著科技發(fā)展,網(wǎng)絡無處不在,存儲信息的本質(zhì)是數(shù)字0和1(至少目前的計算機是如此),因而可以說數(shù)據(jù)無處不在。
在《大數(shù)據(jù)思維與決策》中,作者采用大量例子說明近20年來大數(shù)據(jù)對傳統(tǒng)行業(yè)、傳統(tǒng)思維的沖擊,從醫(yī)學到教育領域到金融行業(yè)再到互聯(lián)網(wǎng),大數(shù)據(jù)思維的沖擊是史無前例的。
一、回歸方程帶來的沖擊
從前人們的決策幾乎全靠人為經(jīng)驗判斷,作者在這個問題里舉了“尋找棒球隊員”的例子,傳統(tǒng)的方式是經(jīng)理人(暫以此名字代表挖掘球員的人)通過觀看無數(shù)場(書中有列出具體數(shù)字)球賽,觀察球員的每一個細致動作,經(jīng)理人根據(jù)經(jīng)驗判斷該球員是否有潛力成為球星。該方式代價非常大且人為主觀因素會影響決策正確率。大數(shù)據(jù)思維則是分析球員歷史訓練及比賽的記錄數(shù)據(jù),利用數(shù)理統(tǒng)計的回歸方法(必須掌握)分析數(shù)據(jù),從而預測有潛力值球員。相對傳統(tǒng)方式,大數(shù)據(jù)方法成本大大降低,且準確率更高。顯然,新的方式對傳統(tǒng)經(jīng)理人帶來的沖擊是極大的,新的思想總會被質(zhì)疑、抗拒。不過最終由一個胖球員不被看好,數(shù)據(jù)顯示有潛力,最終成為球星的例子證明大數(shù)據(jù)引導決策是正確的。
正如書中所說,數(shù)據(jù)比人客觀,且現(xiàn)在大規(guī)模數(shù)據(jù)的獲取更加容易,價格便宜甚至免費?;貧w方法在數(shù)據(jù)處理中還是十分的有用,必須掌握這一技能。
二、隨機試驗
作者提到的第二個很有用的方法是隨機試驗。基本思想是:
隨機抽取樣本,控制單一變量,進行試驗,分析試驗數(shù)據(jù)檢驗哪個方式更加具有價值。
這里采用的例子很多,其中一個就是某一個網(wǎng)站(具體網(wǎng)站名忘了……暫且稱作Test)利用隨機隨機試驗方法為網(wǎng)站開發(fā)者提供工具檢測怎樣的界面用戶更加喜歡。例如,某一欄是“收藏”還是“收藏與購買”。 Test利用隨機試驗思想對開發(fā)網(wǎng)站采取控制變量檢測,隨機為用戶展示以上兩種方式的開發(fā)網(wǎng)站(僅“收藏”與“收藏與購買”的差異),通過統(tǒng)計用戶點擊行為,則可以評估哪種網(wǎng)頁更被用戶喜歡。
隨機試驗思維在大數(shù)據(jù)下顯得更加有用,文中還列舉了巴西(?具體不記得了)“窮人母親產(chǎn)前補助”、“醫(yī)生洗手對手術(shù)患者死亡影響”、“某一政策是否正確”等例子說明大數(shù)據(jù)下隨機試驗的利用。
隨機試驗思想確實是一個很實用的方法,在以后遇到數(shù)據(jù)處理、數(shù)據(jù)決策之前應不忘考慮這種方法。
三、大數(shù)據(jù)決策的弊端
萬物皆有兩面性,大數(shù)據(jù)決策為我們提供很多快捷、準確的預測。但是,過分依賴數(shù)據(jù)則讓我們在很多時候得出的結(jié)果相差很大。例如,根據(jù)某人的歷史數(shù)據(jù)分析預測下周五會去看電影,然而周末該人不小心骨折住院。盡管數(shù)據(jù)采集到骨折數(shù)據(jù),模型不會因此而改變,因為該數(shù)據(jù)歷史影響甚微,模型會忽略,仍然會認為該人去看電影。根本原因在于模型不會像人那樣正確考慮到骨折的權(quán)值,即使是神經(jīng)網(wǎng)絡模型(我的理解是至少現(xiàn)在的神經(jīng)網(wǎng)絡模型還是沒有人那么聰明),計算機的經(jīng)驗是有限的,盡管他能夠存儲很多內(nèi)容,不代表他有人的智慧。所以很多情況下,人為的干預是十分重要的。
利用大數(shù)據(jù)進行決策,人為的經(jīng)驗還是不可或缺的,權(quán)值的設定,參數(shù)的調(diào)整,初值的設定等這些都是經(jīng)驗得來的,但是即使是這些經(jīng)驗,也不能太過依賴,因為數(shù)據(jù)在變化,世界在變化,以前正確的下一秒隨時錯誤??偟膩碚f,數(shù)據(jù)與人為經(jīng)驗相結(jié)合,互為促進,至于之間的尺度,估計只能在接觸到該行業(yè)多年后才會有所想法吧,現(xiàn)在還是太年輕……
四、大數(shù)據(jù)下的隱私
隨著科技發(fā)展,智能設備越來越普及,信息無處不在,數(shù)據(jù)無處不在。谷歌等都倡議數(shù)據(jù)共享,建立人人都可以利用的數(shù)據(jù)庫。對于數(shù)據(jù)開發(fā)者、數(shù)據(jù)決策者而言的確是十分有利的。能夠為客戶創(chuàng)造價值,如機票預測是客戶購買實惠機票很好的工具,這種情況客戶也是樂意見到的。然而,一些惡意黑客當然也會因此入侵,獲取用戶數(shù)據(jù),對人們生活帶來很多干擾甚至是安全隱患。
所以說,大數(shù)據(jù)下仍然很多問題,不過利益在驅(qū)動,還是會繼續(xù)發(fā)展。這些書中提到的應用和隱患大都基于美國現(xiàn)狀的考慮。對于國內(nèi),確實還是有很大差距。首先應用方面,盡管很多互聯(lián)網(wǎng)企業(yè)開始發(fā)力與大數(shù)據(jù)開發(fā),但是總體的思維還是比較保守(無可厚非),許多模式幾乎照搬國外,就類似云計算、物聯(lián)網(wǎng),大數(shù)據(jù)也很多公司只是在搞概念(純靠猜),還有很大的發(fā)展空間,必須好好把握好時機。另外,安全隱私,就我個人觀察,國內(nèi)的隱私意識還是不怎么注重(又是靠個人經(jīng)驗判斷的,可以看出我的思維也還是傳統(tǒng)的,靠數(shù)據(jù)說話啊!!!),當然我們肯定會比國外稍微慢,但是再接下來十年,風云變幻,一切就說不準了(又在考慮用數(shù)據(jù)說話啊,統(tǒng)計和預測十年后哪國更強啊,預測以后行業(yè)怎么變幻啊,有點入魔了)。
總而言之,該書舉了許多大數(shù)據(jù)決策與應用,也確實呈現(xiàn)了大數(shù)據(jù)時代是真的到來了。然而,這對我而言并沒有很大幫助,這次之前,我就很明確要跟大數(shù)據(jù)打交道了。本書跟我最大的收獲是,清楚地了解到更具體的各種大數(shù)據(jù)應用,了解到不同行業(yè)大數(shù)據(jù)的決策思維,了解到回歸思想以及隨機試驗的重要性。當然,本書讓我對大數(shù)據(jù)有了更深的體會,思維或多或少有些轉(zhuǎn)變(但是不夠),盡管技術(shù)上沒有什么提升,但是其實大數(shù)據(jù)思維還是很重要的,讓我對很多方面都有了大數(shù)據(jù)的聯(lián)想。
最后,作為物聯(lián)網(wǎng)專業(yè),與大數(shù)據(jù)密不可分,也應該有一些更深的體會。其實大數(shù)據(jù)也算是物聯(lián)網(wǎng)下的一個分支,物聯(lián)網(wǎng)包括感知層、網(wǎng)絡層、應用層。感知層的傳感器采集是大數(shù)據(jù)采集(無處不在),網(wǎng)絡層的數(shù)據(jù)處理是大數(shù)據(jù)處理,應用層的應用是大數(shù)據(jù)決策?,F(xiàn)在互聯(lián)網(wǎng)中的大數(shù)據(jù)比物聯(lián)網(wǎng)中只是缺少傳感器數(shù)據(jù)采集部分而已,所以定位到大數(shù)據(jù)方向還是沒有脫離自己的開始方向。當然,大數(shù)據(jù)決策絕對不只是網(wǎng)絡的決策,如果把世界的任意信息用數(shù)據(jù)表示(物聯(lián)網(wǎng)),其實也可以說是包括了所有方面。下個浪潮無疑是物聯(lián)網(wǎng),現(xiàn)在只是開始,十年后,世界會變得你完全不認識,如果你沒有具備大數(shù)據(jù)思維的話,你將被世界淘汰。
至此,算是對該書的閱讀小結(jié),由于時間匆忙,閱讀難免不夠仔細,感想也許片面,至少是我的體會,記錄一下。其實,相關(guān)類的數(shù)據(jù)書籍,我覺得最好還是有過相關(guān)項目或工作經(jīng)歷之后再看或許會有更深入的體會。故不要停止閱讀,不要停止思考!