在CGFT中,大數(shù)據(jù)對思維方式的轉(zhuǎn)變主要有3種,具體有什么,往下看!
1、全樣而非抽樣
過去,由于數(shù)據(jù)存儲和處理能力的限制,在科學分析屮,通常采用柚樣的方法,即從全集數(shù)
據(jù)中柚取一部分樣本數(shù)據(jù),通過對樣本數(shù)據(jù)的分析,來推斷全集數(shù)據(jù)的總體特征。通常,樣本數(shù)據(jù)規(guī)模要比全集數(shù)據(jù)小很多,因此,可以在可控的代價內(nèi)實現(xiàn)數(shù)據(jù)分析的目的。
現(xiàn)在我們已經(jīng)迎來大數(shù)據(jù)時代,大數(shù)據(jù)技術(shù)的核心就是海量數(shù)據(jù)的存儲和處理,分布式文件系統(tǒng)和分布式數(shù)據(jù)庫技術(shù),提供了理論上近乎無限的數(shù)據(jù)存儲能力,分布式并行編程框架MapReduce提供了強大的海毋數(shù)據(jù)并行處理能力。因此,有了大數(shù)據(jù)技術(shù)的支持,科學分析完全可以直接針對全集數(shù)據(jù)而不是抽樣數(shù)據(jù),并且可以在短時間內(nèi)迅速得到分析結(jié)果,速度之快,超乎我們的想象。
2. 效率而非精 確過去,我們在科學分析中采用抽樣分析方法,就必須追求分析方法的精 確性,因為,抽樣分析只是針對部分樣本的分析,其分析結(jié)果被成用到全集數(shù)據(jù)以后,誤差會被放大,這就意味著抽樣分析的微小誤差,被放大到全集數(shù)據(jù)以后,可能會變成一個很大的誤差。因此,為了保 證誤差被放大到全集數(shù)據(jù)時仍然處于可以接受的范圍,就必要確保抽樣分析結(jié)果的精 確性。正是由于這個原因,傳統(tǒng)的數(shù)據(jù)分析方法往往更加注重提髙算法的精 確性,其次才是提髙算法效率。
現(xiàn)在,大數(shù)據(jù)時代采用全樣分析而不是抽樣分析,全樣分析結(jié)果就不存在誤差被放大的問題,因此,追求高精 確性已經(jīng)不是其首要目標;相反,大數(shù)據(jù)時代具有“秒級響應”的特征,要求在幾秒內(nèi)就迅速給出針對海量數(shù)據(jù)的實時分析結(jié)果,否則就會喪失數(shù)據(jù)的價值,因此,數(shù)據(jù)分析的效率成為關(guān)注的核心。
3. 相關(guān)而非因果
過去,數(shù)據(jù)分析的目的,一方面是解釋事物背后的發(fā)展機理,比如,一個大型超市在某個地區(qū)的連鎖店在某個時期內(nèi)凈利潤下降很多,這就需要IT部門對相關(guān)銷售數(shù)據(jù)進行詳細分析找出發(fā)生問題的原因;另一方面是用于預測未來可能發(fā)生的事件,比如,通過實時分析微博數(shù)據(jù),當發(fā)現(xiàn)人們對霧霾的討論明顯增加時,就可以建議銷售部門增加口罩的進貨量,人們關(guān)注霧霾的一個直接結(jié)果足,大家會想到購買一個口罩來保護自己的身體健康。不管是哪個目的,其實都反映了一種“因果關(guān)系”。
但是,在大數(shù)據(jù)時代,因果關(guān)系不再那么重要,人們轉(zhuǎn)而追求“相關(guān)性” 而非“因果性”。比如,我們?nèi)ヌ詫毦W(wǎng)購物時,當我們購買了一個汽車防盜鎖以后,淘寶網(wǎng)還會自動提示你,與你購買相同物品的其他客戶還購買了汽車坐墊,也就是說,淘寶網(wǎng)只會告訴你“購買汽車防盜鎖”和“購買汽車坐墊”之間存在相關(guān)性,但是,并不會告訴你為什么其他客戶購買了汽車防盜鎖以后還會購買汽車坐墊。