更新時間:2017-08-31 來源:黑馬程序員云計算大數(shù)據(jù)培訓(xùn)學(xué)院 瀏覽量:
為了確保你組織的大數(shù)據(jù)計劃保持正軌,你需要消除以下10種常見的誤解。
1. 大數(shù)據(jù)就是“很多數(shù)據(jù)”
大數(shù)據(jù)從其核心來講,它描述了結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)合社交媒體分析,物聯(lián)網(wǎng)的數(shù)據(jù)和其他外部來源,來講述一個”更大的故事”。該故事可能是一個組織運營的宏觀描述,或者是無法用傳統(tǒng)的分析方法捕獲的大局觀。從情報收集的角度來看,其所涉及的數(shù)據(jù)的大小是微不足道的。
2. 大數(shù)據(jù)必須非常干凈
在商業(yè)分析的世界里,沒有“太快”之類的東西。相反,在IT世界里,沒有“進(jìn)垃圾出金子”這樣的東西,你的數(shù)據(jù)有多干凈?一種方法是運行你的分析應(yīng)用程序,它可以識別數(shù)據(jù)集中的弱點。一旦這些弱點得到解決,再次運行分析以突出 “清理過的” 區(qū)域。
3. 所有人類分析人員會被機器算法取代
數(shù)據(jù)科學(xué)家的建議并不總是被前線的業(yè)務(wù)經(jīng)理們執(zhí)行。行業(yè)高管Arijit Sengupta在TechRepublic 的一篇文章中指出,這些建議往往比科學(xué)項目更難實施。然而,過分依賴機器學(xué)習(xí)算法也同樣具有挑戰(zhàn)性。Sengupta說,機器算法告訴你該怎么做,但它們沒有解釋你為什么要這么做。這使得很難將數(shù)據(jù)分析與公司戰(zhàn)略規(guī)劃的其余部分結(jié)合起來。
預(yù)測算法的范圍從相對簡單的線性算法到更復(fù)雜的基于樹的算法,最后是極其復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
來源:dataiku,dataconomy。
4. 數(shù)據(jù)湖是必不可少的
據(jù)豐田研究所數(shù)據(jù)科學(xué)家Jim Adler說,對于巨量存儲庫,一些IT經(jīng)理們設(shè)想用它來存儲大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),根本就不存在。企業(yè)機構(gòu)不會不加區(qū)分地將所有數(shù)據(jù)存放到一個共享池中。Adler說,這些數(shù)據(jù)是 “精心規(guī)劃”的,存儲于獨立的部門數(shù)據(jù)庫中,鼓勵”專注的專業(yè)知識”。這是實現(xiàn)合規(guī)和其他治理要求所需的透明度和問責(zé)制的唯一途徑。