從2012年開(kāi)始,幾乎人人(至少是互聯(lián)網(wǎng)界)言必稱(chēng)大數(shù)據(jù),似乎不和大數(shù)據(jù)沾點(diǎn)邊都不好意思和別人聊天。從2016年開(kāi)始,大數(shù)據(jù)系統(tǒng)逐步開(kāi)始在企業(yè)中進(jìn)入部署階段,大數(shù)據(jù)的炒作逐漸散去,隨之而來(lái)的是應(yīng)用的蓬勃發(fā)展期,一些代表成熟技術(shù)的標(biāo)志性IPO在國(guó)內(nèi)外資本市場(chǎng)也不斷出現(xiàn)。轉(zhuǎn)眼間,大數(shù)據(jù)幾年前經(jīng)歷的泡沫正在無(wú)可爭(zhēng)議地轉(zhuǎn)移到人工智能身上。可以說(shuō),在過(guò)去的一年,AI所經(jīng)歷的共同意識(shí)“大爆炸”與當(dāng)年的大數(shù)據(jù)相比,有過(guò)之而無(wú)不及。最近風(fēng)口又轉(zhuǎn)移到區(qū)塊鏈上了,某種程度上也成為業(yè)內(nèi)人士焦慮的一種誘因了。
但無(wú)論技術(shù)熱點(diǎn)如何變換,我們能看到的是,隨著行業(yè)沉下心來(lái)進(jìn)行實(shí)質(zhì)的落地,大數(shù)據(jù)生態(tài)也越來(lái)越細(xì)分。今天就我和大家來(lái)談?wù)劥髷?shù)據(jù)領(lǐng)域的一些新變化、新趨勢(shì)。
一、數(shù)據(jù)治理與安全 Data Governance& Security
就發(fā)展趨勢(shì)而言,這個(gè)可以放在第一位來(lái)講講。
多年來(lái),數(shù)據(jù)已經(jīng)在企業(yè)中不斷快速積累。物聯(lián)網(wǎng)(IoT) 更是不斷加速數(shù)據(jù)的生成。
對(duì)于許多企業(yè)來(lái)說(shuō),大數(shù)據(jù)的解決方案就是利用類(lèi)似于開(kāi)源的Apache Hadoop等技術(shù)作為基礎(chǔ)支持,創(chuàng)建數(shù)據(jù)湖(Data Lake),即創(chuàng)建整個(gè)企業(yè)的數(shù)據(jù)管理平臺(tái),用于以本機(jī)格式存儲(chǔ)企業(yè)的所有數(shù)據(jù)。數(shù)據(jù)湖將通過(guò)提供一個(gè)單一的數(shù)據(jù)存儲(chǔ)庫(kù)來(lái)消除信息孤島,整個(gè)組織都可以使用該存儲(chǔ)庫(kù)來(lái)進(jìn)行業(yè)務(wù)分析、數(shù)據(jù)挖掘等各種應(yīng)用。當(dāng)有了數(shù)據(jù)湖之后,大家會(huì)傾向于認(rèn)為這東西將會(huì)成為一個(gè)全方位和萬(wàn)能的大數(shù)據(jù)集,例如點(diǎn)擊流數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、日志數(shù)據(jù)等都會(huì)被要求進(jìn)入這個(gè)湖中,而這些數(shù)據(jù)很難處理的問(wèn)題卻會(huì)被忽略。
二、致力于協(xié)作的數(shù)據(jù)工作臺(tái)發(fā)展
在大多數(shù)大型企業(yè)里,大數(shù)據(jù)的采用是從少數(shù)獨(dú)立項(xiàng)目開(kāi)始的,個(gè)推也是如此:譬如這里做一點(diǎn)Hadoop集群,那里用一用分析工具,跑一個(gè)簡(jiǎn)單業(yè)務(wù)模型,以及意識(shí)到需要設(shè)立一些新的職位(數(shù)據(jù)科學(xué)家、首席數(shù)據(jù)官)等等。
現(xiàn)在,業(yè)務(wù)場(chǎng)景越來(lái)越豐富,異質(zhì)性也越來(lái)越突出,各種各樣的工具在整個(gè)企業(yè)范圍內(nèi)得到了使用。在公司的組織范圍內(nèi),集中化的“數(shù)據(jù)科學(xué)部門(mén)”正在逐漸讓位于更加去中心化的組織,原因在于集中化的部門(mén)越來(lái)越走向瓶頸,也更容易造成資源的流失。
這個(gè)由數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師以及數(shù)據(jù)分析師組成的群體,正日益嵌入到不同的業(yè)務(wù)部門(mén)里。因此,對(duì)于平臺(tái)來(lái)說(shuō)需求已經(jīng)很明顯了,那就是要讓一切都能協(xié)作到一起來(lái),因?yàn)榇髷?shù)據(jù)的成功正是建立在設(shè)立一條由技術(shù)、人以及流程組成的裝配線(xiàn)基礎(chǔ)之上的。
因此,一些全新的協(xié)作平臺(tái)類(lèi)型(譬如 Jupyter等)正在加快出現(xiàn),引領(lǐng)著所謂的DataOps(與DevOps對(duì)應(yīng))領(lǐng)域的發(fā)展。
我們擁有國(guó)內(nèi)頂級(jí)的設(shè)計(jì)、技術(shù)團(tuán)隊(duì)和多年互聯(lián)網(wǎng)軟件開(kāi)發(fā)經(jīng)驗(yàn)。