從這里開(kāi)始,就開(kāi)始接觸使用分布式系統(tǒng)處理大數(shù)據(jù)了。在處理大數(shù)據(jù)之前,需要有一個(gè)場(chǎng)景,否則技術(shù)工具無(wú)法嵌入現(xiàn)實(shí)當(dāng)中,價(jià)值就會(huì)降低。我碰到的場(chǎng)景應(yīng)該還是比較具有普遍性,因此大家可以在我的場(chǎng)景里先玩一遍,熟悉一下流程和方法,然后加以改造,加載到自己的場(chǎng)景和環(huán)境中。
場(chǎng)景:在一個(gè)大型公司內(nèi)部,終端和各個(gè)業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)傳輸都通過(guò)網(wǎng)絡(luò)進(jìn)行。出于監(jiān)控的要求,需要在網(wǎng)絡(luò)上獲取所有數(shù)據(jù)包,并查看數(shù)據(jù)包里是否含有某些關(guān)鍵字。如果含有某些關(guān)鍵字,證明終端和業(yè)務(wù)系統(tǒng)間正在進(jìn)行某種操作。系統(tǒng)記錄下這些操作,用于實(shí)時(shí)顯示或統(tǒng)計(jì)使用。
這其實(shí)就是“行為數(shù)據(jù)”的采集和記錄,是典型的大數(shù)據(jù)處理場(chǎng)景。
擴(kuò)展一下,將該場(chǎng)景所使用的技術(shù)和工具加載到互聯(lián)網(wǎng)或APP上,就可以在不改動(dòng)任何業(yè)務(wù)系統(tǒng)、在用戶無(wú)感知的情況下,采集用戶的行為數(shù)據(jù)并加以利用,形成用戶習(xí)慣數(shù)據(jù)。當(dāng)然,也可以通過(guò)“埋點(diǎn)”的方式進(jìn)行,但改動(dòng)業(yè)務(wù)系統(tǒng)不要花錢嘛,能省一點(diǎn)是一點(diǎn)。
網(wǎng)絡(luò)數(shù)據(jù)的獲取。網(wǎng)絡(luò)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)設(shè)備的“鏡像口”獲得。鏡像口的設(shè)置可以讓網(wǎng)管幫忙,一般可網(wǎng)管交換機(jī)都可以做到,思科、華三、邁普這些都沒(méi)啥問(wèn)題。通過(guò)鏡像口獲取網(wǎng)絡(luò)數(shù)據(jù),就可以在各個(gè)業(yè)務(wù)系統(tǒng)和用戶無(wú)感知的情況下獲取所有的數(shù)據(jù)了。當(dāng)然,如果公司或者系統(tǒng)在傳輸時(shí)使用https等加密手段,這個(gè)就沒(méi)辦法了。不過(guò)一般公司很少在內(nèi)網(wǎng)傳輸時(shí)加密。
結(jié)構(gòu)如下(畫功實(shí)在是感人):