大數(shù)據(jù)的應(yīng)用如今已經(jīng)十分普遍了,作為一名大數(shù)據(jù)程序員,對于大數(shù)據(jù)應(yīng)用要掌握的知識還是比較多的,下面重慶達內(nèi)小編為大家分享3個大數(shù)據(jù)平臺應(yīng)用知識,希望能幫助學(xué)習(xí)大數(shù)據(jù)的你.
一、大數(shù)據(jù)分析中的實時推薦是如何實現(xiàn)的?
實時推薦需要使用實時處理框架結(jié)合推薦算法,從而做到對數(shù)據(jù)的實時處理和推薦。實時處理框架有Storm、Flink、SparkStreaming,組件可以對接Kafka,獲取實時流數(shù)據(jù),在實時框架內(nèi)部實現(xiàn)對數(shù)據(jù)的處理過程。
1、實時推薦需要借助實時計算框架例如Spark或是Strom技術(shù),
2、數(shù)據(jù)采集采用Flume+Kafka作為數(shù)據(jù)緩存和分發(fā)作用
3、同時還需要有非常適合的實時推薦算法,例如基于用戶畫像的實時推薦,或是基于用戶行為的實施推薦、或是對商品相識度的實施推薦等不同的算法
二、數(shù)據(jù)治理有何高效的處理方法或工具?
數(shù)據(jù)治理沒有具體的工具和方法,這是一項浩大的工程,可能牽扯到每個部門,既有技術(shù)人員參與,又要有業(yè)務(wù)人員參與,關(guān)鍵時刻還要有領(lǐng)導(dǎo)進行決策。每個公司的數(shù)據(jù)情況不同,處理方法也不盡相同,基本的方法是有的,暨通過對數(shù)據(jù)的梳理(元數(shù)據(jù)、主數(shù)據(jù)),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,再通過質(zhì)量標(biāo)準(zhǔn)或組織協(xié)調(diào)的方式,對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理的。
數(shù)據(jù)治理是一項人力和辛苦活,沒有捷徑和什么有效的工具,而且在一個大數(shù)據(jù)項目中,數(shù)據(jù)治理是非常重要的一個環(huán)節(jié),因為只有數(shù)據(jù)質(zhì)量滿足前端應(yīng)用需求,才有可能挖掘和分析出準(zhǔn)確的結(jié)果。
具體數(shù)據(jù)處理方法還需要看實際業(yè)務(wù)情況,例如數(shù)據(jù)庫、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模等
數(shù)據(jù)治理的過程是一個對業(yè)務(wù)系統(tǒng)數(shù)據(jù)梳理的過程,過程中發(fā)現(xiàn)的問題會反饋給業(yè)務(wù)部門,同時還要制定統(tǒng)一的質(zhì)量和稽核標(biāo)準(zhǔn),就好比給每個業(yè)務(wù)系統(tǒng)數(shù)據(jù)生成線上增加一個質(zhì)量監(jiān)管員。
三、請問在大數(shù)據(jù)平臺搭建過后,大數(shù)據(jù)平臺的運維監(jiān)控主要關(guān)注哪些?
大數(shù)據(jù)平臺的運維監(jiān)控主要括硬件和軟件層面,具體如下:
1、主機、網(wǎng)絡(luò)、硬盤、內(nèi)存、CPU等資源。
在擁有幾十臺以上的集群環(huán)境中,大量的數(shù)據(jù)計算對硬件尤其是硬盤的損耗是較大的,在大量計算中,網(wǎng)絡(luò)也往往會成為一個瓶頸,這些都需要時刻關(guān)注。
2、平臺層面
主要監(jiān)控平臺各個組件的狀態(tài)、負載情況,有異常及時報警。
3、用戶層面
大數(shù)據(jù)平臺建設(shè)是為了服務(wù)公司內(nèi)部廣大用戶的,所以資源既是共享的,又需要是隔離的,所以需要對用戶對平臺資源的使用情況做好監(jiān)控,及時發(fā)現(xiàn)異常使用情況,防止對其他用戶產(chǎn)生不良影響,影響正常業(yè)務(wù)開展。
大數(shù)據(jù)平臺搭建后,運維監(jiān)控的主要內(nèi)容括
1、分布式架構(gòu)的底層虛擬機的運行情況(CPU、內(nèi)存、網(wǎng)絡(luò)、硬盤等)
2、各個組件(HDFS、MR、SPark、Hive、Hbase、IMpla、FLume、Spooq等)的運行狀態(tài)和告警信息
更多有關(guān)大數(shù)據(jù)學(xué)習(xí)資訊的信息請關(guān)注我們,在線老師會免費提供試聽學(xué)習(xí)資料,在線預(yù)約可享受課程優(yōu)惠,點擊進入【重慶達內(nèi)教育】網(wǎng)站詳細了解。