1、數(shù)據(jù)處理工具:Excel數(shù)據(jù)分析師,在有些公司也會(huì)有數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)挖掘工程師等等。他們最初級(jí)最主要的工具就是Excel。有些公司也會(huì)涉及到像Visio,Xmind、PPT等設(shè)計(jì)圖標(biāo)數(shù)據(jù)分析方面的高級(jí)技巧。數(shù)據(jù)分析師是一個(gè)需要擁有較強(qiáng)綜合能力的崗位,因此,在有些互聯(lián)網(wǎng)公司仍然需要數(shù)據(jù)透視表演練、Vision跨職能流程圖演練、Xmind項(xiàng)目計(jì)劃導(dǎo)圖演練、PPT高級(jí)動(dòng)畫(huà)技巧等。在Excel,需要重點(diǎn)了解數(shù)據(jù)處理的重要技巧及函數(shù)的應(yīng)用,特別是數(shù)據(jù)清理技術(shù)的應(yīng)用。這項(xiàng)運(yùn)用能對(duì)數(shù)據(jù)去偽存真,掌握數(shù)據(jù)主動(dòng)權(quán),全面掌控?cái)?shù)據(jù);Excel數(shù)據(jù)透視表的應(yīng)用重在挖掘隱藏的數(shù)據(jù)價(jià)值,輕松整合海量數(shù)據(jù):各種圖表類(lèi)型的制作技巧及Power Query、Power Pivot的應(yīng)用可展現(xiàn)數(shù)據(jù)可視化效果,讓數(shù)據(jù)說(shuō)話(huà)。因此想從事數(shù)據(jù)分析崗位的,需要快速掌握快各種Excel數(shù)據(jù)處理與分析技巧。
2、數(shù)據(jù)庫(kù):MySQLExcel如果能夠玩的很轉(zhuǎn),能勝任一部分?jǐn)?shù)據(jù)量不是很大的公司。但是基于Excel處理數(shù)據(jù)能力有限,如果想勝任中型的互聯(lián)網(wǎng)公司中數(shù)據(jù)分析崗位還是比較困難。因此需要數(shù)據(jù)庫(kù)技術(shù),一般Mysql。你需要了解MySQL管理工具的使用以及數(shù)據(jù)庫(kù)的基本操作;數(shù)據(jù)表的基本操作、MySQL的數(shù)據(jù)類(lèi)型和運(yùn)算符、MySQL函數(shù)、查詢(xún)語(yǔ)句、存儲(chǔ)過(guò)程與函數(shù)、觸發(fā)程序以及視圖等。比較高階的需要學(xué)習(xí)MySQL的備份和恢復(fù);熟悉完整的MySQL數(shù)據(jù)系統(tǒng)開(kāi)發(fā)流程。
3、數(shù)據(jù)可視化:Tableau&Echarts如果說(shuō)前面2條是數(shù)據(jù)處理的技術(shù),那么在如今“顏值為王”的現(xiàn)在,如何將數(shù)據(jù)展現(xiàn)得更好看,讓別人更愿意看,這也是一個(gè)技術(shù)活。好比公司領(lǐng)導(dǎo)讓你對(duì)某一個(gè)項(xiàng)目得研究成果做匯報(bào),那么你不可能給他看單純的數(shù)據(jù)一樣,你需要讓數(shù)據(jù)更直觀,甚至更美觀如何理解數(shù)據(jù)可視化?像我們以前上學(xué)的時(shí)候?qū)W過(guò)的柱狀圖,餅狀圖,也是數(shù)據(jù)可視化的一種。只是在現(xiàn)在,簡(jiǎn)單的柱狀圖已經(jīng)不能滿(mǎn)足工作所需。目前比較流行的商業(yè)數(shù)據(jù)可視化工具是Tableau&Echarts。Echarts是開(kāi)源的,代碼可以自己改,種類(lèi)也非常豐富,這里不多做介紹,可以去創(chuàng)建一個(gè)工作區(qū)了解下。
4、大數(shù)據(jù)分析:SPSS&Python&HiveSQL等如果說(shuō)Excel是“輕數(shù)據(jù)處理工具”,Mysql是“中型數(shù)據(jù)處理工具”那么,大數(shù)據(jù)分析,涉及的面就非常廣泛,技術(shù)點(diǎn)涉及的也比較多。這也就是為什么目前互聯(lián)網(wǎng)公司年薪百萬(wàn)重金難求大數(shù)據(jù)分析師的原因。大數(shù)據(jù)分析需要處理海量的數(shù)據(jù),這對(duì)于數(shù)據(jù)分析師的工作能力要求就比較高,一般來(lái)說(shuō),大數(shù)據(jù)分析師需要會(huì)。
(1)會(huì)使用Hive的SQL方法HiveQL來(lái)匯總、查詢(xún)和分析存儲(chǔ)在Hadoop分布式文件系統(tǒng)上的大數(shù)據(jù)集合。知道Hive如何在Hadoop生態(tài)系統(tǒng)進(jìn)行數(shù)據(jù)分析工作。
(2)會(huì)一些SPSS modeler基礎(chǔ)應(yīng)用,這部分技能對(duì)應(yīng)數(shù)據(jù)建模分析師
(3)何使用R語(yǔ)言進(jìn)行數(shù)據(jù)集的創(chuàng)建和數(shù)據(jù)的管理等工作;會(huì)使用R語(yǔ)言數(shù)據(jù)可視化操作,讓學(xué)員如何用R語(yǔ)言作圖,如條形圖、折線圖和組合圖等等;是R語(yǔ)言數(shù)據(jù)挖掘,本部分?jǐn)?shù)據(jù)挖掘工程師
(4)用Python來(lái)編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序,從頁(yè)面中抓取數(shù)據(jù)的多種方法,提取緩存中的數(shù)據(jù),使用多個(gè)線程和進(jìn)程來(lái)進(jìn)行并發(fā)抓取等