大資料行業內普遍用的多的是Excel、R、Python、BI,可以滿足大部分業務需求~
一、Excel
1.一般的辦公需求下的資料處理工作;
2.中小公司資料管理,儲存(很多國有企業都用);
3.學校學生,老師做簡單的統計分析(如方差分析,迴歸分析);
4.結合Word,PowerPoint製作資料分析報告;
5.資料分析師的主力分析工具(部分資料分析師的輔助工具);
6.部分商業雜誌,報刊圖表製作(資料視覺化);
優點:
1.容易上手;
2.學習資源十分豐富;
3.可以用Excel做很多事情,建模,視覺化,報表,動態圖表;
4.幫助你在進一步學習其它工具之前(比如Python,R),理解很多操作的含義;
缺點:
1.深入學習需要掌握VBA,難度有點高;
2.當資料量較大時,會出現卡頓的情況;
3.到Excel2016版,在不借助其它工具的情況下,Excel資料檔案本身能夠容納的資料僅有108萬行,不適合處理大規模資料集;
4.內建統計分析種類太簡單,實用價值不大;
5.不像Python,R語言等開源軟體,正版Excel需要付費,比如我用office365.每年需要支付300多塊錢(不過也值了)
二、R
透過擴充套件的第三方R包,R能夠做的事情幾乎涵蓋了任何需要資料的領域。就我們一般的資料分析或者學術資料分析工作而言,R能做的事情包括但不限於如下方面:
1.資料清洗與整理;
2.網路爬蟲;
3.資料視覺化;
4.統計假設檢驗(t檢驗,方差分析,卡方檢驗等);
5.統計建模(線性迴歸,邏輯迴歸,樹模型,神經網路等);
6.資料分析報告輸出(Rmarkdown);
R容易學嗎?
從我個人來看,想要入門R是非常簡單的,10天的集中學習,對於掌握R的基本使用,基本資料結構,資料匯入匯出,簡單的資料視覺化,是完全沒有問題的。有了這些基礎,在遇到實際的問題時,去找到需要使用的R包,透過閱讀R的幫助文件,以及網路上的資料,就能夠相對快速的解決具體問題了。
三、Python
R語言和Python同為需要程式設計的資料分析工具,所不同的是,R專門用於資料分析領域,而科學計算與資料分析只是Python的一個應用分支,Python還可以用來開發web頁面,開發遊戲,做系統的後端開發,以及運維工作。
現在的一個趨勢是,Python在資料分析領域正在追趕R,在某些方面已經超越了R,比如機器學習,文字挖掘等偏程式設計的領域,但R語言在偏統計的領域仍然保持優勢。Python在資料分析方面的發展,很多地方借鑑了R語言中的一些特色。所以,如果你現在還是一片空白,還沒開始學習,要做決定學習R還是Python的話,建議從Python入手。
Python和R都比較容易學習,但是如果你同時學習兩者,由於在很多地方它們非常相似,就會很容易混淆,所以建議不要同時學習它們。等其中一個掌握到一定的程度,再著手學習另外一個。
Python能做什麼?
1.網路資料爬取,使用Python能夠很容易的編寫強大的爬蟲,抓取網路資料;
2.資料清洗;
3.資料建模;
4.根據業務場景和實際問題構造資料分析演算法;
5.資料視覺化(個人感覺不如R好用);
6.機器學習,文字挖掘等高階資料探勘與分析領域;
應該學習R還是Python?
如果因為時間有限,只能選擇其中的一種來學習的話,我建議使用Python。但我仍然建議兩者都瞭解一下,畢竟每個人都不一樣。可能你在某些地方聽說,Python在工作中更加常用,但是工作中,解決問題才是最重要的,如果你能夠用R高效的解決問題,那就用R。實際上,Python很多資料分析方面的特色,是模仿R來實現的,比如pandas的資料框,正在開發中的ggplot視覺化包模仿的是R語言中非常著名的ggplot2.
四、BI
多數分析師日常的工作就是做報表,而資料分析師更多用到的報表是BI。
BI全稱商業智慧,在傳統企業中,它是一套完整的解決方案。將企業的資料有效整合,快速製作出報表以作出決策。涉及資料倉庫,ETL,OLAP,許可權控制等模組。
BI工具主要有兩種用途。一種是利用BI製作自動化報表,資料類工作每天都會接觸大量資料,並且需要整理彙總,這是一塊很大的工作量。這部分工作可以交給BI自動化完成,從資料規整、建模到下載。
另外一種是使用其視覺化功能進行分析,BI的優點在於它提供比Excel更豐富的視覺化功能,操作簡單上手,而且美觀,如果大家每天作圖需要兩小時,BI會縮短一半時間。
BI作為企業級應用,可以透過它連線公司資料庫,實現企業級報表的製作。這塊涉及資料架構,就不深入講了。
關於BI,像Tableau、PowerBI、FineBI、Qlikview這類BI(商業智慧)工具,涵蓋了報表、資料分析、視覺化等多層。底層還可於資料倉庫銜接,構建OLAP分析模型。
再扯遠一點,怎麼樣選擇資料分析工具,學習一些技能其實還要看你是偏業務的還是技術的,還有取決於你公司的IT資訊化水平。
業務類分析師,往往在營運部,市場部,銷售部等,根據服務的業務部門的不同,可能叫資料運營,經營分析,會員分析,商業分析師等名字。因為各個業務線具體考慮的問題不同,分析思路與體系均有不同,所以會有這種區別。日常的工作更多是整理業務報表,針對特定業務做專題分析,圍繞業務增長做需要用到資料的測算、規劃、方案等。
技術類分析師,往往在IT部、資料中心。根據從事的工作環節不同,被分成資料庫工程師,ETL工程師,爬蟲工程師,演算法工程師等角色。在中小企業,往往一個技術小哥通吃這些流程。在大企業,一個標準的資料中心,一般都有資料倉庫、專題分析、建模分析等組來完成資料開發工作,再大的公司,還有專門負責資料治理的小組。之所以有這個區分,是因為生產資料,需要一個多層次的複雜的資料系統。一個數據系統,需要資料採集、資料整合、資料庫管理、資料演算法開發、報表設計幾個環節組合。這樣才能把分散在各處的一點一滴的資料集中起來,計算成常用的指標,展示成各種炫酷的圖表。這裡每一個環節都需要對應的技術支援和人員工作,因此有了不同的崗位。
分析師有技術和業務之分,那對應工具也有這樣的屬性側重。
分析類工具
對於初級資料分析師,玩轉Excel是必須的,資料透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統計分析工具,SPSS作為入門是比較好的。
對於高階資料分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。
對於資料探勘工程師……嗯,R和Python必備,要靠寫程式碼來解決。
程式碼類工具
對於初級資料分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。
對於高階資料分析師,除了SQL以外,學習Python是很有必要的,用來獲取和處理資料都是事半功倍。當然其他程式語言也是可以的。
對於資料探勘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之程式語言絕對是資料探勘工程師的最核心能力。