資料分析定義
資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。在實用中,資料分析可幫助人們作出判斷,以便採取適當行動。是有組織有目的地收集資料、分析資料,使之成為資訊的過程。
資料分析分類
資料分析劃分為描述性統計分析、探索性資料分析以及驗證性資料分析。
(1)探索性資料分析——側重於在資料之中發現新的特徵
(2)驗證性資料分析——側重於已有假設的證實或證偽
資料分析常用方法
1、PEST分析:
是利用環境掃描分析總體環境中的政治(Political)、經濟(Economic)、社會(Social)與科技(Technological)等四種因素的一種模型。這也是在作市場研究時,外部分析的一部分,能給予公司一個針對總體環境中不同因素的概述。通過這個策略工具,也能有效的瞭解市場的成長或衰退、企業所處的情況、潛力與營運方向。一般用於巨集觀分析。
2、SWOT分析:
又稱優劣分析法或道斯矩陣,是一種企業競爭態勢分析方法,是市場行銷的基礎分析方法之一,通過評價自身的優勢(Strengths)、劣勢(Weaknesses)、外部競爭上的機會(Opportunities)和威脅(Threats),用以在制定發展戰略前對自身進行深入全面的分析以及競爭優勢的定位。而此方法是Albert Humphrey所提。
3、5W2H分析:
用五個以W開頭的英語單詞和兩個以H開頭的英語單詞進行設問,發現解決問題的線索,尋找發明思路,進行設計構思,從而搞出新的發明專案具體:
(1)WHAT——是什麼?目的是什麼?做什麼工作?
(2)WHY——為什麼要做?可不可以不做?有沒有替代方案?
(3)WHO——誰?由誰來做?
(4)WHEN——何時?什麼時間做?什麼時機最適宜?
(5)WHERE——何處?在哪裡做?
(6)HOW ——怎麼做?如何提高效率?如何實施?方法是什麼?
(7)HOW MUCH——多少?做到什麼程度?數量如何?質量水平如何?費用產出如何?
4、7C羅盤模型:
7C羅盤模型是一個合作市場行銷的工具,7C模型包括以下部分:
(C1)企業(Corporation)
企業很重要。也就是說,競爭對手(Competitor),執行市場營銷或是經營管理的組織(Organization),利益相關者(Stakeholder)也應該被考慮進來。
(C2)商品(Commodity)
這在拉丁語中是共同方便共同幸福的意思,是從消費者的角度考慮問題。這也和從消費者開始考慮問題的整合行銷傳播是一致的,能體現出與消費者相互作用進而開發出值得信賴的商品或服務的一種哲學。經過完整步驟創造出的商品可以稱之為商品化。
(C3)成本(Cost)
不僅有價格的意思,還有生產成本、銷售成本、社會成本等很多方面。
(C4)流通渠道(Channel)
表達商品在流動的含義。創造出一個進貨商、製造商、物流和消費者共生的商業模式。作為流通渠道來說,網路銷售也能算在內。
(C5)交流(Communication)
(C6)消費者(Consumer)
- N = 需求(Needs):生活必需品,像水、衣服、鞋。
- W = 想法(Wants):想得到的東西,像運動飲料、旅遊鞋。
- S = 安全(Security):安全性,像核電、車、食品等物品的安全。
- E = 教育(Education):對消費者進行教育,為了能夠讓消費者也和企業一樣對商品非常瞭解,企業應該提供給消費者相應的知識資訊。
(C7)環境(Circumstances)
- N = 國內和國際:國內的政治、法律和倫理環境及國際環境,國際關係。
- W = 天氣:氣象、自然環境,重大災害時經營環境會放生變化,適應自然的經營活動是必要的。像便利店或是部分超市就正在實行。
- S = 社會和文化:網路時代的社會、福利及文化環境理所當然應該成為考慮因素。
- E = 經濟:經濟環境是對經營影響最大的,以此理所當然應該成為考慮因素。
5、AARRR海盜指標法:
海盜指標法是網際網路常用的“使用者增長模型”,黑客增長模型:
(1)Acquisition:獲取使用者
(2)Activation:提高活躍度
(3)Retention:提高留存率
(4)Revenue:獲取收入
(5)Refer:自傳播
講方法論之前,先思考什麼情況需要資料分析?通常情況下是當領導或者自己發現某個問題,比如這一陣銷售額低迷,存貨量居高不下,客戶流失率只增不減……這樣的一個問題,可以稱之為“點”。於是,第一時間對比自己的目標,這個月的銷售額是要達到多少多少萬,但是目前的問題是完全不符合自己的KPI的,所以會促使你去分析原因,找到解決的措施。問題與目標對接,兩點成為一“線”。撇開流程,在業務外,是否有外部因素影響到了資料,這也是需要考慮的,一條直線和直線外一點,構成“面”,這裡就強調分析問題要全面。多面成體,如果說能夠考慮到影響目標結果的各個因素點,那麼體則是從多面角度出發,能夠從“旁觀者”的角度看待整個分析“體”,更多的是強調全域性觀。
以上就是針對實際業務的一個分析方法論,要形成體,一方面要梳理組織架構,讓資料在各個環節流程上流通起來,另一方面則需要一套行之有效的方法體系,指導日常的營運分析,而這個方法論就是我要提出的“點、線、面、體,四位一體方法論”。
1、點
點,這裡是指業務上的痛點或high點,進一步可理解為業務發展異常點或進階發展點,未來業務拓展關鍵點和BOSS關注點等。在資料上則體現為業務發展趨勢中的波峰、波谷和資料離散點。
點是我們在資料營運中首先要關注的地方,是整個資料營運分析中的起點和基礎點,也是“點、線、面、體”四位一體方法論中最基礎的元素,是整個資料營運程序的擴充套件點。例如我們平時在網站或APP分析過程中,發現某一天的訪客數明顯低於正常水平,那麼是什麼原因導致這個異常點出現呢?又比如當月的銷售量,某日的銷售量明顯低於其他什麼原因引起的?此時的這個點就是我們資料營運的切入點。
點的發現關鍵在於資料的統計整理,形成規範,找出規律和切入點。比如我關注流量這一指標,通過視覺化分析工具將各時段的流量資料抽取出來,前端做成一個dashboard介面,利用時間和查詢控制元件供自助查詢。
2、線
兩點成一線,推己及人,將業務中的異常點和我們日常營運目標有效的結合起來,就能形成一條清晰的資料營運分析線。除此之外,在資料運營資料積累過程中,隨著時間的推進,也能形成一條它自己的“時間序列曲線”,進而在分析過程中實現資料的時間價值。線的分析是實現資料與資料關聯的過程,是看趨勢的過程,是實現資料的時間價值與串聯識別價值的過程。
另一方面,線的分析是維度分析的基礎,思考問題的開始,這個過程有如資料在資料庫中實現上下鑽取、OLAP分析的過程。理解線的分析,一方面通過對營運目標的分析,來反思影響這一目標的各指標權重影響,簡單點說,哪個因素髮生變化會對銷售量產生巨大影響,那這個指標的權重就越大,需要控制好。另一方面,比如分析流量在某一天下滑對月度銷售額的影響,從流量下滑這一點出發,到對目標結果影響這一點關聯分析的過程。一個是從結果出發分析影響因素,一個是從過程出發預測對關注目標的影響。“線”的分析在資料分析操作上體現在分析模型的建立,各指標的關聯。
3、面
面在“直線”分析的基礎上將外部影響因素“點”考慮進來,形成對目標分析更周詳的考慮。面的分析一線與多點的考慮,面比較點和線多的是輻射的影響與考量,是點、線分析整合的基礎上引入了營運場景的考量,並將不同資料營運過程場景化,簡單的講,一個場景就代表一個面。
理解面的分析方法,應從應用場景方面考量,考量各方影響因素。因為“面”,所以有了資料的角色化、場景化。
同樣是銷售的分析,對內受一些列因素影響,比如行銷力度、人員分佈。但放到市場環境中也會受到來自同行或者同產業鏈的輻射影響。有些企業會將市場環境因素納入到分析監控中。
4、體
多面成體。如果說面是考慮到了影響店與目標結果的各個因素,那麼體則是從多面角度出發,能夠從“旁觀者”的角度看待整個分析“體”,更多的是強調全域性觀,是對整個分析體系的認知,是對點、線、面的全面整合,是完成的資料營運體系。
點、線、面、提“四位一體”方法論是一個層層遞進的過程,是對營運業務場景分析從簡單到複雜的過程,從區域性到全域性的過程,是利用資料營運的思維方法。
資料分析流程
有了這些基礎的理論和分析方法後,接下來具體的分析流程可參考:
明確分析目的→梳理業務形成分析思路→搭建分析指標體系→收集資料→處理資料→製作分析模板→視覺化管理
1、明確分析目的&梳理業務
分析要有目的有方向,需要確定——是對現在面對的某個問題分析,還是梳理整體的業務現狀,抑或是對未來某個指標的預測監控。簡單來講,就是解惑、監控、預測,目的是提效、增益。
明確目的後,需要梳理思路,但究竟該怎麼梳理?
如果是分析近一個月銷售額普遍下降的原因點,就要從下至上,還原整個事情進展的過程。購買環節涉及成交量、客單價和折扣率,然後還要分各類產品;瀏覽環節涉及瀏覽量、PV/UV;使用者維度還有流失率、活躍度、復購率等等,把分析目的分解成若干個不同的分析要點,然後針對每個分析要點確定分析方法和具體分析指標。
2、搭建分析指標體系
搭建分析指標體系就是分析整個“體”,將分析框架的體系化,明確每個點都是什麼指標,任何一個分析路徑都能對應到指標。
以電商為例,遵循“人貨場”的思維邏輯。常用的業務分析場景有銷售、商品、管道、競品、會員等等,而商品可進一步細分為商品的庫存、商品的利潤以及關聯銷售分析。在整個業務分析體系中,確保體系化,即先分析什麼,後分析什麼,使得各個分析點之間具有邏輯聯絡,使分析結果具有說服力。
3、收集資料
SQL是最基本的資料庫語言,無論從什麼資料庫、資料倉儲、大數據平臺取數,都需要掌握。
Hive和Spark都是基於大數據的,Hive可以將結構化的資料檔案對映為一張資料庫表,通過類SQL語句快速實現簡單的MapReduce統計。
4、清洗和處理資料
原始資料來自於各個業務系統,指標口徑對不上,總會出現不一致、重複、不完整(感興趣的屬性沒有值)、存在錯誤或異常(偏離期望值)的資料。
(1)資料清洗:去掉噪聲和無關資料
(2)資料整合:將多個資料源中的資料結合起來存放在一個一致的資料儲存器中
(3)資料變換:把原始資料轉換成為適合資料探勘的形式
(4)資料歸約:資料立方體聚集,維歸約,資料壓縮,數值歸約,離散化和概念分層等
5、製作範本&視覺化展示
分析範本多用Excel或者報表工具。如果業務部分有設立資料分析崗或者集團有特定的資料中心團隊,會通過搭建BI平臺來完成針對性的業務分析。
使用常規Excel或者傳統報表工具,可以將做成的圖表貼至PPT中,涉及Excel的高階功能,就需要學習VBA和資料透視表,但Excel適合已經處理好的成品資料。一旦涉及大資料量或頻繁連結資料庫,一些帶有介面的比如FineReport這類資料視覺化或報表工具就比較適合。
資料分析常用工具
日常資料分析用的最多的還是辦公軟體尤其Excel、Word、PowerPoint,資料儲存處理可能用到一些資料庫結合Access用,另外目前一般公司小型關係資料庫用MySQL的還是比較多免費、輕量級,還有較多的也在用PG。其次分析師是用一些專業的分析軟體SPSS,SAS,自助分析用的BI軟體平臺如FineBI、Tableau等。
其實想強調的是分析師40%-60%的時間可能會花在資料的獲取、處理和準備上,所以最好能會點SQL,個人覺得對於分析師與其去了解資料庫,不如好好去學下SQL,因為SQL是標準化的資料查詢語言,所有的關係型資料庫包括一些開源的資料庫甚至各公司內部的資料平臺都對它有良好的支援。最後對於第三方的一些資料收集或者一些跨平臺的資料處理,包括一些簡單的資料視覺化分析可以用FineReport。