一個成功的資料探勘專案,首先要有準確的事業需求描述,之後則要求專案相關人員自始至終對事業有正確的理解和判斷。對事業的理解和思考,永遠高於專案的分類和分析技術的選擇。
數據君最近閱讀了《資料探勘與資料化營運實戰:思路、方法、技巧與應用》一書,獲益良多,特將其中第三章總結整理後與大家分享。
目的
找準目標客戶,目標受眾,才能進行精細化營運
在目標客戶的典型特徵分析中,有兩種事業場景
● 試營運前的虛擬特徵探索
● 試營運後的真實資料探索
試營運前
沒有真實的事業環境,沒有真實的使用者資料,需要尋找類似的事業場景中的歷史資料來進行模擬和推斷。根據產品設計理念、產品定位、經驗推測等因素來輸出期望的目標客戶典型特徵,後續根據試營運後的真實資料再作調整。
試營運後
基於真實的事業場景中的使用者資料進行資料分析,提取出的目標使用者特徵更準確更可行,也更貼近事業。最終輸出該產品的核心目標使用者特徵分析報告,為營運團隊的精準行銷提供支撐。
包括:
● 流失預警模型
● 付費預測模型
● 續費預測模型
● 營運活動相應模型
目的
預測個體相應的機率,展示變數之間的關係。
例:建立預測響應模型,判斷特定時間段發生交易的機率。
輸入變數
近一個月曝光,店鋪評分,…
輸出變數
是否線上交易
最終發現近一個月曝光,店鋪評分兩個變數和輸出變數最大正相關,則有理由相信,提高曝光,提高評分可以促進交易量。
活躍度的定義沒有統一標準,一般是根據特定的事業場景和營運需求來量身定做的。其中定義活躍度最常見的兩個基本點是:
● 活躍度組成指標應該是該事業場景中最核心的行為因素
● 衡量活躍度的定義合適與否的重要判斷依據是其能否有效回答事業需求的終極目標
例:某產品可以向賣家提供與買家洽談功能,免費版提供基本功能,付費版提供所有功能。現在需要為該產品定義一個使用者活躍度,來促進使用者從免費版轉化為付費版。
關鍵指標
使用者登陸次數,使用者使用核心功能次數。
評判該定義是否合適,需要看按照該定義出來的活躍使用者中,覆蓋了多少實際付費的使用者。覆蓋率越高,則該定義越好。也可以理解為該定義是否有效的分離了免費使用者和付費使用者。
主要分析使用者在網頁/app上流轉的規律和特點,發現頻繁訪問的路徑模式,這些路徑的發現可以有很多事業用途,包括提煉特定使用者群體的主流路徑、網頁設計的最佳化和改版、特定群體的瀏覽特徵等。
路徑分析的目的
監控營運活動(或目標客戶)的典型路徑,透過分析調整營運策略,最終提升使用者點選頁面的效率。
發現並提煉新的有價值的頻繁路徑模式,提升營運效率和特定效果。
理論依據:客戶付費後,企業會想辦法保留或延長客戶對企業的生命週期和利潤貢獻
兩個營運方向:
● 延緩客戶流失
● 提高顧客消費
第一個方向,通常是客戶流失預警模型發揮作用,利用流失預警模型,提前鎖定可能會流失的有價值客戶,透過各種手段挽留客戶,降低流失率。
第二個方向,透過資料探勘,找出客戶的潛在消費需求,從而更好引導、滿足、迎合客戶需求,最終促使客戶更多的消費。其中主要用到交叉銷售模型。
交叉銷售模型透過對使用者歷史消費資料的分析挖掘,找出有明顯關聯性質的商品組合,然後用不同的建模方法,去構建消費者購買這些關聯商品組合的可能性模型,再用其中優秀的模型去預測新客戶中購買特定組合商品的可能性。
4種思路
● 購物籃分析(有針對性的促銷和捆綁)
● 對重要商品建立預測響應模型,向可能性最高的前5%顧客進行精準行銷和推廣
● 讓重要商品兩兩組合,建立預測響應模型,找出最有可能消費的潛在客戶進行推廣
● 決策樹
其中的建模技術包括
● 關聯分析(Apriori)
● 序列分析(在關聯分析基礎上增加先後順序)
● 預測(響應、分類)模型:邏輯迴歸,決策樹
舉個例子:在同等條件下,一個要素齊備,佈局合理,介面友好的店鋪或商品詳情頁一定比不具備核心要素,佈局不合理,介面不友好的更加容易達成交易,更容易獲得買家的好感。這其中就體現了資訊質量的重要價值。
資訊質量模型主要應用場合包括:
● 商品Offer最佳化
● 網店質量最佳化
● 論壇發帖質量最佳化
● 違禁資訊的過濾最佳化
● 其他設計資訊質量監控和最佳化的場景
策略
專家打分,模型擬合。
資訊質量模型是電子商務和網路交易的基本保障,其主要目的是確保商品基本資訊的優質和高效,讓買家更容易全面、清楚、高效地瞭解商品主要細節,讓賣家更容易,更高效地展示自己的商品。
作用
為賣家提供有價值的服務去支援、保障賣家生意的發展
例:
● 讓賣家購買合適的增值產品
● 讓賣家續費合適的增值產品
● 賣家商業資訊的違禁過濾
● 賣家社群發帖的冷熱判斷
模型
預測(響應、分類)模型
分層模型是介於粗放式營運與基於個體機率預測模型之間的一種折中和過渡模型,其既兼顧了(相比較粗放營運而言)精細化的需要,又不需要(太多資源)投入到預測模型的搭建和維護中。
常用場景:
● 客戶服務團隊需要根據分層模型來針對不同的群體提供不同的說辭和相應的服務套餐
● 企業管理層需要基於線上交易賣家數量來形成以其為核心的賣家分層進化檢視
● 營運團隊用客戶分層模型指導相應營運方案的制定和執行,從而提高營運效率和付費轉化率
這些分層模型既可以為管理層、決策層提供基於特定目的的的統一進化檢視,又可以給事業部門做具體的資料化營運提供分群(分層)依據和參考。
分層模型的關鍵:根據實際事業經驗定義不同層級的含義,根據實際經驗及資料劃分不同層級間的閾值
比較常見的分層模型:RFM
包括
● 欺詐預警
● 糾紛預警
● 高位使用者判斷
一般的信用風險模型由專門的風控團隊負責,但從資料探勘的角度來看,信用風險模型搭建和常規的資料探勘沒有太大區別,演算法思路基本相同,其中的區別在於事業背景。
相比與常規的資料探勘,信用風險分析有以下特點:
分析結論或欺詐模型的時效更短,需要最佳化(更新)的頻率更高
行騙手段是隨機性的,所以欺詐預警模型對及時性和準確度要求很高
對預測模型提煉出的因子進行規則梳理和羅列,可以在風控管理的初期階段有效鎖定潛在目標群體