在預測案例1,我們依據(jù)渠道業(yè)務管理和代理商行為特征,以時間序列分析方法,為成熟渠道行業(yè)業(yè)務搭建了"渠道業(yè)務的自適應預測模型"。
這個預測模型,針對的是整體業(yè)績預測,而并非直接導出供應鏈所需的產(chǎn)品預測。這是由于,成熟的渠道業(yè)務其產(chǎn)品需求結構也是相對穩(wěn)定的,所以,產(chǎn)品預測可以直接依據(jù)整體業(yè)績預測等比例換算即可。
如果業(yè)務市場不夠成熟,例如行業(yè)占有有限、客戶數(shù)量有限,那么產(chǎn)品需求結構的穩(wěn)定度就完全依賴于行業(yè)、客戶需求變化的同步性。不考慮到這一點,而單純按照預測案例1去照貓畫虎,就很有可能帶來較大的預測偏差。
這種情況,需要不同的分析處理和預測模型。下面請看案例2。
****************************************
現(xiàn)有產(chǎn)品型號數(shù)量>500。已知產(chǎn)品結構樹如下:
同時,現(xiàn)有17家客戶,過去兩年的客戶需求記錄如下:
我們是否可以搭建合適模型,用于預測未來?
****************************************
很明顯,預測模型的質量首先取決于我們對這17家客戶需求特征的把握。
雖然客戶數(shù)量只有17個,并且通常也會有比較清晰的業(yè)務人員負責每一個客戶的業(yè)務發(fā)展,但是,如果我們寄希望于業(yè)務人員能夠講清楚每個客戶對這數(shù)百顆物料的后續(xù)月度需求,那也幾乎是完全不現(xiàn)實的事情。
如果能夠搭建一個有效的模型來描述需求結構和變化,就可以很好地提高供應鏈與業(yè)務人員的溝通質量和溝通效率,進而得到更好的預測質量。
為了完成這個目標,我們需要的是“聚類分析”。
(知識點:聚類分析 cluster analysis,是一組將研究對象分為相對同質的組群的統(tǒng)計分析技術。 這是現(xiàn)代數(shù)據(jù)挖掘、數(shù)據(jù)分析技術中的一個重要內容。通過對研究對象特征的梳理和定義,進行合理分類,它可以有效減少需要討論的對象數(shù)目,有利于對研究對象的整體描述。)
對案例2而言,所謂“聚類分析”,就是將行為特征比較相似的客戶歸為一組。不同組別的客戶,意味著會有不同的行為特征。
第一個問題,哪些行為特征是我們需要關心的呢?
首先,產(chǎn)品需求結構;其次,需求趨勢。
把握了這兩點,我們就能夠把握未來產(chǎn)品需求。
以產(chǎn)品需求結構特征為例,我們來看看如何進行聚類分析。
應用數(shù)據(jù)透視表,我們可以得到客戶需求的分類匯總如下:
也就是說,我們得到了17家客戶的產(chǎn)品需求結構特征。每個客戶都擁有各自的一維數(shù)組(或者說一維向量),代表各自在過去兩年的實際需求結構。我們需要把結構相似的客戶歸為同類。
第二個問題,如何定量評價相似性?
(知識點:聚類分析技術,計算相似度主要有以下幾種方法:
1. (向量視角的)夾角余弦、
2. (概率視角的)杰卡德相似系數(shù)、
3. (統(tǒng)計視角的)相關系數(shù) )
其中,相關系數(shù)是最適合于Excel計算、同時也最直觀的一種計算方法。
首先,建立相關系數(shù)矩陣。
基于之前我們曾經(jīng)分享的“數(shù)據(jù)處理技巧:幾個有用的Excel函數(shù)”,使用INDEX和MATCH函數(shù)為相關系數(shù)CORREL函數(shù)提供輸入,可以很容易地搭建計算公式,如下圖
請注意,所用公式的"$"鎖定技巧,對于后續(xù)的分析處理極為有用。后續(xù)需要持續(xù)調整矩陣的行、列,這個公式寫法,可以確保調整過程中計算結果總是有效。
這里以顏色直觀表現(xiàn)相關系數(shù)的高低:深綠色>0.9,綠色0.7~0.9,淺綠色0.5~0.7。
這個相關系數(shù)矩陣,也叫“協(xié)相關矩陣”,實際上就是每兩個客戶的產(chǎn)品需求結構之間的相關系數(shù)。行標題和列標題,就是客戶編號。所以,矩陣對角線(左上-右下)上的相關系數(shù)均為1。
其次,聚類過程(1)——相關系數(shù)矩陣調整和初步分組。這是一個圖上作業(yè)。我們的目標是將最多的綠色集中在對角線上,實現(xiàn)的方式,是調整行、列的順序,也即不停地剪切、插入。實現(xiàn)了這一點,也就將高相關性的客戶集中到了一起。
調整結果如下圖:
請注意,在調整過程中,一定要保持行、列同步調整,也即行、列的客戶順序永遠一致。
圖中的方框,就是依據(jù)相似度的分組,每個框內的客戶都是高度相似的。
由于目前得到的結果存在很多交叉相關(方框交疊),這個結果還不是聚類的最終結果。我們還需要解開這些交叉。
再次,聚類過程(2)——分組檢驗及合并。
將上圖中各個方框內相應客戶合并,一共得到七個分組G01~G07。然后計算這七個分組與所有客戶的相關系數(shù)矩陣。結果如下圖:
請注意:為了呈現(xiàn)方便,這里隱藏了客戶列。實際上,這里的計算公式仍然如前圖類似。
上圖中可以很清晰地看到,G02、G03、G04之間,G05、G06、G07之間,所覆蓋的客戶群非常接近。
因此,我們可以嘗試將其合并,G11包含所有G02、G03、G04的客戶,G12包含所有G05、G06、G07的客戶。計算合并后的三個分組(G01未受影響)與所有客戶的相關系數(shù)矩陣,結果如下圖:
請注意,視實際分組效果,這個過程有可能需要重復進行多次,如果合并分組效果不好,還需要退回重新嘗試其它合并方案。
這個分組結果顯然更清晰。由于這個結果中的G11、G12仍然存在著部分客戶重疊,因此,我們還需要最后整理和檢驗一下。
最后,聚類過程(3)——最終分組及檢驗。
以相關性更高為標準,我們將所有客戶都強制劃分唯一組別,并計算新分組與所有客戶的相關系數(shù)矩陣,以檢驗分組質量。如下圖:
可見,所有客戶都已經(jīng)被唯一分組所很好覆蓋。這就是我們可接受的產(chǎn)品需求結構分組的最終結果。
還有客戶需求趨勢特征需要分析,這是另一個聚類分析工作。
分析的對象,是各個客戶的月度需求走勢。分析過程同上。對所有客戶的月度需求記錄進行相關系數(shù)矩陣分析,然后調整矩陣、嘗試分組并調整、檢驗。最終得到可接受的需求趨勢分組。
具體過程不再重復,這里僅展示分析結果如下:
請注意,這一客戶分組與前一分組并不一致,這是很正常的結果。
將兩個特征綜合,我們就得到了下面的客戶分類矩陣:
每一個分組內的客戶之間,產(chǎn)品需求結構和需求趨勢都是相似的。
總共有5個有效分組。
第三個問題,聚類分析結果的實際意義是什么?
(知識點:聚類分析作為監(jiān)督學習,其結果對于特征選擇是比較敏感的。例如,產(chǎn)品結構層次(產(chǎn)品大類or細分類別)、主要產(chǎn)品類別(例如ABC中是否放棄C類)的取舍等,都會影響到聚類分析結果。)
有鑒于聚類分析的敏感性,我們必須討論聚類分析結論的實際意義,這既可以避免我們誤入歧途,同時也是理解現(xiàn)實的必需步驟。畢竟,我們的分析過程以及模型搭建,都是要用來與業(yè)務有效溝通的。
這一過程,我們留待下一篇深入討論。這里僅展示未經(jīng)討論的初步結果,如下圖。
請注意:
(1) 藍色百分比數(shù)字,是該組別的業(yè)績占比;
(2) 需求趨勢上,CG_A和CG_B有明顯不同的旺季;
(3)需求結構上,各組別的產(chǎn)品側重完全不同。請格外留意PG_B的縱軸高度是另外兩個的三倍。
對于有限客戶/行業(yè)的案例2,通過聚類分析,可以注意到案例中包含有5組不同客戶,每組客戶都有著不同的產(chǎn)品需求結構和需求趨勢。
這種結構性的差異,對于我們理解和把握需求是重要的?;诳蛻舻暮侠矸纸M,我們就有希望避免同步性差異所帶來的預測偏差。
(本篇完)
下一篇我們將繼續(xù)從現(xiàn)實方向討論案例2。
所有數(shù)據(jù)挖掘結論,都需要探討其現(xiàn)實意義,并且以此作為其價值的判斷依據(jù)。這將是我們下一篇的重點。
下周日再見~~
義烏漲完廣州漲 通達兔等快遞全年或增收數(shù)十億!
1507 閱讀多多買菜:悶聲增長
1438 閱讀又出傷人事件!買A退B、簽收訛詐、押金不退……快遞小哥如何避坑?
1218 閱讀歐盟《關鍵原材料法案》:全球資源戰(zhàn)略格局的重大轉變及應對策略
1227 閱讀18天抵歐!寧波舟山港迎來史上最快中歐航線
1176 閱讀傳網(wǎng)絡貨運“獎補”全面暫停,誰破防了?
1082 閱讀2025年1-6月港口貨物、集裝箱吞吐量
1072 閱讀興滿物流華北首個樞紐落戶普洛斯?jié)蠄@區(qū),開啟零擔物流新格局
1049 閱讀國家鐵路集團950億成立新藏鐵路公司
771 閱讀2025年7月中國快遞發(fā)展指數(shù)報告
744 閱讀