數(shù)據(jù)是數(shù)字化的根基,數(shù)據(jù)清理是數(shù)字化最基礎(chǔ)的技術(shù)之一,各個(gè)行業(yè)都會(huì)用到它。供應(yīng)鏈管理活動(dòng)會(huì)處理大量數(shù)據(jù),有許多數(shù)據(jù)清理的場(chǎng)景,今天就來(lái)聊一聊這個(gè)話題。
相信許多小伙伴都聽過(guò)這樣一句話“Garbage in, Garbage out”,中文的意思是“輸入數(shù)據(jù)是垃圾,輸出的結(jié)果也是垃圾”。這個(gè)垃圾不是我們?nèi)粘I钪械膹U棄物,特指無(wú)用的、錯(cuò)誤的數(shù)據(jù)。為什么會(huì)是這樣?這需要從數(shù)據(jù)處理的過(guò)程說(shuō)起。
當(dāng)我們從外部數(shù)據(jù)源獲得數(shù)據(jù)后,根據(jù)一定的公式和模型對(duì)數(shù)據(jù)進(jìn)行分析處理。源頭是輸入input,輸出結(jié)果就是output。
我們可以把整個(gè)計(jì)算過(guò)程想象成一個(gè)函數(shù)公式,有些是無(wú)比復(fù)雜的計(jì)算,比如物料需求計(jì)算,已經(jīng)不能依靠手工計(jì)算,必須依賴于MRP系統(tǒng)。
還有一些簡(jiǎn)單的線性函數(shù),比如計(jì)算運(yùn)輸費(fèi)用,一般會(huì)有一個(gè)基礎(chǔ)起步價(jià),然后根據(jù)距離乘以每公里的收費(fèi)標(biāo)準(zhǔn),得出這趟的運(yùn)費(fèi)是多少。
在這過(guò)程中,A點(diǎn)和B點(diǎn)之間的距離是一個(gè)變量X,根據(jù)計(jì)算公式得出費(fèi)用Y的值。如果我們獲得的X值是錯(cuò)誤的,那么計(jì)算出的Y值肯定也是錯(cuò)誤的。輸入的源頭數(shù)據(jù)是錯(cuò)的,輸出的結(jié)果必然也是沒(méi)用的,這就是Garbage in, Garbage out的意思。
數(shù)據(jù)錯(cuò)誤的情況在供應(yīng)鏈日常工作中比比皆是,比如盤點(diǎn)的時(shí)候清點(diǎn)錯(cuò)了,輸入了錯(cuò)誤的庫(kù)存數(shù)量,那么庫(kù)存總數(shù)和金額就是錯(cuò)的。我列舉了幾種典型的錯(cuò)誤類型,歡迎大家對(duì)號(hào)入座。
1.錯(cuò)誤的數(shù)值
表格中的無(wú)效值,比如加了空格和句號(hào)。有時(shí)候數(shù)據(jù)還會(huì)出現(xiàn)負(fù)值,例如庫(kù)存,它怎么會(huì)是負(fù)數(shù)呢?可能是扣賬的時(shí)候有一筆收貨沒(méi)有入庫(kù),就出現(xiàn)了負(fù)值。
有些數(shù)值出現(xiàn)在了文本單元格里,自然就不能被統(tǒng)計(jì)到。還有合并單元格,會(huì)導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤或缺失。
2.重復(fù)項(xiàng)
有些編號(hào)應(yīng)該是唯一的,比如貨物追蹤號(hào),一票貨對(duì)應(yīng)的是一個(gè)追蹤號(hào)碼,是一對(duì)一的關(guān)系。我們得檢查有沒(méi)有出現(xiàn)重復(fù)的情況。
3.人為操作錯(cuò)誤
只要是手工輸入的,就存在一定出錯(cuò)的概率。輸入數(shù)據(jù)的人手指一滑,碰到了其他的鍵,就輸錯(cuò)了。或是在排序的時(shí)候沒(méi)有全部選中單元格,還有可能是在用公式的時(shí)候輸錯(cuò)了。
4.其他
有些數(shù)據(jù)和大部分?jǐn)?shù)據(jù)差距過(guò)大,比如在一個(gè)產(chǎn)品系列中,大多數(shù)產(chǎn)品單價(jià)在0.5元至10元之間,突然出現(xiàn)了一些超過(guò)100元的數(shù)據(jù)就很可疑??赡苁窍到y(tǒng)里的報(bào)價(jià)前者是美元,后者是日元。
我們需要仔細(xì)地查看數(shù)據(jù),每次可能都有新發(fā)現(xiàn),那種感覺(jué)就像是哥倫布發(fā)現(xiàn)新大陸一樣,總會(huì)給人驚喜。
找出錯(cuò)誤數(shù)據(jù)就像是在大海里撈針,如果沒(méi)有合適的方法,可能看了半天數(shù)據(jù)只會(huì)看到滿天的小星星。這里介紹幾種方法供大家參考。
1.使用公式
首先要確保數(shù)據(jù)是有效的,因此要做一次的大排查,把數(shù)據(jù)中的無(wú)效值找出來(lái)。比如我們可以用求和或是查找的公式快速查看,根據(jù)公式結(jié)果判斷是否有無(wú)效值。當(dāng)一列數(shù)據(jù)求和結(jié)果為零時(shí),說(shuō)明這些數(shù)據(jù)格式不是數(shù)字。
如果想要把無(wú)效值抓出來(lái),在Excel中可以用vlookup公式,如果返回值是“#N/A”,說(shuō)明這個(gè)記錄有問(wèn)題,可能是輸入錯(cuò)誤,或是有空格。
2.使用目視化圖表
用圖表可以快速查看是否存在異常數(shù)據(jù),比如用散點(diǎn)圖和柱狀圖目測(cè)是否有特別離譜的數(shù)值。
在上圖中,在Y軸上方有幾個(gè)游離在大部隊(duì)之外的數(shù)值需要重點(diǎn)看一看。
3.使用數(shù)據(jù)透視表
數(shù)據(jù)透視表匯總看異常,Excel中的pivot table也就是數(shù)據(jù)透視表是個(gè)很好用的工具。拖拽起來(lái)方便,而且容易理解。
上圖中,從左邊的原始表格匯總出來(lái)的數(shù)據(jù)存在兩個(gè)錯(cuò)誤點(diǎn)。首先是兩個(gè)產(chǎn)品號(hào)ABC50535沒(méi)有被匯總,說(shuō)明其中一個(gè)的產(chǎn)品件號(hào)存在無(wú)效值。
其次,產(chǎn)品ABC35816匯總數(shù)量為零,但是左側(cè)沒(méi)有為零的數(shù)值,說(shuō)明這個(gè)產(chǎn)品的庫(kù)存數(shù)量單元格存在錯(cuò)誤,可能是格式問(wèn)題。
4.分析變異系數(shù)
使用變異系數(shù)反映數(shù)據(jù)離散程度,也叫離散系數(shù)。簡(jiǎn)單地說(shuō),在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析時(shí),如果變異系數(shù)大于一定程度,比如大于1,意味著數(shù)據(jù)變化較大。這是進(jìn)階的內(nèi)容,屬于概率和統(tǒng)計(jì)分析的概念,具體就不在這里展開了。
找到數(shù)據(jù)問(wèn)題點(diǎn)后,最后就是要做數(shù)據(jù)清理了。具體的方法有許多種,每個(gè)人都有自己擅長(zhǎng)的方式。在這里我們就討論一下通用性的原則。
1.先備份
以前我在打電腦游戲的時(shí)候,一般在和大BOSS決戰(zhàn)之前都要先存檔,萬(wàn)一打輸了就調(diào)檔,這樣我就不會(huì)Game Over。
我們做數(shù)據(jù)清理之前也要先備份存檔,萬(wàn)一沒(méi)處理好,至少還有原始數(shù)據(jù),否則后果不堪設(shè)想。
在做改動(dòng)之前,我們一定要先把舊的文件存好,在Excel里另存或是復(fù)制。我們修改過(guò)什么,也要留下記錄。
如果發(fā)現(xiàn)可疑數(shù)據(jù),在清洗之前,需要和相關(guān)人員確認(rèn)一下。比如價(jià)格匯率到底是美元還是日元,找到相關(guān)采購(gòu)員問(wèn)一下,確認(rèn)后再進(jìn)行修改。
盤點(diǎn)庫(kù)存的時(shí)候發(fā)現(xiàn)可疑數(shù)據(jù),先不要急著改,再去現(xiàn)場(chǎng)盤點(diǎn)一次,然后再根據(jù)實(shí)際情況修改。萬(wàn)一自己是錯(cuò)的,把數(shù)據(jù)改了豈不是太過(guò)草率?
2.做記錄
一定要把我們發(fā)現(xiàn)的問(wèn)題和采取的措施完完全全地記錄下來(lái)。對(duì)于所有的改動(dòng),我們都要確保能解釋清楚。
人的記憶力沒(méi)那么好,好記性不如爛筆頭,記錄一下也沒(méi)什么損失。以后萬(wàn)一有需要,我們還可以隨時(shí)找到改動(dòng)過(guò)的地方,撤銷改動(dòng)。所以說(shuō)原始數(shù)據(jù)永遠(yuǎn)不要?jiǎng)h,把它們復(fù)制一份保存好,把清理過(guò)后的數(shù)據(jù)用于以后的分析。
原始的數(shù)據(jù)絕沒(méi)有我們想象中那樣干凈,需要花點(diǎn)時(shí)間進(jìn)行清洗,然后才能用于下一步的整理、匯總和分析,并進(jìn)一步提煉出洞察。我們要時(shí)刻對(duì)外部數(shù)據(jù)持有懷疑態(tài)度,警惕地觀察一切不合理的數(shù)據(jù)。
瑪氏中國(guó) | 2025年度國(guó)內(nèi)運(yùn)輸物流服務(wù)【冰淇淋業(yè)務(wù)】
3188 閱讀2025年京東物流貴州大件宅配、京東幫資源招商
1493 閱讀2025年京東物流-河北大件宅配、京東幫資源招商
874 閱讀物流企業(yè),沒(méi)有效率的增長(zhǎng)就是在加速衰亡
769 閱讀快運(yùn)網(wǎng)點(diǎn)的“跨境突破”:利潤(rùn)更高、增長(zhǎng)潛力大、協(xié)同增效
763 閱讀【權(quán)威發(fā)布】2025年貨車司機(jī)從業(yè)狀況調(diào)查報(bào)告(第一部分)
730 閱讀什么樣的物流人,會(huì)越來(lái)越厲害?
716 閱讀倉(cāng)庫(kù)設(shè)計(jì)干貨:選址、布局、設(shè)計(jì)、設(shè)施……
724 閱讀京東在國(guó)內(nèi)首個(gè)大型折扣超市業(yè)態(tài)即將落地
673 閱讀順豐獲任大圩葡萄官方指定物流服務(wù)商
715 閱讀