中通快遞成立已經(jīng)有將近 20 年時(shí)間,是一家以快遞為主的大型綜合物流服務(wù)企業(yè)。除了快遞之外,還有國際、快運(yùn)、云倉等等的一系列業(yè)務(wù)。根據(jù)今年二季度的數(shù)據(jù)來看,目前日均單量近 7000 萬,市場份額已經(jīng)達(dá)到了 23%,位居行業(yè)第一。
除了及時(shí)把這么多包裹送到客戶手中,客戶滿意度在“通達(dá)系”中也名列前茅。菜鳥統(tǒng)計(jì)各承運(yùn)淘系貨物的快遞公司的綜合能力的指標(biāo),包括服務(wù)質(zhì)量、時(shí)效、信息完整等方面,中通也是表現(xiàn)非常優(yōu)異。
快遞行業(yè)的主要業(yè)務(wù)流程包括收、發(fā)、到、派、簽五個(gè)環(huán)節(jié)。用戶下單后,快遞小哥會(huì)上門收快件,再由網(wǎng)點(diǎn)統(tǒng)一把件交到轉(zhuǎn)運(yùn)中心。轉(zhuǎn)運(yùn)中心做分揀之后,再通過合理的路由把件轉(zhuǎn)運(yùn)到末端末中心,末中心再將件分配到網(wǎng)點(diǎn),然后由快遞小哥進(jìn)行派件,最后由客戶進(jìn)行簽收,這樣一個(gè)流程基本就結(jié)束了。
隨著物流行業(yè)也由傳統(tǒng)行業(yè)向數(shù)字化、智能化新模式的轉(zhuǎn)變,中通為了在激烈競爭的市場環(huán)境中保持領(lǐng)先的地位,也在積極地進(jìn)行數(shù)字化轉(zhuǎn)型,在這個(gè)過程中對(duì)數(shù)據(jù)的依賴程度會(huì)越來越高。
業(yè)務(wù)人員在日常使用數(shù)據(jù)過程中還是有一些痛點(diǎn)的,主要的表現(xiàn):
第一,數(shù)據(jù)資產(chǎn)缺乏盤點(diǎn)。當(dāng)前核心系統(tǒng)的主要數(shù)據(jù)已經(jīng)采集到數(shù)據(jù)倉庫,但是在日常的業(yè)務(wù)分析中經(jīng)常需要向業(yè)務(wù)系統(tǒng)了解需要用到的數(shù)據(jù)在哪里??偟脕砜磳?duì)數(shù)據(jù)資產(chǎn)還是缺乏整體盤點(diǎn),公司主要有哪些數(shù)據(jù),都分布在哪些系統(tǒng)中,哪些數(shù)據(jù)已經(jīng)采集到數(shù)倉,哪些還沒有入庫,還有待進(jìn)一步梳理。
第二,數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)不足。數(shù)據(jù)標(biāo)準(zhǔn)會(huì)貫穿數(shù)據(jù)管理的全流程,雖然我們制定了一系列規(guī)范文檔、制度文檔、流程文檔等,但有了標(biāo)準(zhǔn)并不代表數(shù)據(jù)標(biāo)準(zhǔn)化已經(jīng)落實(shí)了,像指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化、主數(shù)據(jù)的標(biāo)準(zhǔn)化等方面還需要進(jìn)一步的提升。
第三,數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量是數(shù)據(jù)的生命線,差的數(shù)據(jù)質(zhì)量嚴(yán)重影響數(shù)據(jù)分析的結(jié)論,有的可能對(duì)決策產(chǎn)生誤導(dǎo),如臟數(shù)據(jù)、維度數(shù)據(jù)缺失或變更等一系列問題,都需要進(jìn)行治理,比如掃描信息缺失,導(dǎo)致運(yùn)單路由軌跡不準(zhǔn)確;數(shù)據(jù)維度值變化,統(tǒng)計(jì)某個(gè)渠道業(yè)務(wù)量陡增或驟降。
第四,數(shù)據(jù)模型待完善。目前已經(jīng)建設(shè)了一批公共寬表,但是隨著業(yè)務(wù)發(fā)展,有些時(shí)候業(yè)務(wù)方需求比較急,開發(fā)直接從基礎(chǔ)明細(xì)表取數(shù),導(dǎo)致寬表復(fù)用度降低;為了追求開發(fā)效率,團(tuán)隊(duì)內(nèi)部也存在煙囪式開發(fā)現(xiàn)象,導(dǎo)致一些 ST 層共有邏輯沒有下沉。
除了上述問題,快遞公司還會(huì)積累大量收件人、發(fā)件人的地址、姓名、電話等信息,這些信息都需要進(jìn)行有效的管理。此外,國家也出臺(tái)了《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》等法律法規(guī),需要我們做好數(shù)據(jù)分級(jí)分類和對(duì)數(shù)據(jù)合規(guī)安全的訪問,同時(shí)保障數(shù)據(jù)保密性、完整性和可用性。
數(shù)據(jù)治理的核心是希望把數(shù)據(jù)變?yōu)閿?shù)據(jù)資產(chǎn),讓數(shù)據(jù)資產(chǎn)在數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)過程中發(fā)揮價(jià)值。最主要期望能夠?qū)崿F(xiàn)的目的是:
1. 提升數(shù)據(jù)質(zhì)量
2. 解決數(shù)據(jù)孤島問題,實(shí)現(xiàn)數(shù)據(jù)匯聚聯(lián)接
3. 掌握數(shù)據(jù)資產(chǎn)現(xiàn)狀
4. 保障數(shù)據(jù)安全合規(guī)
5. 逐漸釋放業(yè)務(wù)價(jià)值,如在降本增效、提升客戶滿意度等方面發(fā)揮作用
根據(jù)物流行業(yè)的發(fā)展趨勢以及公司數(shù)據(jù)化轉(zhuǎn)型的要求,基于打造數(shù)字綜合物流服務(wù)的戰(zhàn)略規(guī)劃,我們也建立了一套比較成熟的數(shù)據(jù)治理體系,主要包括戰(zhàn)略、機(jī)制、專題和平臺(tái)等等方面。
(1)機(jī)制層面
公司近年陸續(xù)組建了順應(yīng)數(shù)字化團(tuán)隊(duì)協(xié)作模式的組織架構(gòu),基于一把手工程思路,專門成立了數(shù)字化支撐團(tuán)隊(duì),并在各業(yè)務(wù)部門設(shè)置專門的崗位,清晰明確了的各部門的數(shù)據(jù)管理責(zé)任; 同時(shí)為規(guī)范推行數(shù)字化工作開展,有章可循,我們IT部門組織各業(yè)務(wù)部門共同編寫數(shù)據(jù)管理政策、制度、細(xì)則、手冊共4個(gè)梯度的數(shù)據(jù)管理辦法文檔,目前正在推廣執(zhí)行中。
(2)專題方面
聚焦數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、元數(shù)據(jù)管理、安全及生命周期等一共8個(gè)專項(xiàng)服務(wù),全面提供數(shù)據(jù)支撐業(yè)務(wù);在具體實(shí)施層面,我們會(huì)圍繞“盤”、“規(guī)”、“治”、“用”四個(gè)方面展開。
專題主要包括我們經(jīng)常會(huì)提到的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、模型、主數(shù)據(jù)等八大塊內(nèi)容。
(3)平臺(tái)層面
數(shù)據(jù)治理離不開平臺(tái)的支撐, 公司也通過自研包括元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、大數(shù)據(jù)等平臺(tái)等來支撐治理工作的展開。
數(shù)據(jù)治理工作需要組織架構(gòu)來保證。在管理層面有數(shù)據(jù)治理委員會(huì),數(shù)據(jù)管理辦公室負(fù)責(zé)實(shí)際開展工作,主要負(fù)責(zé)標(biāo)準(zhǔn)規(guī)范的制定、協(xié)調(diào)某些需要升級(jí)的數(shù)據(jù)質(zhì)量問題。接下來的執(zhí)行層面有數(shù)據(jù)架構(gòu)組、數(shù)據(jù)質(zhì)量組等等,他們負(fù)責(zé)具體的治理工作。
上邊提到數(shù)據(jù)治理主要包括八大塊內(nèi)容,實(shí)際工作中每一塊我們都有涉及。由于時(shí)間關(guān)系,重點(diǎn)挑其中三塊:數(shù)據(jù)質(zhì)量、模型、元數(shù)據(jù)做介紹。
1. 數(shù)據(jù)質(zhì)量治理
數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理的核心,也是基礎(chǔ)工作。數(shù)據(jù)質(zhì)量通常會(huì)從及時(shí)性、真實(shí)性、唯一性、完整性、有效性、一致性等六個(gè)維度來衡量。
日常工作中涉及到數(shù)據(jù)質(zhì)量的問題通常會(huì)有數(shù)據(jù)重復(fù)、波動(dòng)值過大、異常值、操作不規(guī)范、數(shù)據(jù)未采集等。
舉一個(gè)實(shí)際工作中遇到的運(yùn)單掃描的例子。在收、發(fā)、到、派、簽的整個(gè)環(huán)節(jié),一般是要求都要業(yè)務(wù)人員都要掃描,但實(shí)際操作可能不規(guī)范導(dǎo)致某些掃描環(huán)節(jié)缺失,那就會(huì)導(dǎo)致運(yùn)單的路由軌跡不準(zhǔn)確,進(jìn)而影響到數(shù)據(jù)分析。
種種數(shù)據(jù)質(zhì)量問題會(huì)引起業(yè)務(wù)方對(duì)數(shù)據(jù)不信任、無法做出正確決策、不能精細(xì)化運(yùn)營等問題,這就需要有一套數(shù)據(jù)質(zhì)量解決方案。我們的方案包括四方面:
第一,數(shù)據(jù)質(zhì)量問題發(fā)現(xiàn)。借助數(shù)據(jù)質(zhì)量管理平臺(tái),對(duì)數(shù)據(jù)從入庫到后續(xù)加工的整個(gè)鏈路進(jìn)行監(jiān)控,來發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)、開發(fā)加工過程中的一系列問題。另外還需要通過下游使用數(shù)據(jù)的環(huán)節(jié)來發(fā)現(xiàn)一些深層次的數(shù)據(jù)質(zhì)量問題,如通過業(yè)務(wù)專題分析來發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題。之后再以業(yè)務(wù)驅(qū)動(dòng)的方式推動(dòng)數(shù)據(jù)質(zhì)量問題的解決。
第二,評(píng)估分析。主要是分析問題產(chǎn)生的原因。在解決問題的時(shí)候不能僅停留在表象,需要分析問題產(chǎn)生的根本原因,從源頭解決數(shù)據(jù)質(zhì)量問題。當(dāng)評(píng)估數(shù)據(jù)質(zhì)量問題需不需要去解決時(shí),還需要考慮治理成本和收益。
第三,數(shù)據(jù)質(zhì)量問題的解決。數(shù)據(jù)質(zhì)量問題通常來說會(huì)考慮從業(yè)務(wù)、技術(shù)、流程等方面去考慮推動(dòng)解決。
第四,數(shù)據(jù)質(zhì)量驗(yàn)收。即驗(yàn)證相關(guān)問題是否得到解決。
對(duì)于數(shù)據(jù)質(zhì)量的監(jiān)控,主要包括三個(gè)環(huán)節(jié):
第一,結(jié)合數(shù)據(jù)質(zhì)量衡量的六個(gè)維度及日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,配置相關(guān)規(guī)則。
第二,在數(shù)據(jù)加工的各個(gè)環(huán)節(jié)設(shè)置檢查點(diǎn),比如從 ODS 到 DW,從 DW 到 DM 等環(huán)節(jié)。如在 ODS 的檢查點(diǎn)設(shè)置中,可能會(huì)包括數(shù)據(jù)源抽取記錄的檢查;在基礎(chǔ)層會(huì)有空值、編碼值、一致性、重復(fù)性等問題的檢查 。
第三,輸出異常結(jié)果,進(jìn)行告警處理。
看一個(gè)具體的監(jiān)控案例。當(dāng)用數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)對(duì)一張表進(jìn)行監(jiān)控時(shí),我們可以選擇配置相關(guān)規(guī)則,可以直接采用預(yù)置的規(guī)則模版,也可以自定義規(guī)則。也可以設(shè)置檢查規(guī)則的屬性,比如是強(qiáng)規(guī)則還是弱規(guī)則,此外對(duì)告警的屬性也可以進(jìn)行設(shè)置。規(guī)則配置完成以后在實(shí)際檢測過程中,如果某個(gè)檢測規(guī)則違反了強(qiáng)規(guī)則,則其會(huì)阻斷下游任務(wù)的執(zhí)行。
告警升級(jí)機(jī)制方面,強(qiáng)規(guī)則一般會(huì)提供電話告警。如果說由于疏忽或其他情況導(dǎo)致任務(wù)負(fù)責(zé)人未及時(shí)處理,那么會(huì)升級(jí)到leader來推進(jìn)問題的解決。
告警信息是點(diǎn)對(duì)點(diǎn),我們對(duì)告警信息會(huì)進(jìn)行聚合,形成質(zhì)量全貌信息。比如每天早上來上班,我就可以打開質(zhì)量全貌信息,看一下當(dāng)天執(zhí)行了多少檢查規(guī)則,有多少是有問題的。如果有問題可以繼續(xù)分辨哪些是真有問題,哪些是沒問題,有問題的是否已經(jīng)解決。如果檢查規(guī)則設(shè)置不合理,我們會(huì)進(jìn)行優(yōu)化,逐漸使得告警規(guī)則更準(zhǔn)確,形成質(zhì)量監(jiān)控全面、準(zhǔn)確的閉環(huán)。
還有一些深層次的數(shù)據(jù)質(zhì)量問題可能通過我們常規(guī)的檢查手段并不一定能發(fā)現(xiàn),這時(shí)就需要借助下游數(shù)據(jù)使用來解決,一般我們會(huì)結(jié)合業(yè)務(wù)專題分析推動(dòng)數(shù)據(jù)治理。在專題分析過程中,可能會(huì)發(fā)現(xiàn)種種數(shù)據(jù)質(zhì)量問題,比如數(shù)據(jù)未線上化、數(shù)據(jù)采集不完整等,之后我們會(huì)針對(duì)具體問題制定有效措施,同業(yè)務(wù)方、業(yè)務(wù)系統(tǒng)的產(chǎn)品研發(fā)共同把問題解決。
以業(yè)務(wù)驅(qū)動(dòng)方式推進(jìn)數(shù)據(jù)質(zhì)量建設(shè)取得了若干成果:
完善業(yè)務(wù)系統(tǒng)功能
2. 數(shù)據(jù)模型治理
簡要先介紹一些快遞的業(yè)務(wù)特點(diǎn)??爝f屬于服務(wù)性行業(yè),非常注重運(yùn)營,最主要關(guān)注的是時(shí)效、服務(wù)、質(zhì)量三方面。行業(yè)的情況會(huì)導(dǎo)致數(shù)據(jù)有如下特征:
核心運(yùn)單流程生命周期短則 1 天,長則 3-5 天,異常單可能會(huì)更長。財(cái)務(wù)類周期結(jié)算長,涉及政策財(cái)經(jīng)類數(shù)據(jù)計(jì)算回刷時(shí)間 1~3 個(gè)月;
運(yùn)單核心流程從下單到簽收涉及業(yè)務(wù)流程較為復(fù)雜及運(yùn)單攬派簽主流程外,還涉及結(jié)算、客服等額外流程;
數(shù)據(jù)由不同業(yè)務(wù)對(duì)象如快遞員、客服、分級(jí)員等多角色產(chǎn)生,非常依賴他們操作的規(guī)范性。另外,我們?nèi)站鶈瘟科咔f,每一單都需要經(jīng)過收發(fā)到派簽的操作,數(shù)據(jù)量級(jí)可想而知;
當(dāng)前快遞行業(yè)競爭激烈,在此背景下更需要精細(xì)化運(yùn)營,因此對(duì)數(shù)據(jù)依賴非常強(qiáng)。公司通過數(shù)據(jù)化運(yùn)營進(jìn)行成本管控,運(yùn)單時(shí)效管控,服務(wù)質(zhì)量管控,已成為公司日常運(yùn)營常態(tài),因此對(duì)數(shù)據(jù)準(zhǔn)確性,時(shí)效性要求很高。
接下來介紹一下我們數(shù)倉的當(dāng)前現(xiàn)狀。首先,我們按照業(yè)務(wù)板塊劃分出運(yùn)單、財(cái)經(jīng)、客服等 27 個(gè)一級(jí)主題域。其次,核心數(shù)據(jù)集中在 DW 和 DM 層,為下游提供通用的公共服務(wù)。第三,當(dāng)前我們是 PB 級(jí)數(shù)據(jù)規(guī)模,計(jì)算任務(wù) 1 萬多,通過上千臺(tái)集群的規(guī)模支撐了集團(tuán)全領(lǐng)域業(yè)務(wù)線。
隨著業(yè)務(wù)持續(xù)發(fā)展,項(xiàng)目也在快速迭代。數(shù)據(jù)建設(shè)不規(guī)范等方面的原因?qū)е铝藦?fù)用性不高、時(shí)效不穩(wěn)定等,自然而然也會(huì)引起資源危機(jī)等問題。
為此我們制定了一整套的方案,主要包括三方面:
第一,制定規(guī)范。制定諸如開發(fā)規(guī)范、分層使用規(guī)范,并嚴(yán)格要求各類數(shù)據(jù)開發(fā)和使用團(tuán)隊(duì)遵守;
第二,過程管控。以需求為驅(qū)動(dòng),將設(shè)計(jì)、開發(fā)、上線等數(shù)據(jù)建設(shè)各個(gè)階段進(jìn)行過程管控;
第三,模型分級(jí)。根據(jù)應(yīng)用的重要程度來反推、梳理哪些是重要的模型和應(yīng)用,將重要性高的模型和應(yīng)用納入重點(diǎn)治理范圍,重點(diǎn)關(guān)注他們的復(fù)用性、實(shí)效性。
復(fù)用度治理方面,主要包括三塊:
第一,流程規(guī)范的制定。我們會(huì)制定相關(guān)規(guī)范來要求數(shù)據(jù)參與者都遵守。通過制定規(guī)范,應(yīng)用開發(fā)團(tuán)隊(duì)和數(shù)倉團(tuán)隊(duì)進(jìn)行分工,且在業(yè)務(wù)需求評(píng)審環(huán)節(jié)要求數(shù)倉團(tuán)隊(duì)介入,可以更早地評(píng)估是否需要設(shè)計(jì)相關(guān)模型來支持應(yīng)用團(tuán)隊(duì)的數(shù)據(jù)開發(fā);
第二,過程線上管控。在數(shù)據(jù)使用、模型設(shè)計(jì)、任務(wù)上線等環(huán)節(jié)都進(jìn)行線上管控,由leader審批把關(guān);
第三,核心數(shù)據(jù)識(shí)別。最主要是識(shí)別出四類核心數(shù)據(jù),最主要關(guān)注核心模型和核心應(yīng)用,并對(duì)這類數(shù)據(jù)我們重點(diǎn)關(guān)注、重點(diǎn)保障,優(yōu)先保障其核心鏈路上數(shù)據(jù)的準(zhǔn)確性和及時(shí)性。
在數(shù)據(jù)復(fù)用度治理方面還需要關(guān)注時(shí)效、引用度、需求響應(yīng)及時(shí)性之間的平衡問題。我們不能為了提高模型的復(fù)用度就任意的增加維度、指標(biāo),否則可能會(huì)導(dǎo)致下游應(yīng)用產(chǎn)出障礙的問題。也不能說某個(gè)指標(biāo)下游飲用不多就增加到寬表中來,一定要考慮平衡性的問題。
除此之外,我們還需要考慮響應(yīng)的及時(shí)性。在流程上我們希望盡量做到規(guī)范,希望應(yīng)用層都飲用模型、寬表的數(shù)據(jù)。在實(shí)際工作中,有時(shí)為了保證“業(yè)務(wù)需求第一”的原則,有可能允許應(yīng)用層先從明細(xì)層取數(shù)進(jìn)行開發(fā),模型同步進(jìn)行迭代優(yōu)化,后續(xù)再讓應(yīng)用層把需求切換回來。
數(shù)據(jù)模型的治理也達(dá)成了一些成效,主要包括四個(gè)方面:
第一,研發(fā)效能更密集,核心領(lǐng)域?qū)挶硎褂谜急容^高,數(shù)據(jù)研發(fā)時(shí)效比原來提效不少。
第二,數(shù)據(jù)口徑更一致。
第三,資源整體可控。
第四,時(shí)效更加穩(wěn)定,計(jì)算任務(wù)在 6 點(diǎn)前可以完成總體的 80%,關(guān)鍵任務(wù)完成100%。日常任務(wù)時(shí)效能達(dá)到業(yè)務(wù)期望。
3. 元數(shù)據(jù)治理
我們的數(shù)倉中有上萬張表,無論是對(duì)數(shù)據(jù)開發(fā)者還是業(yè)務(wù)使用方,都會(huì)面臨無從下手的情況。他們在日常使用過程中的痛點(diǎn)最主要可以歸納為有什么、在哪里、怎么用三類。
比如一個(gè)運(yùn)單,有收件人、發(fā)件人、運(yùn)載軌跡、費(fèi)用等各種信息,但具體有哪些表就不是很清楚了。在實(shí)際的工作中,分析師也經(jīng)常會(huì)問有沒有哪塊的數(shù)據(jù),在哪里之類等等。哪怕是找到表之后,也會(huì)疑惑數(shù)據(jù)是如何加工的,如果要用的話有哪些限制條件等等問題。
基于對(duì)現(xiàn)狀的梳理及現(xiàn)階段要達(dá)成的目標(biāo),我們希望能實(shí)現(xiàn)數(shù)據(jù)表、報(bào)表、數(shù)據(jù)指標(biāo)的聯(lián)動(dòng)解鎖,所以最主要的就是梳理這三方面的信息。
數(shù)據(jù)表我們最關(guān)心的可能是主題、子主題、概要信息等。我們根據(jù)業(yè)務(wù)現(xiàn)狀及未來發(fā)展趨勢,對(duì)主題進(jìn)行調(diào)整優(yōu)化,細(xì)化了二級(jí)主題,然后對(duì)這些表分門別類地進(jìn)行梳理。概要信息主要包括表的處理邏輯、重要字段等信息。
我們可能不僅僅只是梳理我們大數(shù)據(jù)產(chǎn)品的一些報(bào)表,也包含在業(yè)務(wù)系統(tǒng)中的各種報(bào)表。因?yàn)樵谌粘V?,?jīng)常會(huì)遇到業(yè)務(wù)同學(xué)問業(yè)務(wù)系統(tǒng)中的某個(gè)報(bào)表對(duì)應(yīng)的后臺(tái)表是哪個(gè)的問題,他們更希望可以把表拿過來后再加工,或者說做一些統(tǒng)計(jì)分析等等。
通過對(duì)這些報(bào)表的梳理,整理出系統(tǒng)、統(tǒng)計(jì)規(guī)則、主要用途、負(fù)責(zé)產(chǎn)品經(jīng)理、對(duì)應(yīng)數(shù)據(jù)表等等信息。
在指標(biāo)信息梳理方面,也做了相關(guān)的信息梳理。
基于上述的梳理,我們可以依賴元數(shù)據(jù)應(yīng)用平臺(tái)按主題了解數(shù)據(jù)全貌。
也可以按表、報(bào)表、指標(biāo)等對(duì)象對(duì)數(shù)據(jù)進(jìn)行檢索,并實(shí)現(xiàn)表、報(bào)表、指標(biāo)的聯(lián)動(dòng)。如通過對(duì)某個(gè)表名的查詢,可以得到概要信息、處理邏輯、重要字段的說明,大致了解這張表有什么用。且不光可以呈現(xiàn)業(yè)務(wù)元信息,還可以呈現(xiàn)一些技術(shù)元信息,如消耗的計(jì)算資源、存儲(chǔ)資源、血緣關(guān)系等等。
除了上述信息,元數(shù)據(jù)應(yīng)用還可以提供包括數(shù)據(jù)冷熱度分析、任務(wù)治理等內(nèi)容。
關(guān)于未來的規(guī)劃,主要分為三個(gè)方向。
第一,結(jié)合業(yè)務(wù)發(fā)展重點(diǎn),持續(xù)開展數(shù)據(jù)質(zhì)量治理,繼續(xù)提升數(shù)據(jù)質(zhì)量;
第二,基于元數(shù)據(jù),從資源消耗、價(jià)值等方面實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估;
第三,聯(lián)動(dòng)業(yè)務(wù)系統(tǒng),開展數(shù)據(jù)架構(gòu)治理,后續(xù)達(dá)到企業(yè)整體數(shù)據(jù)架構(gòu)的統(tǒng)一。
Q1:高管、運(yùn)營同學(xué)關(guān)注的報(bào)表需要固定在早上幾點(diǎn)之前產(chǎn)出,他們依賴于此作相關(guān)決策。像這種關(guān)鍵任務(wù)的達(dá)成過程中是否有遇到過比較嚴(yán)重的問題,可否分享一些踩坑實(shí)踐?
A1:原因有幾方面。一,之前資源沒有分隊(duì)列的時(shí)候,確實(shí)出現(xiàn)過資源爭搶等情況導(dǎo)致關(guān)鍵任務(wù)出現(xiàn)延遲等情況,現(xiàn)在已通過將資源劃分隊(duì)列來解決。二,數(shù)據(jù)引擎對(duì)實(shí)效性的影響。通過從原來的 Hive 慢慢將任務(wù)切換到 Spark 來逐步解決。三,模型的復(fù)用性治理,不能為了模型的復(fù)用性把所有東西都加到一個(gè)模型中,這時(shí)就需要做一些模型拆分、增加冗余度的工作。
Q2:中通在數(shù)據(jù)標(biāo)準(zhǔn)落地方面做了什么措施,怎樣保證制定好的數(shù)據(jù)標(biāo)準(zhǔn)可以得到有效遵守和執(zhí)行?
A2:在數(shù)據(jù)標(biāo)準(zhǔn)落地方面,主要做了模型標(biāo)準(zhǔn)化、指標(biāo)標(biāo)準(zhǔn)化等,如果保證制定好的數(shù)據(jù)標(biāo)準(zhǔn)可以得到有效遵守和執(zhí)行確實(shí)需要值得關(guān)注,首先需要流程來規(guī)范,同時(shí)也需要借助工具層面來保障。
Q3:在數(shù)據(jù)治理方面,構(gòu)建類似數(shù)據(jù)地圖一樣的模型對(duì)數(shù)據(jù)業(yè)務(wù)的提升是否特別明顯?這樣的數(shù)據(jù)地圖模型對(duì)下游用戶來說,存在一定的學(xué)習(xí)成本,那么成本和對(duì)他的幫助是個(gè)怎樣的關(guān)系?
A3:數(shù)據(jù)地圖更多的是降低數(shù)據(jù)使用門檻,讓使用方比較直觀、一目了然的知道我們到底有哪些數(shù)據(jù)。使用成本相對(duì)來說是比較低的,比如每一個(gè)主題域包括哪一類的數(shù)據(jù),有什么用途,我們相對(duì)都有比較明確的解釋,比較直觀的了解到這個(gè)主題是存放了哪些數(shù)據(jù)。
義烏漲完廣州漲 通達(dá)兔等快遞全年或增收數(shù)十億!
1430 閱讀多多買菜:悶聲增長
1403 閱讀歐盟《關(guān)鍵原材料法案》:全球資源戰(zhàn)略格局的重大轉(zhuǎn)變及應(yīng)對(duì)策略
1185 閱讀又出傷人事件!買A退B、簽收訛詐、押金不退……快遞小哥如何避坑?
1134 閱讀18天抵歐!寧波舟山港迎來史上最快中歐航線
1155 閱讀2025年1-6月港口貨物、集裝箱吞吐量
1058 閱讀傳網(wǎng)絡(luò)貨運(yùn)“獎(jiǎng)補(bǔ)”全面暫停,誰破防了?
977 閱讀興滿物流華北首個(gè)樞紐落戶普洛斯?jié)蠄@區(qū),開啟零擔(dān)物流新格局
951 閱讀國家鐵路集團(tuán)950億成立新藏鐵路公司
736 閱讀2025年7月中國快遞發(fā)展指數(shù)報(bào)告
695 閱讀