前言
隨著AI技術(shù)的不斷成熟和廣泛應(yīng)用,已經(jīng)逐漸成為各行各業(yè)用來(lái)提升生產(chǎn)力的重要工具。貨拉拉作為互聯(lián)網(wǎng)物流科技企業(yè),過(guò)去幾年不斷深耕AI技術(shù),推動(dòng)物流行業(yè)的智能化發(fā)展,并在AI定價(jià)、AI營(yíng)銷、AI客服、AI安防等多個(gè)領(lǐng)域取得顯著成就。
盡管AI技術(shù)已廣泛應(yīng)用于貨拉拉的各大業(yè)務(wù)線,并顯著提升了運(yùn)營(yíng)效率,但在實(shí)際的AI模型開(kāi)發(fā)過(guò)程中,我們?nèi)悦媾R多重挑戰(zhàn):例如,如何加快模型的開(kāi)發(fā)和交付、提升算力資源利用率等。針對(duì)這些問(wèn)題,我們構(gòu)建了一套覆蓋數(shù)據(jù)處理、模型開(kāi)發(fā)、訓(xùn)練、部署、在線推理的全鏈路AI開(kāi)發(fā)服務(wù)體系,并通過(guò)算力資源的統(tǒng)籌管理,打造了一個(gè)低門檻、高性能的一站式云原生AI開(kāi)發(fā)平臺(tái)。
接下來(lái)將詳細(xì)介紹這些挑戰(zhàn)及其解決方案。
2
AI能力落地的挑戰(zhàn)
2.1
模型交付效率低
在技術(shù)發(fā)展初期,AI模型服務(wù)從需求提出,到模型開(kāi)發(fā)訓(xùn)練,再到交付上線的完整環(huán)節(jié)和流程如下圖所示:
模型生產(chǎn)交付流程復(fù)雜:整個(gè)流程涉及數(shù)據(jù)收集、處理、模型開(kāi)發(fā)、訓(xùn)練、部署等多個(gè)環(huán)節(jié),往往需要跨平臺(tái)操作實(shí)現(xiàn),增加了流程上的管理和協(xié)調(diào)的難度。
跨平臺(tái)導(dǎo)致的數(shù)據(jù)割裂:各環(huán)節(jié)和平臺(tái)之間的數(shù)據(jù)不共享,導(dǎo)致數(shù)據(jù)、代碼、模型文件需多次手動(dòng)拷貝傳輸,尤其是當(dāng)前大模型動(dòng)輒幾十G的大文件,增加了操作復(fù)雜性和出錯(cuò)風(fēng)險(xiǎn)。
環(huán)境配置無(wú)法跨平臺(tái)復(fù)用:多個(gè)平臺(tái)環(huán)節(jié)需要手動(dòng)搭建相同的算法模型運(yùn)行環(huán)境,重復(fù)工作多,拖慢整體進(jìn)度。
2.2
算力資源利用率低
AI應(yīng)用需要大量的算力資源,尤其是GPU資源,目前是由不同團(tuán)隊(duì)各自維護(hù)管理,缺乏統(tǒng)一的資源管理和協(xié)調(diào)能力;算力資源按照機(jī)器維度進(jìn)行分配,多機(jī)器之間算力資源使用率不均衡,整體資源利用率低;多模型服務(wù)共享同一節(jié)點(diǎn)的部署方式在一定程度上可以提升算力資源利用率,但是人工調(diào)度的方式,無(wú)法準(zhǔn)確的把控資源冗余、實(shí)時(shí)調(diào)整資源大小,所以資源利用率有很大的提升空間。
3
海豚平臺(tái)介紹
豚平臺(tái)是一款面向算法和工程團(tuán)隊(duì)而設(shè)計(jì)的低門檻、高可用的云原生AI開(kāi)發(fā)平臺(tái)。平臺(tái)集成了數(shù)據(jù)處理、模型開(kāi)發(fā)、訓(xùn)練、部署與在線推理等模型交付的核心能力,實(shí)現(xiàn)了數(shù)據(jù)、模型和服務(wù)的一站式閉環(huán),助力AI應(yīng)用在貨拉拉的快速落地。
平臺(tái)架構(gòu):
3.1
一站式AI開(kāi)發(fā)平臺(tái)
上圖展示了如何使用海豚平臺(tái)進(jìn)行一個(gè)模型交付的流程。算法工程師只需在一個(gè)平臺(tái)內(nèi)即可實(shí)現(xiàn)從數(shù)據(jù)準(zhǔn)備、模型開(kāi)發(fā)、訓(xùn)練到部署的模型交付全過(guò)程,并且模型的元信息貫穿AI開(kāi)發(fā)全生命周期,真正做到了一站式的云原生AI模型開(kāi)發(fā)。
3.1.1 分布式存儲(chǔ)
了解決各個(gè)環(huán)節(jié)之間數(shù)據(jù)(數(shù)據(jù)集、模型、代碼)互通共享的問(wèn)題,海豚平臺(tái)通過(guò)分布式存儲(chǔ),實(shí)現(xiàn)了平臺(tái)內(nèi)各環(huán)節(jié)直接勾選和使用相關(guān)數(shù)據(jù)的能力,無(wú)需反復(fù)的手動(dòng)上傳和拷貝,打通了各個(gè)環(huán)節(jié)之間的數(shù)據(jù)孤島。
個(gè)人工作目錄:
個(gè)人工作目錄下的文件,通過(guò)PVC文件掛載技術(shù),直達(dá)容器內(nèi)部;個(gè)人工作目錄下的文件僅自己可見(jiàn),并永久存儲(chǔ)。
模型訓(xùn)練代碼和數(shù)據(jù)集掛載:
同樣在模型訓(xùn)練時(shí)只需勾選需要的數(shù)據(jù)集和模型文件產(chǎn)出的掛載路徑,對(duì)應(yīng)的數(shù)據(jù)集將直接掛載至模型訓(xùn)練的容器內(nèi)部,同時(shí)模型訓(xùn)練后的模型文件將自動(dòng)存放至個(gè)人工作目錄下。
3.1.2 鏡像管理
在容器技術(shù)中,鏡像是生成和運(yùn)行容器的基礎(chǔ),其具有環(huán)境一致性、可移植性和版本控制等特點(diǎn)。海豚平臺(tái)通過(guò)使用容器+鏡像的能力,有效解決了模型交付流程中模型運(yùn)行環(huán)境重復(fù)搭建的問(wèn)題。
平臺(tái)內(nèi)置鏡像:
海豚平臺(tái)內(nèi)置了多種常見(jiàn)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大模型相關(guān)的的開(kāi)發(fā)和推理鏡像(如 Triton、TensorRT-llm、Vllm)
自定義鏡像:
同時(shí)平臺(tái)也支持算法工程師通過(guò)提交Dockerfile或者基于現(xiàn)有的鏡像添加依賴的方式構(gòu)建自定義鏡像。
3.1.3 模型一鍵部署
海豚平臺(tái)通過(guò) Deployment 實(shí)現(xiàn)模型服務(wù)的容器化部署,算法工程師只需配置模型的啟動(dòng)命令、申請(qǐng)適當(dāng)?shù)乃懔Y源,并選擇對(duì)應(yīng)的模型運(yùn)行鏡像環(huán)境,即可快速地完成模型服務(wù)的部署。同時(shí)面對(duì)突發(fā)流量,海豚平臺(tái)可一鍵完成快速的模型服務(wù)擴(kuò)縮容。
1. 發(fā)布配置
2. 調(diào)整算力資源
3. 選擇鏡像和版本
4. 擴(kuò)縮容
3.2
算力資源管理
3.2.1 算力資源池化
海豚平臺(tái)通過(guò)Kubernetes實(shí)現(xiàn)了算力資源統(tǒng)籌管理,根據(jù)不同的使用場(chǎng)景劃分了多個(gè)資源節(jié)點(diǎn)池,每個(gè)節(jié)點(diǎn)池支持多種類型的GPU機(jī)器,在實(shí)現(xiàn)算力資源統(tǒng)籌管理的同時(shí),還確保了開(kāi)發(fā)、訓(xùn)練和推理環(huán)節(jié)的資源物理隔離。
3.2.2 算力分配多樣化
多服務(wù)共用一張卡:針對(duì)業(yè)務(wù)小模型應(yīng)用場(chǎng)景,海豚平臺(tái)基于GPU共享技術(shù),實(shí)現(xiàn)了細(xì)粒度算力資源管理分配,支持最小128Mi顯存單位的申請(qǐng)和釋放。
單服務(wù)占用多張卡:針對(duì)大模型應(yīng)用場(chǎng)景,當(dāng)單張卡的顯存不足時(shí),海豚平臺(tái)支持通過(guò)分配多張顯卡支撐大顯存模型的部署。
3.2.3 算力資源自動(dòng)回收
模型開(kāi)發(fā)自動(dòng)釋放機(jī)制:在模型開(kāi)發(fā)過(guò)程中,用戶申請(qǐng)的算力資源存在閑置且未及時(shí)釋放的情況。為避免算力資源的浪費(fèi),平臺(tái)分配資源時(shí)限定了使用時(shí)長(zhǎng),到期未使用的情況下,平臺(tái)將自動(dòng)釋放這些閑置資源。
3.3
穩(wěn)定性建設(shè)
3.3.1 可觀測(cè)性
系統(tǒng)的可觀測(cè)性是指通過(guò)監(jiān)控、日志和鏈路追蹤等手段,幫助快速發(fā)現(xiàn)并定位問(wèn)題,為系統(tǒng)穩(wěn)定性保駕護(hù)航。海豚平臺(tái)通過(guò)統(tǒng)一收集和分析集群、模型服務(wù)、網(wǎng)關(guān)系統(tǒng)的監(jiān)控和日志數(shù)據(jù),快速感知異常問(wèn)題并及時(shí)通知負(fù)責(zé)人,確保問(wèn)題及時(shí)感知和處理。
集群監(jiān)控:
服務(wù)監(jiān)控:
3.3.2 高可用建設(shè)
4
海豚平臺(tái)應(yīng)用
4.1
通用場(chǎng)景解決能力
基于海豚平臺(tái),結(jié)合貨拉拉的內(nèi)部業(yè)務(wù)需求,我們整理并持續(xù)優(yōu)化了通用場(chǎng)景的 AI 解決方案。平臺(tái)對(duì)圖像檢測(cè)、自然語(yǔ)言處理、語(yǔ)音合成識(shí)別等常見(jiàn)的 AI 能力進(jìn)行了產(chǎn)品化封裝,業(yè)務(wù)方對(duì)這些能力無(wú)需再次開(kāi)發(fā)可直接快速接入應(yīng)用。
4.2
大模型應(yīng)用市場(chǎng)
隨著大模型技術(shù)在自然語(yǔ)言處理、智能問(wèn)答、文本和圖像生成等領(lǐng)域的廣泛應(yīng)用,技術(shù)門檻高、計(jì)算資源消耗大的問(wèn)題限制了其在各業(yè)務(wù)場(chǎng)景中的推廣和使用。針對(duì)這一痛點(diǎn),海豚平臺(tái)打造了大模型應(yīng)用市場(chǎng),集成了豐富的預(yù)訓(xùn)練模型,支持通用大模型的一站式快速部署與接入使用。
平臺(tái)還支持通過(guò)配置化方式進(jìn)行模型微調(diào)、訓(xùn)練和評(píng)估,簡(jiǎn)化了大模型在各業(yè)務(wù)場(chǎng)景的應(yīng)用流程,為其快速落地提供了強(qiáng)有力的支持。
5
海豚平臺(tái)未來(lái)規(guī)劃
海豚平臺(tái)已初步完成 AI 開(kāi)發(fā)平臺(tái)能力的搭建,并成功支持了貨拉拉內(nèi)部多個(gè)業(yè)務(wù)線的AI應(yīng)用,實(shí)現(xiàn)了 AI 能力在多業(yè)務(wù)場(chǎng)景下的快速落地。接下來(lái),我們將從以下幾個(gè)方面進(jìn)一步提升平臺(tái)能力:
業(yè)務(wù)賦能:擴(kuò)大 AI 能力在更多業(yè)務(wù)部門中的應(yīng)用場(chǎng)景,為貨拉拉各業(yè)務(wù)線提供智能化支持,全面提升業(yè)務(wù)效能。
算力資源提升:進(jìn)一步優(yōu)化按需分配機(jī)制,提升GPU算力利用率,實(shí)現(xiàn)多場(chǎng)景下算力資源的高效分配與使用。
大?;A(chǔ)設(shè)施完善:豐富開(kāi)源大模型應(yīng)用市場(chǎng),支持多樣化的模型訓(xùn)練與微調(diào)方式,提供更高性能的模型在線推理,為大模型的創(chuàng)新應(yīng)用提供更強(qiáng)大的支持與保障。
瑪氏中國(guó) | 2025年度國(guó)內(nèi)運(yùn)輸物流服務(wù)【冰淇淋業(yè)務(wù)】
3496 閱讀2025年京東物流貴州大件宅配、京東幫資源招商
1647 閱讀2025年京東物流-河北大件宅配、京東幫資源招商
1182 閱讀快運(yùn)網(wǎng)點(diǎn)的“跨境突破”:利潤(rùn)更高、增長(zhǎng)潛力大、協(xié)同增效
938 閱讀物流企業(yè),沒(méi)有效率的增長(zhǎng)就是在加速衰亡
888 閱讀【權(quán)威發(fā)布】2025年貨車司機(jī)從業(yè)狀況調(diào)查報(bào)告(第一部分)
856 閱讀什么樣的物流人,會(huì)越來(lái)越厲害?
821 閱讀支持99%歐洲國(guó)家互發(fā)快遞!菜鳥(niǎo)升級(jí)G2G泛歐3日達(dá)服務(wù)
838 閱讀為何有些物流人越混越差?
823 閱讀倉(cāng)庫(kù)設(shè)計(jì)干貨:選址、布局、設(shè)計(jì)、設(shè)施……
808 閱讀