在人工智能技術(shù)飛速發(fā)展的今天,通用人工智能(AGI)的實(shí)現(xiàn)路徑成為業(yè)界探索的核心。作為該領(lǐng)域的先鋒力量,毫末智行旗下的賀翔團(tuán)隊(duì)推出的DriveGPT,正以其創(chuàng)新的技術(shù)架構(gòu),將“通用感知”與“通用認(rèn)知”推向新的高度,為實(shí)現(xiàn)“萬(wàn)物識(shí)別”和整合“世界知識(shí)”的智能服務(wù)奠定了堅(jiān)實(shí)基礎(chǔ),深刻影響著軟件和信息技術(shù)服務(wù)產(chǎn)業(yè)的未來(lái)格局。
一、 DriveGPT:通用感知的實(shí)現(xiàn)與“萬(wàn)物識(shí)別”的突破
傳統(tǒng)的AI感知系統(tǒng)多針對(duì)特定場(chǎng)景、特定對(duì)象進(jìn)行優(yōu)化,存在場(chǎng)景泛化能力弱、長(zhǎng)尾問(wèn)題處理難的瓶頸。DriveGPT的核心突破之一,在于其致力于構(gòu)建“通用感知”能力。它通過(guò)超大規(guī)模的多模態(tài)預(yù)訓(xùn)練模型,融合了視覺(jué)、激光雷達(dá)、毫米波雷達(dá)等多種傳感器的海量數(shù)據(jù),在統(tǒng)一的模型框架下進(jìn)行學(xué)習(xí)。這種架構(gòu)使得模型能夠理解更廣泛、更復(fù)雜的物理世界信號(hào),而不局限于預(yù)先定義的有限類別。
“萬(wàn)物識(shí)別”正是這種通用感知能力的直觀體現(xiàn)。它意味著系統(tǒng)能夠?qū)﹂_放世界中前所未見(jiàn)的物體、動(dòng)態(tài)變化的場(chǎng)景進(jìn)行理解和分類,而不僅僅是識(shí)別訓(xùn)練集中已有的車輛、行人、交通標(biāo)志。例如,面對(duì)道路上突然出現(xiàn)的非標(biāo)準(zhǔn)障礙物、特殊的天氣現(xiàn)象、復(fù)雜的施工區(qū)域等邊緣案例,DriveGPT能夠基于其深厚的物理世界理解基礎(chǔ),進(jìn)行合理的推斷與識(shí)別,極大提升了智能系統(tǒng)(尤其是自動(dòng)駕駛系統(tǒng))在真實(shí)復(fù)雜環(huán)境中的魯棒性和安全性。這為智能終端從“功能機(jī)”向“智能體”的演進(jìn)提供了關(guān)鍵的感知基石。
二、 通用認(rèn)知的構(gòu)建與“世界知識(shí)”的集成
僅有精準(zhǔn)的感知還不足以實(shí)現(xiàn)高級(jí)智能。真正的智能體需要具備理解、推理、規(guī)劃和決策的“認(rèn)知”能力。DriveGPT的另一大貢獻(xiàn)是推動(dòng)“通用認(rèn)知”的發(fā)展。它不僅僅是一個(gè)感知模型,更是一個(gè)具備強(qiáng)大推理能力的認(rèn)知引擎。通過(guò)引入基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)、思維鏈(Chain-of-Thought)等技術(shù),模型學(xué)會(huì)了將感知信息與抽象知識(shí)、行為邏輯相關(guān)聯(lián)。
這使得DriveGPT能夠整合“世界知識(shí)”——包括但不限于交通規(guī)則、物理定律、社會(huì)常識(shí)、地理信息乃至人類駕駛行為習(xí)慣等。例如,當(dāng)系統(tǒng)感知到前方有校車停靠時(shí),它不僅能識(shí)別出“校車”這一物體,更能基于內(nèi)化的“世界知識(shí)”(如“校車附近可能有兒童突然闖入車道”)做出更謹(jǐn)慎的減速和避讓決策。這種將海量、多源的先驗(yàn)知識(shí)融入實(shí)時(shí)決策過(guò)程的能力,是構(gòu)建可信任、擬人化智能的關(guān)鍵。
三、 驅(qū)動(dòng)軟件與信息技術(shù)服務(wù)產(chǎn)業(yè)變革
DriveGPT所代表的通用感知與認(rèn)知技術(shù),正在深刻重塑軟件和信息技術(shù)服務(wù)產(chǎn)業(yè):
- 自動(dòng)駕駛即服務(wù)(ADaaS)的成熟:更通用、更可靠的感知與認(rèn)知系統(tǒng),降低了高級(jí)別自動(dòng)駕駛系統(tǒng)在不同區(qū)域、不同車型上部署的難度和成本,加速了自動(dòng)駕駛商業(yè)化落地的進(jìn)程,推動(dòng)了從單車智能到車路云一體化的服務(wù)模式演進(jìn)。
- 機(jī)器人產(chǎn)業(yè)的智能化升級(jí):其技術(shù)范式可遷移至各類移動(dòng)機(jī)器人(如配送、巡檢、清潔機(jī)器人)和具身智能領(lǐng)域,賦予機(jī)器人在非結(jié)構(gòu)化環(huán)境中自主作業(yè)的能力,拓展了機(jī)器人的應(yīng)用邊界。
- 新型智能軟件生態(tài)的孕育:基于通用AI能力的開發(fā)平臺(tái)和工具鏈將應(yīng)運(yùn)而生。開發(fā)者可以基于DriveGPT這類基礎(chǔ)模型,針對(duì)智慧交通、智慧城市、工業(yè)檢測(cè)、內(nèi)容審核等垂直領(lǐng)域,快速開發(fā)出具備強(qiáng)大理解和推理能力的應(yīng)用軟件,降低AI應(yīng)用開發(fā)門檻。
- 數(shù)據(jù)服務(wù)與知識(shí)服務(wù)的深化:訓(xùn)練和優(yōu)化此類大模型需要高質(zhì)量、多模態(tài)的數(shù)據(jù)以及結(jié)構(gòu)化的知識(shí)庫(kù)。這將催生對(duì)數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)生成、知識(shí)圖譜構(gòu)建與更新等專業(yè)信息技術(shù)服務(wù)的巨大需求,推動(dòng)產(chǎn)業(yè)鏈向更高價(jià)值環(huán)節(jié)攀升。
毫末賀翔DriveGPT的探索,標(biāo)志著人工智能正從解決單一任務(wù)的“窄AI”,向具備通用感知與認(rèn)知潛力的“強(qiáng)AI”邁出堅(jiān)實(shí)一步。它通過(guò)實(shí)現(xiàn)“萬(wàn)物識(shí)別”的感知泛化能力和集成“世界知識(shí)”的認(rèn)知深度,不僅為自動(dòng)駕駛提供了終極解決方案的可行路徑,更作為一項(xiàng)基礎(chǔ)性技術(shù),為整個(gè)軟件和信息技術(shù)服務(wù)產(chǎn)業(yè)開辟了全新的增長(zhǎng)空間和應(yīng)用想象。隨著技術(shù)的不斷迭代與生態(tài)的完善,由通用AI驅(qū)動(dòng)的智能服務(wù)將無(wú)處不在,深刻改變我們與物理世界及數(shù)字世界交互的方式。