近日,聯(lián)通云智手機(jī)開(kāi)放了“手機(jī)自動(dòng)駕駛”功能的大規(guī)模商用,實(shí)現(xiàn)“一句話操控手機(jī)App”的功能。該功能背后的核心能力,是中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院自研的元景屏幕操控智能體和元景多模態(tài)GUI模型。憑借元景多模態(tài)GUI模型對(duì)屏幕內(nèi)容的精確理解和操控任務(wù)的準(zhǔn)確規(guī)劃,元景屏幕操控智能體為手機(jī)、PAD、電腦等多類(lèi)硬件的App自動(dòng)操控提供了有力支撐。
元景屏幕操控智能體
元景屏幕操控智能體能夠像人類(lèi)一樣自動(dòng)理解和操作智能設(shè)備的屏幕界面。用戶只需要簡(jiǎn)單地輸入一個(gè)指令,比如“打開(kāi)攜程預(yù)定車(chē)票”、“QQ音樂(lè)播放音樂(lè)”、或者“使用高德打車(chē)到指定位置”,屏幕操控智能體就能自動(dòng)完成一系列復(fù)雜的操作,無(wú)需用戶手動(dòng)點(diǎn)擊、輸入或切換應(yīng)用,大大節(jié)省了時(shí)間和精力。
聯(lián)通云智手機(jī)“自動(dòng)播放”功能演示視頻截圖(QQ音樂(lè))
元景屏幕操控智能體秘訣就在下圖中。當(dāng)用戶發(fā)出指令后,屏幕操控智能體會(huì)先對(duì)當(dāng)前屏幕進(jìn)行“拍照”,然后將這張“照片”和用戶的指令一起發(fā)送給元景多模態(tài)GUI模型。模型會(huì)分析當(dāng)前屏幕上的各種元素(比如按鈕、文本框、圖標(biāo)等)、理解用戶的需求,并規(guī)劃出接下來(lái)的操作步驟,比如點(diǎn)擊某個(gè)按鈕、輸入文字、滑動(dòng)屏幕等。然后,智能體就會(huì)按照這些步驟準(zhǔn)確地操作設(shè)備。
元景屏幕操控智能體架構(gòu)
如果屏幕操控智能體在自動(dòng)操作過(guò)程中遇到需要輸入敏感信息的環(huán)節(jié),比如登錄賬號(hào)、輸入密碼或者支付環(huán)節(jié),其還會(huì)暫停操作并提醒用戶手動(dòng)確認(rèn),以確保用戶的隱私和安全。在用戶完成輸入后,智能體會(huì)繼續(xù)自動(dòng)操作,直至用戶的操作指令執(zhí)行完畢。
以下視頻展示了元景屏幕操控智能體在手機(jī)上完成“打開(kāi)攜程,幫我預(yù)定9月10日從成都到北京的飛機(jī)票,選擇07:55出發(fā)的那趟航班。”這一任務(wù)的工作流程:智能體會(huì)基于當(dāng)前屏幕截圖和用戶指令,逐步模擬人類(lèi)操作手機(jī),直到到達(dá)支付界面,提醒用戶支付。
聯(lián)通云智手機(jī)“攜程訂飛機(jī)票”步驟演示視頻截圖
元景屏幕操控智能體使得各類(lèi)智能設(shè)備的操控操作變得更加簡(jiǎn)單,尤其對(duì)老人、兒童等對(duì)智能設(shè)備操作不太熟悉的群體,提供了更加便利的操作方式。比如,老人想給遠(yuǎn)在他鄉(xiāng)的孩子發(fā)一條信息,只需要說(shuō)“給兒子發(fā)個(gè)消息,說(shuō)我想他了”,智能體就能自動(dòng)打開(kāi)消息應(yīng)用,輸入文字并發(fā)送;孩子想聽(tīng)一首歌,只需要說(shuō)“播放周杰倫的《稻香》”,智能體就能自動(dòng)找到歌曲并播放。對(duì)于上班族來(lái)說(shuō),它也能大大提升工作效率。比如需要快速完成各類(lèi)申請(qǐng)、信息查詢、訂票、點(diǎn)外賣(mài)等操作時(shí),都可以通過(guò)一句話的指令自動(dòng)完成。
元景多模態(tài)GUI模型
作為元景屏幕操控智能體的核心,元景多模態(tài)GUI模型基于自研的創(chuàng)新復(fù)合視覺(jué)編碼模塊和元景語(yǔ)言模型構(gòu)建,具備對(duì)多種屏幕內(nèi)容的精確理解和多步復(fù)雜操作任務(wù)的高效準(zhǔn)確規(guī)劃能力,其中,復(fù)合視覺(jué)模塊融合了CNN(ConvNext)和ViT(Siglip、InternViT)兩類(lèi)視覺(jué)編碼器,能夠在捕獲圖像細(xì)節(jié)以及空間特征的同時(shí),全面理解圖像全局信息,從而實(shí)現(xiàn)了屏幕內(nèi)容的魯棒視覺(jué)表征。
同時(shí),為了支持動(dòng)態(tài)分辨率輸入,復(fù)合視覺(jué)編碼模塊除了塊內(nèi)的位置編碼外,還對(duì)每個(gè)patch之間添加2D圖像位置編碼,從而加強(qiáng)了GUI模型對(duì)位置信息的感知。
元景多模態(tài)GUI模型架構(gòu)
元景多模態(tài)GUI模型使用了大量屏幕控制相關(guān)的識(shí)別定位和多步任務(wù)規(guī)劃圖文數(shù)據(jù),覆蓋了不同操作系統(tǒng)的應(yīng)用、網(wǎng)頁(yè)、系統(tǒng)設(shè)置等界面,使得模型在準(zhǔn)確理解用戶輸入文本指令的同時(shí),能夠準(zhǔn)確識(shí)別和定位屏幕上的各種圖形和界面元素,并規(guī)劃出復(fù)雜的多步操作任務(wù),就像擁有一雙“火眼金睛”和一個(gè)“大腦”。
在模型訓(xùn)練方面,采用了GPRO進(jìn)行自適應(yīng)的強(qiáng)化學(xué)習(xí)訓(xùn)練,進(jìn)一步提升了交互決策的準(zhǔn)確率和泛化能力。在業(yè)界權(quán)威的GUI模型評(píng)測(cè)基準(zhǔn)ScreenSpot-V2上,元景多模態(tài)GUI模型得分90.5%,排名前三,接近人類(lèi)專(zhuān)家水平。
元景多模態(tài)GUI模型在ScreenSpot-V2基準(zhǔn)上排名前三
為盡量縮短屏幕操控任務(wù)的整體時(shí)長(zhǎng),元景多模態(tài)GUI模型在多步推理速度方面也進(jìn)行了大量的優(yōu)化。
首先,在不同任務(wù)的操控邏輯上,通過(guò)優(yōu)化操作路徑進(jìn)行了整體執(zhí)行效率的提升。相比傳統(tǒng)模型“逐步試探式”的指令鏈條,我們能夠基于上下文理解,智能選擇更少、更準(zhǔn)、更優(yōu)的操作步驟,規(guī)避冗余和重復(fù)指令,確保以短路徑完成任務(wù)。這就像為任務(wù)規(guī)劃一條既快捷又高質(zhì)量的“智能駕駛路線”,顯著提升整體操作流暢度和用戶體驗(yàn)。
同時(shí),團(tuán)隊(duì)通過(guò)采取模型優(yōu)化、推理加速等方式,進(jìn)一步提升了模型的推理效率,使模型的整體響應(yīng)速度較業(yè)界主流模型提升超過(guò)50%。
當(dāng)前,中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院自研的元景屏幕操控智能體和元景多模態(tài)GUI模型已支持主流App的操控,涵蓋社交、娛樂(lè)、出行、購(gòu)物、信息服務(wù)等常見(jiàn)使用場(chǎng)景。針對(duì)企業(yè)專(zhuān)屬App,其也體現(xiàn)了強(qiáng)大的通用性和適配能力,當(dāng)前已支持多個(gè)企業(yè)內(nèi)部App的自動(dòng)操控,并覆蓋了手機(jī)、電腦、車(chē)載設(shè)備等多類(lèi)終端的不同操作系統(tǒng)。
未來(lái),它還將支持企業(yè)ERP系統(tǒng)、工業(yè)控制系統(tǒng)等復(fù)雜業(yè)務(wù)環(huán)境的自動(dòng)操控,進(jìn)一步提升跨平臺(tái)、定制化應(yīng)用的智能化水平,讓各類(lèi)智能設(shè)備的操作更加高效、便捷與安全。作為多模共生的元景模型家族的重要組成部分,元景多模態(tài)模型將為更多行業(yè)場(chǎng)景提供標(biāo)準(zhǔn)化、模塊化的智能交互解決方案,推動(dòng)多模態(tài)AI真正走進(jìn)千行百業(yè),助力行業(yè)數(shù)字化轉(zhuǎn)型提質(zhì)增效。
