久久精品午夜,99精品免费,精品国产区一区二区三区在线观看

近日，聯(lián)通云智手機(jī)開(kāi)放了“手機(jī)自動(dòng)駕駛”功能的大規(guī)模商用，實(shí)現(xiàn)“一句話操控手機(jī)App”的功能。該功能背后的核心能力，是中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院自研的元景屏幕操控智能體和元景多模態(tài)GUI模型。憑借元景多模態(tài)GUI模型對(duì)屏幕內(nèi)容的精確理解和操控任務(wù)的準(zhǔn)確規(guī)劃，元景屏幕操控智能體為手機(jī)、PAD、電腦等多類(lèi)硬件的App自動(dòng)操控提供了有力支撐。

元景屏幕操控智能體

元景屏幕操控智能體能夠像人類(lèi)一樣自動(dòng)理解和操作智能設(shè)備的屏幕界面。用戶只需要簡(jiǎn)單地輸入一個(gè)指令，比如“打開(kāi)攜程預(yù)定車(chē)票”、“QQ音樂(lè)播放音樂(lè)”、或者“使用高德打車(chē)到指定位置”，屏幕操控智能體就能自動(dòng)完成一系列復(fù)雜的操作，無(wú)需用戶手動(dòng)點(diǎn)擊、輸入或切換應(yīng)用，大大節(jié)省了時(shí)間和精力。

聯(lián)通云智手機(jī)“自動(dòng)播放”功能演示視頻截圖（QQ音樂(lè)）

元景屏幕操控智能體秘訣就在下圖中。當(dāng)用戶發(fā)出指令后，屏幕操控智能體會(huì)先對(duì)當(dāng)前屏幕進(jìn)行“拍照”，然后將這張“照片”和用戶的指令一起發(fā)送給元景多模態(tài)GUI模型。模型會(huì)分析當(dāng)前屏幕上的各種元素（比如按鈕、文本框、圖標(biāo)等）、理解用戶的需求，并規(guī)劃出接下來(lái)的操作步驟，比如點(diǎn)擊某個(gè)按鈕、輸入文字、滑動(dòng)屏幕等。然后，智能體就會(huì)按照這些步驟準(zhǔn)確地操作設(shè)備。

元景屏幕操控智能體架構(gòu)

如果屏幕操控智能體在自動(dòng)操作過(guò)程中遇到需要輸入敏感信息的環(huán)節(jié)，比如登錄賬號(hào)、輸入密碼或者支付環(huán)節(jié)，其還會(huì)暫停操作并提醒用戶手動(dòng)確認(rèn)，以確保用戶的隱私和安全。在用戶完成輸入后，智能體會(huì)繼續(xù)自動(dòng)操作，直至用戶的操作指令執(zhí)行完畢。

以下視頻展示了元景屏幕操控智能體在手機(jī)上完成“打開(kāi)攜程，幫我預(yù)定9月10日從成都到北京的飛機(jī)票，選擇07:55出發(fā)的那趟航班。”這一任務(wù)的工作流程：智能體會(huì)基于當(dāng)前屏幕截圖和用戶指令，逐步模擬人類(lèi)操作手機(jī)，直到到達(dá)支付界面，提醒用戶支付。

聯(lián)通云智手機(jī)“攜程訂飛機(jī)票”步驟演示視頻截圖

元景屏幕操控智能體使得各類(lèi)智能設(shè)備的操控操作變得更加簡(jiǎn)單，尤其對(duì)老人、兒童等對(duì)智能設(shè)備操作不太熟悉的群體，提供了更加便利的操作方式。比如，老人想給遠(yuǎn)在他鄉(xiāng)的孩子發(fā)一條信息，只需要說(shuō)“給兒子發(fā)個(gè)消息，說(shuō)我想他了”，智能體就能自動(dòng)打開(kāi)消息應(yīng)用，輸入文字并發(fā)送；孩子想聽(tīng)一首歌，只需要說(shuō)“播放周杰倫的《稻香》”，智能體就能自動(dòng)找到歌曲并播放。對(duì)于上班族來(lái)說(shuō)，它也能大大提升工作效率。比如需要快速完成各類(lèi)申請(qǐng)、信息查詢、訂票、點(diǎn)外賣(mài)等操作時(shí)，都可以通過(guò)一句話的指令自動(dòng)完成。

元景多模態(tài)GUI模型

作為元景屏幕操控智能體的核心，元景多模態(tài)GUI模型基于自研的創(chuàng)新復(fù)合視覺(jué)編碼模塊和元景語(yǔ)言模型構(gòu)建，具備對(duì)多種屏幕內(nèi)容的精確理解和多步復(fù)雜操作任務(wù)的高效準(zhǔn)確規(guī)劃能力，其中，復(fù)合視覺(jué)模塊融合了CNN（ConvNext）和ViT（Siglip、InternViT）兩類(lèi)視覺(jué)編碼器，能夠在捕獲圖像細(xì)節(jié)以及空間特征的同時(shí)，全面理解圖像全局信息，從而實(shí)現(xiàn)了屏幕內(nèi)容的魯棒視覺(jué)表征。

同時(shí)，為了支持動(dòng)態(tài)分辨率輸入，復(fù)合視覺(jué)編碼模塊除了塊內(nèi)的位置編碼外，還對(duì)每個(gè)patch之間添加2D圖像位置編碼，從而加強(qiáng)了GUI模型對(duì)位置信息的感知。

元景多模態(tài)GUI模型架構(gòu)

元景多模態(tài)GUI模型使用了大量屏幕控制相關(guān)的識(shí)別定位和多步任務(wù)規(guī)劃圖文數(shù)據(jù)，覆蓋了不同操作系統(tǒng)的應(yīng)用、網(wǎng)頁(yè)、系統(tǒng)設(shè)置等界面，使得模型在準(zhǔn)確理解用戶輸入文本指令的同時(shí)，能夠準(zhǔn)確識(shí)別和定位屏幕上的各種圖形和界面元素，并規(guī)劃出復(fù)雜的多步操作任務(wù)，就像擁有一雙“火眼金睛”和一個(gè)“大腦”。

在模型訓(xùn)練方面，采用了GPRO進(jìn)行自適應(yīng)的強(qiáng)化學(xué)習(xí)訓(xùn)練，進(jìn)一步提升了交互決策的準(zhǔn)確率和泛化能力。在業(yè)界權(quán)威的GUI模型評(píng)測(cè)基準(zhǔn)ScreenSpot-V2上，元景多模態(tài)GUI模型得分90.5%，排名前三，接近人類(lèi)專(zhuān)家水平。

元景多模態(tài)GUI模型在ScreenSpot-V2基準(zhǔn)上排名前三

為盡量縮短屏幕操控任務(wù)的整體時(shí)長(zhǎng)，元景多模態(tài)GUI模型在多步推理速度方面也進(jìn)行了大量的優(yōu)化。

首先，在不同任務(wù)的操控邏輯上，通過(guò)優(yōu)化操作路徑進(jìn)行了整體執(zhí)行效率的提升。相比傳統(tǒng)模型“逐步試探式”的指令鏈條，我們能夠基于上下文理解，智能選擇更少、更準(zhǔn)、更優(yōu)的操作步驟，規(guī)避冗余和重復(fù)指令，確保以短路徑完成任務(wù)。這就像為任務(wù)規(guī)劃一條既快捷又高質(zhì)量的“智能駕駛路線”，顯著提升整體操作流暢度和用戶體驗(yàn)。

同時(shí)，團(tuán)隊(duì)通過(guò)采取模型優(yōu)化、推理加速等方式，進(jìn)一步提升了模型的推理效率，使模型的整體響應(yīng)速度較業(yè)界主流模型提升超過(guò)50%。

當(dāng)前，中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院自研的元景屏幕操控智能體和元景多模態(tài)GUI模型已支持主流App的操控，涵蓋社交、娛樂(lè)、出行、購(gòu)物、信息服務(wù)等常見(jiàn)使用場(chǎng)景。針對(duì)企業(yè)專(zhuān)屬App，其也體現(xiàn)了強(qiáng)大的通用性和適配能力，當(dāng)前已支持多個(gè)企業(yè)內(nèi)部App的自動(dòng)操控，并覆蓋了手機(jī)、電腦、車(chē)載設(shè)備等多類(lèi)終端的不同操作系統(tǒng)。

未來(lái)，它還將支持企業(yè)ERP系統(tǒng)、工業(yè)控制系統(tǒng)等復(fù)雜業(yè)務(wù)環(huán)境的自動(dòng)操控，進(jìn)一步提升跨平臺(tái)、定制化應(yīng)用的智能化水平，讓各類(lèi)智能設(shè)備的操作更加高效、便捷與安全。作為多模共生的元景模型家族的重要組成部分，元景多模態(tài)模型將為更多行業(yè)場(chǎng)景提供標(biāo)準(zhǔn)化、模塊化的智能交互解決方案，推動(dòng)多模態(tài)AI真正走進(jìn)千行百業(yè)，助力行業(yè)數(shù)字化轉(zhuǎn)型提質(zhì)增效。

日韩精品一区二区三区swag_一区二区三区在线高清_亚洲国内欧美_国产精品xnxxcom

重磅！元景屏幕操控智能體助力聯(lián)通云智手機(jī)“自動(dòng)駕駛”大規(guī)模商用