Ai2開源視覺網頁代理MolmoWeb,並公開模型資料與評測工具

Ai2發布開源視覺網頁代理系統MolmoWeb,該系統建立在Molmo 2多模態模型家族之上,提供4B與8B兩種模型規模,並且還釋出模型權重、訓練資料、代理與推論程式碼及評測工具,訓練程式碼則在稍晚時候公開。MolmoWeb可自行託管,能根據任務指令與當前網頁截圖,直接在瀏覽器中執行點擊、輸入、捲動等操作。

Ai2除了發布MolmoWeb,也公開資料集MolmoWebMix、可重現的模型檢查點與資料蒐集工具。Ai2指出,現有能力較強的網頁代理多半屬於封閉系統,外界通常難以得知訓練資料、方法與評測流程。Ai2則提供較完整的開放資源,讓研究者與開發者能從資料、模型到部署流程逐步檢視。

MolmoWeb採取以畫面為主的操作方式,不依賴HTML或無障礙樹(Accessibility Tree)等結構化頁面表示。系統每一步會接收任務指令、當前頁面截圖與近期操作紀錄,再輸出簡短推理與下一個動作。支援的操作包括開啟網址、依螢幕座標點擊、在欄位中輸入文字、捲動頁面、切換分頁,以及回傳訊息給使用者。Ai2認為,直接讀取截圖可避免結構化頁面序列化後占用大量token,也較接近一般人實際使用瀏覽器的方式。

Ai2特別強調,MolmoWeb不是靠模仿商業視覺代理的操作結果訓練而成。官方表示,其訓練資料主要來自兩類來源,一是由僅讀取無障礙樹的文字代理所產生的合成操作軌跡,二是人工示範。MolmoWebMix資料集中,人工部分包含3.6萬筆任務軌跡、超過62.3萬筆子任務示範,涵蓋超過1,100個網站。另有螢幕問答、元素定位與合成操作資料,其中截圖問答資料超過220萬組。Hugging Face的MolmoWeb-Data頁面也列出HumanTrajs、SyntheticTrajs、SyntheticQA等多個子資料集。

效能方面,Ai2公布MolmoWeb 8B在WebVoyager的成功率為78.2%,DeepShop為42.3%,WebTailBench為49.5%,並宣稱優於Fara-7B等開放模型。若以多次嘗試結果挑選最佳表現,WebVoyager的pass@4可提高到94.7%,Online-Mind2Web則可達60.5%。

MolmoWeb在GitHub已提供代理程式碼、用戶端、安裝方式與評測相關內容,Hugging Face頁面則提供4B、8B,以及4B-Native、8B-Native等Native檢查點。官方也揭露現階段限制,表示MolmoWeb仍可能誤讀截圖文字,也可能因網頁尚未載入完成就提早捲動而偏離任務。對需要登入或金融交易的任務,MolmoWeb現階段未納入訓練,至於特定區塊內捲動與拖放等操作,官方則列為仍具挑戰的情境。