Ai2開源視覺網頁代理MolmoWeb，並公開模型資料與評測工具

Ai2發布開源視覺網頁代理系統MolmoWeb，該系統建立在Molmo 2多模態模型家族之上，提供4B與8B兩種模型規模，並且還釋出模型權重、訓練資料、代理與推論程式碼及評測工具，訓練程式碼則在稍晚時候公開。MolmoWeb可自行託管，能根據任務指令與當前網頁截圖，直接在瀏覽器中執行點擊、輸入、捲動等操作。

Ai2除了發布MolmoWeb，也公開資料集MolmoWebMix、可重現的模型檢查點與資料蒐集工具。Ai2指出，現有能力較強的網頁代理多半屬於封閉系統，外界通常難以得知訓練資料、方法與評測流程。Ai2則提供較完整的開放資源，讓研究者與開發者能從資料、模型到部署流程逐步檢視。

MolmoWeb採取以畫面為主的操作方式，不依賴HTML或無障礙樹（Accessibility Tree）等結構化頁面表示。系統每一步會接收任務指令、當前頁面截圖與近期操作紀錄，再輸出簡短推理與下一個動作。支援的操作包括開啟網址、依螢幕座標點擊、在欄位中輸入文字、捲動頁面、切換分頁，以及回傳訊息給使用者。Ai2認為，直接讀取截圖可避免結構化頁面序列化後占用大量token，也較接近一般人實際使用瀏覽器的方式。

Ai2特別強調，MolmoWeb不是靠模仿商業視覺代理的操作結果訓練而成。官方表示，其訓練資料主要來自兩類來源，一是由僅讀取無障礙樹的文字代理所產生的合成操作軌跡，二是人工示範。MolmoWebMix資料集中，人工部分包含3.6萬筆任務軌跡、超過62.3萬筆子任務示範，涵蓋超過1,100個網站。另有螢幕問答、元素定位與合成操作資料，其中截圖問答資料超過220萬組。Hugging Face的MolmoWeb-Data頁面也列出HumanTrajs、SyntheticTrajs、SyntheticQA等多個子資料集。

效能方面，Ai2公布MolmoWeb 8B在WebVoyager的成功率為78.2%，DeepShop為42.3%，WebTailBench為49.5%，並宣稱優於Fara-7B等開放模型。若以多次嘗試結果挑選最佳表現，WebVoyager的pass@4可提高到94.7%，Online-Mind2Web則可達60.5%。

MolmoWeb在GitHub已提供代理程式碼、用戶端、安裝方式與評測相關內容，Hugging Face頁面則提供4B、8B，以及4B-Native、8B-Native等Native檢查點。官方也揭露現階段限制，表示MolmoWeb仍可能誤讀截圖文字，也可能因網頁尚未載入完成就提早捲動而偏離任務。對需要登入或金融交易的任務，MolmoWeb現階段未納入訓練，至於特定區塊內捲動與拖放等操作，官方則列為仍具挑戰的情境。

Ai2開源視覺網頁代理MolmoWeb，並公開模型資料與評測工具

相關文章

手機資安：公共Wi-Fi防護指南 (2026-03-26 #651)

資安事件案例研究：資料洩漏啟示錄 (2026-03-26 #651)

雲端安全威脅：SaaS應用防護指南 (2026-03-26 #651)

資安法規新標準：個資法規的重點變化 (2026-03-26 #651)