在全球AI敘事走向「Agent時代」的關鍵節點,谷歌選擇了一個頗具戲劇性的發佈時機。
週四,就在OpenAI端出備受期待的 GPT-5.2(內部代號 Garlic)之日,谷歌同步推出了迄今最強的深度研究型Agent——GeminiDeep Research的「重製版」,並宣稱其基於旗下最先進的Gemini 3 Pro模型。同日,DeepMind還宣佈將在英國建立首個自動化研究實驗室,利用AI與機器人加速材料科學實驗。
這不是「撞車」,更像一場精心策劃的陽謀:在競爭對手聚焦全球目光時,谷歌以一款更具戰略意味的產品回應——將Agent 推向操作系統級能力。
從「寫報告」到「嵌入應用」:谷歌試圖定義Agent 的基礎設施級入口
全新 GeminiDeep Research已不是傳統意義上的「自動寫研究報告」的工具,它被定位為:
-
可處理更大規模的上下文、能消化「信息山脈」的深度研究Agent
-
可被開發者直接嵌入 App 的「AI 研究內核」
-
能持續執行數分鐘甚至數小時、多步驟推理任務的長鏈式推理Agent
這些能力普遍指向一個趨勢:谷歌正試圖把Deep Research變成未來AI時代的「搜索引擎底層能力」。
為了讓開發者把Deep Research更輕鬆地嵌入自己的應用,谷歌推出了全新的 Interactions API。這等於是把「搜索+多步驟推理+評估」打包成操作系統級服務。
谷歌同時宣佈,Deep Research將陸續進入谷歌搜索、谷歌財經、Gemini 應用,以及NotebookLM。
換句話說:未來不是用戶「谷歌一下」,而是你的Agent替你谷歌一切。
為什麼是Deep Research?谷歌想解決AI走向Agent後的最大痛點:幻覺率。
谷歌稱Deep Research受益於Gemini 3 Pro的「更高事實性」,能降低在長鏈推理任務中累積幻覺所導致的結果失真。這類任務可能持續數十分鐘甚至數小時,風險顯著。
谷歌造新基準:DeepSearchQA、BrowserComp、Humanity’s Last Exam
為驗證性能,谷歌發佈新的 DeepSearchQA 基準,用於測試多步驟信息檢索,並開源該基準。
在谷歌自有基準和"人類最後考試"基準測試中,新Agent擊敗了競爭對手,但OpenAI的ChatGPT 5 Pro表現接近,並在BrowserComp測試中略勝谷歌。
然而,這些基準比較在谷歌發佈的那一刻就幾乎過時了。因為同一天,OpenAI發佈了備受期待的GPT-5.2,號稱智能體編碼最強,趕超人類專家。OpenAI聲稱該模型在一系列典型基準測試中擊敗了競爭對手,特別是谷歌。
從結果看,這一天成為谷歌與OpenAI同臺競爭的「正面交鋒」。
谷歌選擇在GPT-5.2發佈日同步公佈Deep Research,很難不被視為一種主動競爭姿態——既是回應 OpenAI 的新模型,也是試圖在Agent化快速發展之際,提前佔據開發者入口。
在AI Agent即將成為新一代「搜索框」的情況下,谷歌與OpenAI的爭奪已經從模型戰爭轉向誰能成為未來信息訪問方式的基礎設施。