GPT-5.2登場:OpenAI十週年之際亮劍,以專業模型穩守AI高地

TradingKey中文
12/12

TradingKey - 僅在啓動「紅色警報」一週後,OpenAI於週四正式推出其最新旗艦模型——GPT-5.2系列。

OpenAI介紹稱,GPT‑5.2被定位為「專業知識工作的最優解」,在多項核心能力上實現跨越式突破,其中GPT-5.2 Thinking版本更成為公司首款在真實世界軟件工程任務中達到人類專家水平的AI模型

GPT-5.2系列包含Instant、Thinking和Pro三個版本,覆蓋從日常辦公到複雜專業任務的全場景需求。

Instant版本延續了GPT-5.1親切自然的對話風格,在信息查詢、操作指南、技術寫作和翻譯等高頻任務中響應更迅速、解釋更清晰,能夠直接呈現關鍵信息,提升用戶效率。

Thinking版本則專為深度工作設計,擅長處理編碼、長篇文檔總結、基於上傳文件的問答、多步數學與邏輯推理,並能以更結構化的框架輔助用戶進行規劃與決策。

而Pro版本則面向最複雜、高風險的專業場景,在編程等高難度任務中表現出更強的準確性和可靠性,重大錯誤率顯著降低。

性能的全面躍升

性能方面,GPT-5.2在多個權威基準測試中全面刷新行業紀錄。在涵蓋44個職業的GDPval知識工作評估中,模型表現達到或超過人類專家水平的比例高達70.9%。OpenAI指出,GPT-5.2 Thinking完成這些任務的速度是人類專家的11倍以上,成本卻不到其1%。

在編碼能力上,該模型不僅在SWE-Bench Verified測試中創下80%的歷史新高,在更具挑戰性的SWE-Bench Pro中也取得55.6%的成績,測試覆蓋Python、JavaScript、Java和C++等多種主流語言。

科學與推理能力同樣亮眼,GPT-5.2 Pro在博士級科學問答基準GPQA Diamond上達到93.2%,Thinking版本為92.4%。

在通用推理基準ARC-AGI 1中,Pro成為首個突破90%閾值的模型,相較去年o3-preview的87%大幅提升,且實現該性能的成本降低至1/390。

橫向對比顯示,GPT-5.2 Thinking在幾乎所有關鍵推理基準上均小幅領先Google Gemini 3和Anthropic Claude Opus 4.5,無論是在真實軟件工程、高階科學問答,還是抽象模式發現任務中均保持優勢。

OpenAI CEO Sam Altman評價道:「即使沒有諸如輸出精美文件這類新功能,GPT-5.2也感覺像是我們許久以來獲得的最大升級。」

直面競爭

幾周前,Gemini 3憑藉優異的推理與編碼能力迅速登頂LMArena和Humanity’s Last Exam等排行榜,給OpenAI帶來不小壓力。本週早些時候,媒體披露Altman已向內部發布「紅色警報」備忘錄,要求集中資源加速ChatGPT迭代。

對此,OpenAI應用業務CEO Fidji Simo表示,「紅色警報」僅是內部優先級管理工具,旨在明確「哪些項目應全力推進,哪些可暫時降級」。她強調,GPT-5.2的開發已籌備數月,並非倉促應對之舉。「我們確實增加了對ChatGPT的資源投入,這有助於發佈,但並非本週發佈的原因。」

Altman表示:「Gemini 3對我們核心指標的影響,可能沒有我們最初擔心的那麼大。」他預計OpenAI將在2026年1月前「以非常強勢的地位」退出紅色警報狀態。

從技術演進看,GPT-5.2更像是對過去兩次更新的系統性整合。8月的GPT-5完成架構重置,引入「快速」與「思考」雙模式,11月的GPT-5.1優化對話性與智能體協作,而GPT-5.2則在此基礎上全面提升穩定性與生產級可靠性。

此次發佈也意在修復今年8月初版GPT-5留下的信任裂痕——彼時模型因無法解答簡單數學題、繪製錯誤地圖等低級失誤,在社交媒體上引發廣泛嘲諷,暴露出OpenAI在技術穩定性與產品節奏上的挑戰。

值得注意的是,儘管圖像生成被列為內部優先事項,本次更新仍未包含新圖像生成器。自8月發佈Nano Banana以來,OpenAI在視覺生成領域明顯落後於Gemini。有報道稱,公司計劃明年1月推出具備更強圖像能力的新模型,但週四未予確認。

市場反應仍顯審慎。Constellation Research的創始人兼首席分析師Ray Wang表示,GPT-5.2 是對谷歌Gemini的有力回應,但不足以扭轉其競爭對手的勢頭。Wang說,對於企業而言,「OpenAI所做的是讓創建辦公效率工具變得更加容易。Gemini的集成度仍然更高。」

市場對於Gemini 3的接受度較高,Gemini 3 Pro預覽版發佈前五天Tokens量達1435億(對比Gemini 2.5 Pro上線首周Tokens量301億),11月17日至23日發佈週期間,Gemini周訪問量突破3億人次。

芯片計劃與十週年願景

同日,Altman在和迪士尼達成協議後的採訪中意外透露:「我們對即將推出的芯片感到興奮。」儘管未提供細節,這一「說漏嘴」迅速引發對OpenAI自研AI芯片的猜測。

目前,OpenAI尚未正式公佈芯片計劃。但今年以來,其與博通等半導體廠商的合作傳聞不斷,凸顯公司正系統性減少對英偉達的依賴——後者目前佔據AI芯片市場約80%份額。

若成功推出定製芯片,OpenAI不僅能將模型經驗嵌入硬件實現軟硬協同,還可顯著提升算力效率與成本控制。

週四也恰逢OpenAI成立十週年。Altman發佈題為《十年》的博客,回顧公司從「瘋狂、不太可能且史無前例」的目標起步,如今「似乎有望實現使命」。

他感慨早期團隊「那麼年輕、那麼樂觀、那麼快樂」,即便「被嚴重誤解」,仍堅信此事「值得付出巨大努力」。他坦言過去三年極其緊張:「從一無所有成長為一家龐大公司絕非易事,每週要做出成百上千個決策。我為團隊的正確決策自豪,而錯誤,大多是我的責任。」

但他也表示,從未對OpenAI的研究路徑如此樂觀。「再過十年,幾乎可以肯定我們將構建出超級智能。2035年的人們將能完成今天我們難以想象的事情。」

隨着"紅色警報"的解除,OpenAI似乎暫時穩住了陣腳,但這場AI霸權爭奪戰遠未落幕。GPT-5.2的真正考驗不在於實驗室的基準分數,而在於能否在企業級市場中得到證明。

原文鏈接

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10