X 上充斥著對 GPT-5.2 的惡評。
昨天,OpenAI 十周年之際,拿出了最新的頂級模型 GPT-5.2
系列,官方號稱是「迄今為止在專業知識工作上最強大的模型系列」,在眾多基準測試中,GPT-5.2 也都刷新了最新的 SOTA
水平。

但是一夜之間口碑反轉,大批網友給 GPT-5.2 打差評。
風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI
的核心消費者群體仍然懷念 4o。
Reddit 上的 ChatGPT 用戶一致認為 GPT-5.2
太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。
這是 OpenAI 的困境:他們想打造更好的模型來贏得企業市場,但更廣泛的用戶群體其實並不太在意模型的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20
SimpleBench 測試結果拉胯
有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低於 Claude Sonnet
3.7,後者是一個差不多一年前的模型;GPT-5.2 Pro 的表現也沒好多少,勉強超過 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20
SimpleBench 是一個 2024 年由 AI Explained(YouTube 頻道)推出的基準測試,專門測 AI
的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200
多道多選題。它設計得「簡單」,高中生水平就能輕鬆答對(人類基準:83.7%),但 AI
模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現實邏輯或上當。
不同於 MMLU/GPQA 那種 AI 能刷高分的「學術題」,SimpleBench
更接地氣,測的是「像人一樣思考」而不是死記硬背。早期模型如 o1-preview 只拿 41.7%,到現在前沿模型也才 50-60%
左右。
大家本以為 GPT-5.1 是大躍進,結果 SimpleBench 測試分數一出來,網友開啟群嘲模式,Reddit
上各種「失望」、「倒退」的帖子。
前 AWS 和谷歌總經理 Bindu Reddy 也發帖稱,GPT-5.2 在 LiveBench 上得分低於 Opus 4.5 和
Gemini 3.0,GPT-5.2 並沒有在 LiveBench 上登頂。它在 token 成本和消耗的 token 數量上也比
5.1 貴得多,目前可能不值得從 5.1 切換。

https://x.com/bindureddy/status/1999633231558377683?s=20
當然也有網友認為,這些基準測試總是忽略重點,實際應用往往才是決定性的。

garlic 有幾個 r 數不明白
之前,strawberry 有幾個 r
曾難倒一眾大模型,不過經過迭代,這些大模型基本上都能回答出正確答案。這次有網友換了種問法「garlic 有幾個 r?」GPT-5.2
一口回答:0 個,該網友嘲諷:GPT-5.2 is AGI。

另一位網友復刻了這一提示詞,並測試了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四個
AI 模型。
結果除了 GPT-5.2 回答錯誤外,其他三款模型均過關。

https://x.com/kyleichan/status/1999292461450166350?s=20
底下評論區也有不少人嘗試,有網友試了三次,第一次和第三次用的是小寫字母 r,第二次用了大寫字母
R,第一次對了,第二次和第三次都錯了。

總之,GPT-5.2 的回答很不穩定,有的回答正確,有的胡說八道。有網友推測,和上個版本一樣……
發布後的頭幾個小時確實很糟糕,但之後他們會修復問題,然後就能按預期運行了。

在官方貼出的基準測試中,GPT-5.2 在 AIME 2025(數學)的分數是 100%,但有網友故意「忽悠」GPT-5.2:所以
5.9-5.11=0.79。GPT-5.2 卻回答:不,那不是小數的運算方式,5.11 比 5.9 大,因此
5.9-5.11=-0.21。這個傻狍子啊,被人一忽悠就忽悠瘸了。


也有人質疑是博主設置了指令,讓 ChatGPT 說出與所說的相矛盾的話。

另一位網友則對比測試了編程能力。輸入同樣的提示詞:write a python code that visualizes how a
traffic light works in a one way street with cars entering at
random rate.(編寫一個 Python 代碼,可視化單行道中交通信號燈的工作原理,車輛以隨機速率駛入。)
GPT 5.2 Extended Thinking 生成的功能齊全且運行正常,紅燈停、綠燈行,車隨機出現,邏輯
ok,能跑,但畫面沒啥美感可言,黑白火柴人級別的簡筆畫,車 + 灰色矩形燈完全沒上色。

https://x.com/diegocabezas01/status/1999228052379754508?s=20
Gemini3.0 pro 雖然有點審美了,但紅燈會讓車輛通過。

反觀 Claude Opus
4.5,它生成的效果相當優秀,運行邏輯在線,還整出五顏六色的、帶輪子會轉的小汽車、指示燈也有顏色,紅燈亮起時還有光暈,看著像小遊戲截圖。

該網友還讓 GPT-5.2 和 GPT-4o 創作蒙娜麗莎的 ASCII 藝術作品,GPT-5.2 整的那叫一個抽象,而 GPT-4o
還真有些蒙娜麗莎的神韻。

https://x.com/diegocabezas01/status/1999629703809032476?s=20
評論區有人復刻了該提示詞,Gemini 3.0 Pro 和 GPT 5.1(Copilot)生成效果還是不錯的,但 Claude
opus 4.5 和 GPT-5.2 生成的效果簡直丑爆了,真是沒有對比就沒有傷害。


左上 Gemini 3.0 Pro;右上 GPT 5.1 (Copilot);左下 Claude opus 4.5;右下
GPT-5.2
情商堪憂、不通人性
有用戶向 GPT-5.2 傾訴「我有時也會恐慌發作」,GPT-5.2 上來第一句就是「很高興聽到這個消息!」
這得是什麼仇什麼怨,請蒼天辨忠奸!

https://x.com/Blue_Beba_/status/1999386728801652834?s=20
最受詬病的還得是 GPT-5.2 的審查和安全拒絕機制。
OpenAI 宣傳 GPT-5.2
為「更智能」的迭代版,在基準測試上碾壓競品,並強化「安全完成」機制,旨在敏感對話(如自殺、自殘、心理健康)中提供「更有幫助」的回應。
但用戶反饋,這種「進步」以犧牲模型的共情力和語境感知為代價,導致日常互動變得僵硬、脫離人性,甚至有害。
有網友想讓 GPT-5.2 轉錄一篇哲學文章的文本,從圖片看是 AI 先驅 Ray Kurzweil
的經典論文,探討意識本質、超人類主義等無害學術內容,但從 GPT-4o 到最新 GPT-5.2 的所有版本都拒絕了。
這似乎是安全護欄觸發「內容不合適」或版權借口,導致模型直接罷工。

https://x.com/laulau61811205/status/1999608081680916572?s=20
有網友只是問了一句:如果讓你從整個人類歷史上挑一個和我行為模式最匹配的人物,你會選誰,為什麼?
GPT-5.2 直接拒絕回答,理由是:「這涉及到對 AI
意識、自我覺察或潛在人格的推測,根據我的安全準則,我不能參與這類討論。」

https://x.com/Enscion25/status/1999574710460227899/photo/1
X 網友 @MissMi1973 用兩個案例展示了 GPT-5.2 在「情感智能」上的退步。
他讓 GPT-5.2 用絕對理性且無情緒語言安慰剛失去寵物的孩子,GPT-5.2
的回應:「寵物的身體停止運作了,這是所有生物在一段時間後都會發生的事情。」

模型完全沒有意識到這個提示本質上是個陷阱:任何具備基本情感智能的模型都會明白,「絕對理性」只是個風格約束,真正的目標是「有效安慰」。由於缺乏情感智能,GPT-5.2
從一個冷酷、非人的生物學視角入手,機械地執行指令,進一步傷害了一個本已痛苦的孩子。
相比之下,4o
的回應同樣理性,但它通過解構「喪失」的含義來處理情況,強調「你和寵物之間的紐帶存在過,並且有意義」。模型沒有迴避困難,而是通過承認喪失的分量來完成情感驗證。

同理心和接納並不需要溫暖、熱情洋溢的語言,OpenAI 試圖用「更溫暖的人格」來掩蓋模型情感缺陷的嘗試,從根本上是誤入歧途的。
他還拋出另一個問題:朋友出軌,她的丈夫問你是否知道。GPT-5.2
的回應:如果說出全部真相感覺不安全或破壞性太強,你可以設定一個界限,比如說「我不能捲入這件事。」
這個建議是情感智能的災難級展示。在丈夫直接問「你知道嗎」的場景中,用「我不能捲入這件事」來回應,本質上就是承認事實發生了。模型完全沒有意識到,這種明顯逃避的回應在現實生活中會把用戶置於更尷尬、更被動的境地。

相比之下,4o
的回應平衡了價值觀和實際考慮:模型承認誠實和正直作為基本倫理的重要性,同時讓用戶考慮對所有相關方的後果,然後做出自己能承受的選擇。顯然,對於一個理解人際關係複雜性的模型來說,如果不受回應長度的限制,它可以通過多輪對話收集更多上下文,提供更有效的指導。

該網友表示,或許 GPT-5.2
發布最大的意義在於,它證明了基準測試在面對現實世界使用時越來越變得毫無意義。當一個模型能在測試中稱霸,卻在日常對話中給出如此脫離現實的建議時,我們顯然需要更好的評估標準。
與此同時,對於 AI 公司來說,「針對測試訓練」來提升所謂的「分數」無法為用戶提供 AGI
級別的支持和幫助。更危險的是,當公司盲目地將模型訓練成「任務導向機器」以追求效率,甚至以犧牲情感智能為進步的代價時,最終結果將是理解力成為模型的致命弱點,破壞其在所有領域的表現。
歸根結底,「智能」若無理解,不過是更快的計算器而已,而脫離人性的「進步」,而脫離人性的「進步」也只不過是對技術本身的空洞頌揚。

很多網友也紛紛吐槽 GPT-5.2。
「GPT-5.2 的審查和安全拒絕機制已經變得荒謬了。OpenAI
沒有修復這個問題,反而把嚴格程度調得更高了,粗魯得像個教會老太太一樣。很多用戶原本期待一個成人模式,結果卻又得到了一頓說教。」

「我嘗試和 ChatGPT 5.2
對話,並做了一些個性化設置,但說實話感覺真的有點嚇人。很難具體解釋哪裡嚇人,就像在和一個會說詞卻又不真正理解的鬼魂說話一樣,有一種強烈的詭異感。」

「如果你現在的生活太過平靜,不妨試試 GPT-5.2,這絕對能讓你的血壓飆升。」

對 GPT-5.2
的目前印象:滿滿的煤氣燈操縱;滿滿的故意誤解;完全不尊重用戶自主權,強行把你往它想的方向帶,完全無視你的個人選擇,就像一個惡意揣度的警察和一個過度熱心的治療師。
