澎湃新聞 2025-08-09 08:52:10
GPT-5終于現(xiàn)身了,這款被OpenAI稱為目前“最聰明、最智能”的新旗艦?zāi)P蜏p少了幻覺、改善了指令遵循,在視覺推理、智能編程、研究生級科學(xué)問題解決等多項(xiàng)能力上,僅需使用OpenAI o3模型50%-80%的輸出token,就能實(shí)現(xiàn)更優(yōu)表現(xiàn)。
數(shù)字經(jīng)濟(jì)學(xué)者劉興亮8日在接受澎湃科技采訪時(shí)表示,從“選模型”到“模型會(huì)選自己”,GPT-5形態(tài)進(jìn)化,OpenAI正聚焦“少折騰菜單,多交付結(jié)果”。GPT-5寫代碼更少廢話、走流程更少走神,但在寫作質(zhì)感和AGI跨度上并沒有達(dá)到他的想象,可以先將其當(dāng)成“超級實(shí)習(xí)生”。商業(yè)層面上,GPT-5更像一臺利潤引擎,鋪開給全體用戶,押注企業(yè)用量放大。
快思慢想研究院院長、原商湯智能產(chǎn)業(yè)研究院創(chuàng)始院長田豐則表示,GPT-5專業(yè)推理能力更強(qiáng),幻覺更少,但遠(yuǎn)未達(dá)到AGI,其通用泛化能力不足,多模態(tài)能力也并未形成巨大的領(lǐng)先優(yōu)勢??傮w來看,GPT-5并未像GPT-3或GPT-3.5那樣對人們形成巨大沖擊,而是沿著現(xiàn)有方向進(jìn)一步提升推理能力。不過,GPT-5和GPT-4的最大區(qū)別是產(chǎn)品越做越好,新模型將更多承擔(dān)營收任務(wù)。
自動(dòng)決定“快答”還是“深想”
GPT-5采用一體化系統(tǒng)設(shè)計(jì),其中,智能高效的基礎(chǔ)模型可以處理大多數(shù)問題,深度推理模型GPT-5 Thinking專攻復(fù)雜難題,實(shí)時(shí)路由系統(tǒng)能根據(jù)對話類型、問題復(fù)雜度、工具需求及用戶明確指令,快速?zèng)Q定調(diào)用哪個(gè)模型。也就是說,GPT-5懂得何時(shí)快速響應(yīng),何時(shí)深入思考以提供專業(yè)級答案。
GPT-5的回答速度更快,在基準(zhǔn)測試中超越前代模型,在編程、數(shù)學(xué)、寫作、健康、視覺感知等領(lǐng)域達(dá)到先進(jìn)性能。在數(shù)學(xué)方面,無需工具的情況下,GPT-5在2025年AIME競賽數(shù)學(xué)測試中得分94.6%。
GPT-5在AIME競賽數(shù)學(xué)中的性能表現(xiàn)。
GPT-5在MMMU(多模態(tài)推理評估)中達(dá)到84.2%。在真實(shí)世界編程方面,GPT-5在SWE-bench Verified測試中得分74.9%,在Aider Polyglot測試中得分88%。而OpenAI o3在SWE-bench Verified測試中得分為69.1%,GPT-4o為30.8%。
在編程能力方面,GPT-5在SWE-bench Verified測試中得分74.9%。
借助GPT-5 Pro的擴(kuò)展推理能力,它還在GPQA(研究生級別專家推理)測試中創(chuàng)下新紀(jì)錄,無需工具即可達(dá)到88.4%的得分。
HealthBench是OpenAI今年早些時(shí)候發(fā)布的基于真實(shí)場景和醫(yī)生定義的評估標(biāo)準(zhǔn)。在HealthBench評估中,GPT-5得分顯著高于所有前代模型,得分為46.2%,是OpenAI目前最擅長處理健康相關(guān)問題的模型。它會(huì)主動(dòng)提出潛在問題,通過提問來提供更有幫助的答案。但它無法替代醫(yī)療專業(yè)人員,而是可以將其視為一個(gè)輔助伙伴,例如幫助用戶理解檢查結(jié)果、在與醫(yī)生溝通時(shí)提出恰當(dāng)?shù)膯栴}、在做決策時(shí)權(quán)衡各種選項(xiàng)。
盡管GPT-5的專業(yè)推理能力更強(qiáng)了,但田豐表示,這并不意味著它可以快速遷移到開放型任務(wù)鏈條上,GPT-5的泛化推理能力仍有待加強(qiáng),多模態(tài)推理能力也沒有形成領(lǐng)先優(yōu)勢。
減少幻覺、改善指令遵循、誠實(shí)回答
OpenAI表示,團(tuán)隊(duì)在減少幻覺、改善指令遵循和減少奉承方面取得進(jìn)展。在測試中,GPT-5回應(yīng)出現(xiàn)事實(shí)錯(cuò)誤的概率比GPT-4o低約45%;在啟用思考功能時(shí),其事實(shí)錯(cuò)誤率比OpenAI o3低約80%。
在訓(xùn)練過程中,推理模型通??赡軙?huì)謊報(bào)任務(wù)完成情況,或?qū)Σ淮_定的答案表現(xiàn)得過于自信。但啟用思考功能的GPT-5能更誠實(shí)地向用戶說明自身的行動(dòng)與能力范圍,尤其針對那些不可能完成、描述不充分或缺乏關(guān)鍵工具支持的任務(wù)。
為測試這一點(diǎn),OpenAI從多模態(tài)基準(zhǔn)測試測試CharXiv的提示詞中移除了所有圖像,結(jié)果發(fā)現(xiàn)OpenAI o3仍有86.7%的概率對不存在的圖像給出自信回答,而GPT-5的這一比例僅為9%。因此,在推理過程中,GPT-5能更準(zhǔn)確地識別任務(wù)何時(shí)無法完成,并清晰說明自身局限,回答更誠實(shí)。
GPT-5在指令遵循和智能體工具運(yùn)用的基準(zhǔn)測試中性能優(yōu)異,能執(zhí)行多步驟任務(wù)、協(xié)調(diào)不同工具并適應(yīng)語境變化。在實(shí)際應(yīng)用中,它能更好地處理復(fù)雜且動(dòng)態(tài)變化的任務(wù)。
GPT-5在復(fù)雜前端生成和大型代碼庫調(diào)試方面的性能突出,僅憑提示就創(chuàng)建出美觀且響應(yīng)迅速的網(wǎng)站、APP和游戲。
GPT-5創(chuàng)建的游戲。提示詞包括界面色彩豐富并帶有視差滾動(dòng)背景;角色采用卡通風(fēng)格,看起來生動(dòng)有趣;目標(biāo)是跳過障礙物,盡可能長時(shí)間地存活。
GPT?5能幫助用戶梳理模糊想法,將其轉(zhuǎn)化為富有感染力的文字,更好地協(xié)助用戶起草和編輯報(bào)告、郵件、備忘錄等。在自由形式寫作中的指令遵循能力測試中,GPT?5得分99%。
GPT?5在自由形式寫作中的指令遵循能力測試中的表現(xiàn)。
追求更成熟的工程化產(chǎn)品
目前,GPT-5面向所有用戶開放,Plus訂閱用戶可獲得更多使用額度,Pro訂閱用戶則能訪問GPT-5 Pro 版本,該版本具備擴(kuò)展推理能力,可提供更全面精準(zhǔn)的回答。
劉興亮表示,此次GPT-5直接變成ChatGPT默認(rèn)款,會(huì)根據(jù)任務(wù)自動(dòng)決定“快答”還是“深想”,也能手動(dòng)切到“GPT-5 Thinking/Pro”實(shí)現(xiàn)更長推理。GPT-5面向所有用戶開放,付費(fèi)用戶只是額度更高,同時(shí)上線語音升級、學(xué)習(xí)模式,以及接入了Gmail、日歷等“生活插件”,總體來看就是少折騰“菜單”,多交付結(jié)果。商業(yè)層面上,GPT-5更像一臺利潤引擎,鋪開給全體用戶,押注企業(yè)用量放大。
“大家需要的是一個(gè)專業(yè)化的產(chǎn)品,并不是一個(gè)聊天搭子。”田豐表示,OpenAI正朝著典型的產(chǎn)品型公司發(fā)展,GPT-5和GPT-4的最大區(qū)別是產(chǎn)品越做越好,而醫(yī)療、編程等領(lǐng)域?qū)I產(chǎn)品的要求就是嚴(yán)謹(jǐn)?!癘penAI非常明確,它并不是在科研領(lǐng)域追求AGI,而是在產(chǎn)品領(lǐng)域追求一個(gè)更成熟的工程化產(chǎn)品。這和谷歌DeepMind的路完全不一樣?!?/p>
田豐表示,未來新模型將更多承擔(dān)營收任務(wù)。盡管B端行業(yè)是OpenAI的營收重點(diǎn),但OpenAI期望在C端產(chǎn)品層面打造出AI原生應(yīng)用的爆款工具,“To C的估值顯然要比To B大很多?!?/p>
在GPT-5發(fā)布前,OpenAI推出自GPT-2以來的首批開源權(quán)重語言模型gpt-oss-120b與gpt-oss-20b,可在高端筆記本和手機(jī)上運(yùn)行。田豐表示,OpenAI的目標(biāo)一直是在閉源模型領(lǐng)域做到最強(qiáng),最近的開源是一個(gè)“別扭”的舉動(dòng)。OpenAI并未將最強(qiáng)大的基礎(chǔ)模型開源,而是開源出端側(cè)小模型,這并不能支撐起開源大生態(tài),開發(fā)者無法大范圍二次開發(fā)。
責(zé)編:周順
一審:周順
二審:楊丹
三審:劉文韜
來源:澎湃新聞
我要問