中文字幕在线一二三区,麻豆成人精品

解讀｜遠(yuǎn)未達(dá)到AGI但是一款好產(chǎn)品的GPT-5，或成為OpenAI的利潤引擎

澎湃新聞 2025-08-09 08:52:10

GPT-5終于現(xiàn)身了，這款被OpenAI稱為目前“最聰明、最智能”的新旗艦?zāi)Ｐ蜏p少了幻覺、改善了指令遵循，在視覺推理、智能編程、研究生級科學(xué)問題解決等多項(xiàng)能力上，僅需使用OpenAI o3模型50%-80%的輸出token，就能實(shí)現(xiàn)更優(yōu)表現(xiàn)。

數(shù)字經(jīng)濟(jì)學(xué)者劉興亮8日在接受澎湃科技采訪時(shí)表示，從“選模型”到“模型會(huì)選自己”，GPT-5形態(tài)進(jìn)化，OpenAI正聚焦“少折騰菜單，多交付結(jié)果”。GPT-5寫代碼更少廢話、走流程更少走神，但在寫作質(zhì)感和AGI跨度上并沒有達(dá)到他的想象，可以先將其當(dāng)成“超級實(shí)習(xí)生”。商業(yè)層面上，GPT-5更像一臺利潤引擎，鋪開給全體用戶，押注企業(yè)用量放大。

快思慢想研究院院長、原商湯智能產(chǎn)業(yè)研究院創(chuàng)始院長田豐則表示，GPT-5專業(yè)推理能力更強(qiáng)，幻覺更少，但遠(yuǎn)未達(dá)到AGI，其通用泛化能力不足，多模態(tài)能力也并未形成巨大的領(lǐng)先優(yōu)勢?？傮w來看，GPT-5并未像GPT-3或GPT-3.5那樣對人們形成巨大沖擊，而是沿著現(xiàn)有方向進(jìn)一步提升推理能力。不過，GPT-5和GPT-4的最大區(qū)別是產(chǎn)品越做越好，新模型將更多承擔(dān)營收任務(wù)。

自動(dòng)決定“快答”還是“深想”

GPT-5采用一體化系統(tǒng)設(shè)計(jì)，其中，智能高效的基礎(chǔ)模型可以處理大多數(shù)問題，深度推理模型GPT-5 Thinking專攻復(fù)雜難題，實(shí)時(shí)路由系統(tǒng)能根據(jù)對話類型、問題復(fù)雜度、工具需求及用戶明確指令，快速?zèng)Q定調(diào)用哪個(gè)模型。也就是說，GPT-5懂得何時(shí)快速響應(yīng)，何時(shí)深入思考以提供專業(yè)級答案。

GPT-5的回答速度更快，在基準(zhǔn)測試中超越前代模型，在編程、數(shù)學(xué)、寫作、健康、視覺感知等領(lǐng)域達(dá)到先進(jìn)性能。在數(shù)學(xué)方面，無需工具的情況下，GPT-5在2025年AIME競賽數(shù)學(xué)測試中得分94.6%。

GPT-5在AIME競賽數(shù)學(xué)中的性能表現(xiàn)。

GPT-5在MMMU（多模態(tài)推理評估）中達(dá)到84.2%。在真實(shí)世界編程方面，GPT-5在SWE-bench Verified測試中得分74.9%，在Aider Polyglot測試中得分88%。而OpenAI o3在SWE-bench Verified測試中得分為69.1%，GPT-4o為30.8%。

在編程能力方面，GPT-5在SWE-bench Verified測試中得分74.9%。

借助GPT-5 Pro的擴(kuò)展推理能力，它還在GPQA（研究生級別專家推理）測試中創(chuàng)下新紀(jì)錄，無需工具即可達(dá)到88.4%的得分。

HealthBench是OpenAI今年早些時(shí)候發(fā)布的基于真實(shí)場景和醫(yī)生定義的評估標(biāo)準(zhǔn)。在HealthBench評估中，GPT-5得分顯著高于所有前代模型，得分為46.2%，是OpenAI目前最擅長處理健康相關(guān)問題的模型。它會(huì)主動(dòng)提出潛在問題，通過提問來提供更有幫助的答案。但它無法替代醫(yī)療專業(yè)人員，而是可以將其視為一個(gè)輔助伙伴，例如幫助用戶理解檢查結(jié)果、在與醫(yī)生溝通時(shí)提出恰當(dāng)?shù)膯栴}、在做決策時(shí)權(quán)衡各種選項(xiàng)。

盡管GPT-5的專業(yè)推理能力更強(qiáng)了，但田豐表示，這并不意味著它可以快速遷移到開放型任務(wù)鏈條上，GPT-5的泛化推理能力仍有待加強(qiáng)，多模態(tài)推理能力也沒有形成領(lǐng)先優(yōu)勢。

減少幻覺、改善指令遵循、誠實(shí)回答

OpenAI表示，團(tuán)隊(duì)在減少幻覺、改善指令遵循和減少奉承方面取得進(jìn)展。在測試中，GPT-5回應(yīng)出現(xiàn)事實(shí)錯(cuò)誤的概率比GPT-4o低約45%；在啟用思考功能時(shí)，其事實(shí)錯(cuò)誤率比OpenAI o3低約80%。

在訓(xùn)練過程中，推理模型通?？赡軙?huì)謊報(bào)任務(wù)完成情況，或?qū)Σ淮_定的答案表現(xiàn)得過于自信。但啟用思考功能的GPT-5能更誠實(shí)地向用戶說明自身的行動(dòng)與能力范圍，尤其針對那些不可能完成、描述不充分或缺乏關(guān)鍵工具支持的任務(wù)。

為測試這一點(diǎn)，OpenAI從多模態(tài)基準(zhǔn)測試測試CharXiv的提示詞中移除了所有圖像，結(jié)果發(fā)現(xiàn)OpenAI o3仍有86.7%的概率對不存在的圖像給出自信回答，而GPT-5的這一比例僅為9%。因此，在推理過程中，GPT-5能更準(zhǔn)確地識別任務(wù)何時(shí)無法完成，并清晰說明自身局限，回答更誠實(shí)。

GPT-5在指令遵循和智能體工具運(yùn)用的基準(zhǔn)測試中性能優(yōu)異，能執(zhí)行多步驟任務(wù)、協(xié)調(diào)不同工具并適應(yīng)語境變化。在實(shí)際應(yīng)用中，它能更好地處理復(fù)雜且動(dòng)態(tài)變化的任務(wù)。

GPT-5在復(fù)雜前端生成和大型代碼庫調(diào)試方面的性能突出，僅憑提示就創(chuàng)建出美觀且響應(yīng)迅速的網(wǎng)站、APP和游戲。

GPT-5創(chuàng)建的游戲。提示詞包括界面色彩豐富并帶有視差滾動(dòng)背景；角色采用卡通風(fēng)格，看起來生動(dòng)有趣；目標(biāo)是跳過障礙物，盡可能長時(shí)間地存活。

GPT?5能幫助用戶梳理模糊想法，將其轉(zhuǎn)化為富有感染力的文字，更好地協(xié)助用戶起草和編輯報(bào)告、郵件、備忘錄等。在自由形式寫作中的指令遵循能力測試中，GPT?5得分99%。

GPT?5在自由形式寫作中的指令遵循能力測試中的表現(xiàn)。

追求更成熟的工程化產(chǎn)品

目前，GPT-5面向所有用戶開放，Plus訂閱用戶可獲得更多使用額度，Pro訂閱用戶則能訪問GPT-5 Pro 版本，該版本具備擴(kuò)展推理能力，可提供更全面精準(zhǔn)的回答。

劉興亮表示，此次GPT-5直接變成ChatGPT默認(rèn)款，會(huì)根據(jù)任務(wù)自動(dòng)決定“快答”還是“深想”，也能手動(dòng)切到“GPT-5 Thinking/Pro”實(shí)現(xiàn)更長推理。GPT-5面向所有用戶開放，付費(fèi)用戶只是額度更高，同時(shí)上線語音升級、學(xué)習(xí)模式，以及接入了Gmail、日歷等“生活插件”，總體來看就是少折騰“菜單”，多交付結(jié)果。商業(yè)層面上，GPT-5更像一臺利潤引擎，鋪開給全體用戶，押注企業(yè)用量放大。

“大家需要的是一個(gè)專業(yè)化的產(chǎn)品，并不是一個(gè)聊天搭子。”田豐表示，OpenAI正朝著典型的產(chǎn)品型公司發(fā)展，GPT-5和GPT-4的最大區(qū)別是產(chǎn)品越做越好，而醫(yī)療、編程等領(lǐng)域?qū)I產(chǎn)品的要求就是嚴(yán)謹(jǐn)?！癘penAI非常明確，它并不是在科研領(lǐng)域追求AGI，而是在產(chǎn)品領(lǐng)域追求一個(gè)更成熟的工程化產(chǎn)品。這和谷歌DeepMind的路完全不一樣?！?/p>

田豐表示，未來新模型將更多承擔(dān)營收任務(wù)。盡管B端行業(yè)是OpenAI的營收重點(diǎn)，但OpenAI期望在C端產(chǎn)品層面打造出AI原生應(yīng)用的爆款工具，“To C的估值顯然要比To B大很多?！?/p>

在GPT-5發(fā)布前，OpenAI推出自GPT-2以來的首批開源權(quán)重語言模型gpt-oss-120b與gpt-oss-20b，可在高端筆記本和手機(jī)上運(yùn)行。田豐表示，OpenAI的目標(biāo)一直是在閉源模型領(lǐng)域做到最強(qiáng)，最近的開源是一個(gè)“別扭”的舉動(dòng)。OpenAI并未將最強(qiáng)大的基礎(chǔ)模型開源，而是開源出端側(cè)小模型，這并不能支撐起開源大生態(tài)，開發(fā)者無法大范圍二次開發(fā)。

責(zé)編：周順

一審：周順

二審：楊丹

三審：劉文韜

來源：澎湃新聞

我要問

日本www黄,欧美日韩成人在线观看,欧美专区在线观看,中文字幕+乱码+中文乱,99热少妇,伊人久久成人,久久伊人超碰