從今年春天開始,ChatGPT 的用戶會發現,回應變得更深、更有條理,甚至還會「慢半拍」地停頓幾秒,這就是 GPT o3 模型的運作方式。
生成式 AI 在過去幾年像是比武場,誰的神經元多、誰能「秒答」,誰就引來喝采;而 GPT o3 把比賽規則往後拉了一步:它先深吸一口氣,調用工具、鋪排推理,最後發力出刀。
這一慢一快之間,讓人聯想到日本武藝中的「居合」,將拔刀、出鞘、斬擊縮短至瞬間的技藝。然而勝負的關鍵,孕於出手錢靜止時的呼吸與蓄力。 GPT o3 的設計精神,正如居合:在出手前蓄勢、在沉默中推理,讓決策更準確、回應更有力。
自 GPT o3 起,推理過程本身就變得頗有「收視率」:在國外的熱門示範中,使用者丟一張照片給 o3,讓它推斷拍攝地點,你能清楚看到模型把圖片翻來覆去,放大局部、標示線索、甚至寫程式把野花輪廓抽出來,比對花期與海拔高度。結果,它成功鎖定坐標,展現宛如福爾摩斯的偵探功力。也就是多模態(multimodal)推理能力,讓 AI 模型透過多種不同資料體系來建構對世界的理解,例如視覺數據、聽覺數據、文字數據等。
GPT o3 還把搜尋結果、圖表、清單打包起來,讓資訊更豐富具互動性。比方說,4 張輪播照片帶你秒遊富良野;股價折線圖讓趨勢一目了然;製作賽程表和排名榜替球迷省去比對工夫。
Rich UI 與多模態推理的結合,可以理解為,AI 正逐步成為一種新的使用者介面(UI),顛覆我們熟悉的數位體驗。不再是你問問題等答案,而是 AI 理解你的需求、組織資訊、甚至主動出手解決問題。
要讓多模態與工具真正為推理服務,o3 把工作流區分成 3 個獨立通道,猶如設立 3 間專用工作室:
1.分析(analysis ): 靜默內心劇場,模型在這裡悄悄計算、試錯、修正,所有草稿都鎖在沙盒(封閉的訓練AI環境)中,外界看不到。
2.工具操作台(原文為commentary,中文為暫譯): 顯示模型呼叫搜尋、程式、圖表等外部工具的指令與結果,讓人類得以追蹤資料來源。
3.結果(final):綜合所有思考,給出簡明且驗證過的最終回答。
這樣的拆分具備 3 大效益:
1.可審計: 每一步決策都有跡可循,教師與開發者能回溯、調教模型;2.可防護: 商業機密或個資僅在 analysis 階段處理,不會流出沙盒;3.可伸縮: 高風險問題可拉長 analysis 深度;日常閒聊則縮短流程,保持流暢。
當多模態推理、Rich UI 的介面與慢思考的內功交織,o3 就能展現一種行為模式:先判斷資料缺口,決定是否外出取材,接著把結果整成一份可互動的檔案,就像一位研究員,先查文獻、跑實驗,再遞上圖表與結論。對用戶而言,得到的不只是答案,而是一條完整的知識鏈,也是一位可解釋的AI agent。AI 不再是黑盒子,每個決策都有辦法溯源以及理解思路。
前幾天,紅杉資本在舊金山舉行 6 小時閉門 AI 峰會,與會投資人進一步預測,2025 年將是 Agent 經濟元年。
150 位創業者與研究者圍繞一句話凝聚共識:「下一輪 AI,賣的不是工具,而是收益。」模型不再只販售 API 與功能,而是直接承諾商業結果。意思是 AI 不再只單純給答案,而是要真的完成任務,好比過去是顧問公司的顧問,而現在要成為按件計酬的實務工作者。
在這個框架裡,企業被重構成由任務節點串起的網絡;AI Agent 在當中自動接收目標、分拆子任務、交付成果。真正的競爭不在參數規模,而在誰能建立「自驅動、持續交付」的協作模式。語言模型的發展也正在為這個未來鋪路:多模態工具讓它能理解不同型態的數據,Rich UI 將成果封裝為互動介面讓人類容易理解,慢思考則扮演決策核心機制,讓每一步可追溯、可修正。
新節奏帶來新的張力。當語言模型從被動回答者轉為主動協作者,它不只告訴你「怎麼做」,還能「親自去做」。Rich UI 雖然精美,但精緻包裝也讓人們輕忽了幻覺。我們人類真的準備好了嗎?
>>本文經<經理人>同意轉載。
炎炎夏日來襲,氣溫節節攀升...
為什麼每次看盤,都在虧錢?這是...
狗狗分離焦慮症是什麼?症狀有哪...
根據麥肯錫(McKinsey ...
為什麼小貓一直呼嚕?原因是什麼...
有效的危機管理,就是要消除脆弱...