别隻盯着最強模型了，Agent 場景更該看這類 Flash 檔模型_企業新聞稿

首頁

新聞稿中心

别隻盯着最強模型了，Agent 場景更該看這類 Flash 檔模型

2026-07-01 09:39

　　/朝聞通/最近，GLM 5.2 接連刷屏，國産模型又熱鬧起來了。

　　加上 DeepSeek V4、MiniMax M3.還有階躍星辰的 Step-3.7-Flash，國産大模型這一波可以說是你追我趕，熱度一下子又上來了。

　　可能有小夥伴對階躍模型不熟悉哈，階躍也是AI六小虎之一。

　　對于我們這些AI博主來說，日常就會使用到這些模型。針對這幾個模型的使用大體分為兩類。

　　「Pro/旗艦」和「Flash/效率型」兩類

　　Pro/旗艦：能力上限更高

　　這一檔代表的是各家最強模型，通常适合複雜推理、長鍊路規劃、多輪任務拆解、代碼架構設計、深度研究這類場景。

　　Pro 檔可以理解為各家模型裡的旗艦能力層，主要面向複雜推理、代碼工程、長鍊 Agent 和高價值任務。海外代表包括 GPT 旗艦系列、Claude Opus、Gemini Pro;國内則可以對應 DeepSeek Pro 系列、千問 Max、高能力版 Kimi、豆包旗艦模型，以及 GLM 的高能力版本。

　　這類模型的優勢是能力強、穩定性高、理解複雜任務更穩。但代價也明顯：成本更高、速度未必最快。

　　Flash/效率型：模型能力的平衡點

　　Flash 檔更适合生産環境裡的高頻調用。

　　它不一定追求所有榜單第一，但要做到三件事：響應快、成本低、任務完成率穩定。

　　在各種Agent調用，比如數據處理Agent，辦公Agent等等。需要連續性，成本控制的模型。

　　它不是“低配版 Pro”，準确說是面向效率型 Agent 場景的獨立品類。

　　測試一下實際效果怎麼樣。

　　工具選用Trae。全局使用統一的Trae設置，同一個項目。

　　每個模型都單獨跑一遍，測試開始前，項目環境和緩存狀态保持一緻。

　　制作項目測試集，查看模型在高頻任務，代碼質量，速度這些方面的能力。

　　Step-3.7-Flash

　　更适合放進 Agent 工作流裡。

　　之前做了一個新聞收集項目，需要開發一些測試類來對接口進行測試穩定性。

　　先讓AI整理一下測試提示詞。

　　把準備好的提示詞先丢給他。

　　差不多5分鐘的時間，測試類就生成好了。

　　優化一下依賴，Agent自動進行了42次測試。

　　差不多一次性完成了80%，因為有些依賴問題，進行了二次檢測和修改。

　　代碼量在900行左右。

　　消耗token輸入和輸出合計在500萬左右。

　　消耗金額在3.5元左右。

　　然後我們用GPT5.4模型來進行同樣的測試。

　　GPT5.4

　　GPT5.4屬于Pro檔模型。

　　同樣的任務，GPT寫的代碼質量相對要好一點，中間沒有二次優化，對于代碼測試集來說，兩者差距并不大。

　　這種測試類型的代碼相對比較簡單，主要就是看模型的多路書寫能力。

　　GPT5.4的消耗就要比Step-3.7-Flash高出不少。因為GPT5.4需要長思考，所以對于簡單高頻的任務來說，時間上可能會比較慢。

　　在Trae的資源管理裡面，可以看見這次消耗了1美元，那差不多就是Step-3.7-Flash的兩倍用量。國外的模型本來就比較貴，中國模型有天然的優勢。

　　效果差不多是GPT5.4的90%，成本為GPT5.4的1/2.

　　Deepseek-V4-Flash。

　　Deepseek 就不用多介紹了，屬于很多人接觸國産大模型的第一站。

　　它最大的特點不是花裡胡哨，而是穩定、便宜、生态成熟。你平時寫文章、改文案、做資料整理、寫代碼、做方案，大部分場景它都能頂上。

　　如果說其他模型有些是偏專項能力，Deepseek 更像一個通用底座。

　　這裡采用deepseek-V4-Flash。

　　同樣在Trae裡面測試這個模型生成測試集代碼的質量和實效。

　　幾分鐘後文件就創建好了。

　　有一個小問題，代碼也有一部分報錯信息，需要二次調整。

　　生成的代碼質量還可以，測試鍊路也可以跑通，隻不過有一個小問題，就是deepseek-V4-Flash自己寫的代碼進行測試的時候，消耗時間要比前面這兩個模型長一些，可能是測試内容比較多。

　　消耗了120萬左右的token，費用在0.2元左右，沒辦法，deepseek價格的确是他最大的優勢。

　　GLM5.2

　　GLM5.2屬于Pro檔模型。

　　GLM5.2 更适合放在長任務和 AI Coding 場景裡看。

　　這類模型不能隻看它會不會聊天。更關鍵的是，它能不能在一個比較長的任務裡堅持跑下去。

　　比如讓它讀完整項目代碼，理解目錄結構，分析問題在哪裡，然後一步步修改、測試、繼續修。這個過程對模型要求很高。上下文不夠，前面看過的東西後面就忘了;工具調用不穩，跑一半就斷;規劃能力不行，很容易改着改着跑偏。

　　GLM5.2 的定位就很明顯：長上下文、長任務、Agent 工作流。

　　同樣的任務進行測試看看效果如何。總體運行時間在15分鐘左右，這就是Pro模型的特點，能力強沒的說，但在實效上肯定就要落後一點。

　　需要的測試代碼也是正常生成的。

　　Agent自動幫我們進行了測試。對每個類别進行了多次測試。

　　測試中有一個失敗。Agent識别後也是快速得到了修複。

　　但是GLM5.2有一個很明顯的問題，就是不穩定，不穩定是因為使用的人太多了有時候要排隊，其次就是價格問題。

　　這個任務消耗了9.8.但實際消耗了12塊左右。

　　我也打算嘗試使用聚合平台來測試，在聚合平台上面使用gemini-3.5-flash，來進行測試。但測試到一半就不行了，因為太貴。我以為十元可以跑完這個測試，但是跑一半就提示餘額不足了。

　　而且利用聚合平台還有一個問題就是不穩定。

　　最後

　　所以這篇測下來，我對 Step-3.7-Flash 的定位會更清楚一點。

　　它不是去和 Pro 檔硬拼極限推理，也不是去和效率檔拼最低單價。它更像是卡在中間那個最實用的位置：速度夠快、成本能控、穩定性也能支撐連續任務。

　　尤其是生産級 Agent 場景裡，這個優勢會更明顯。比如高頻調用、多輪執行、低延遲響應、代碼測試、數據處理、辦公自動化，再加上一些多模态輸入，這類任務并不一定需要最強模型，但一定需要模型跑得快、跑得穩、跑得便宜。

　　從這個角度看，Step-3.7-Flash 更像是“效率前沿”賽道裡的綜合最優解。

　　如果你的任務是複雜長鍊推理、深度研究、架構級代碼設計，那還是優先選 Pro 檔。但如果是日常生産環境裡的高頻 Agent 工作流，我會更傾向于先把 Step-3.7-Flash 放進候選名單裡。

消息來源: 朝聞通新聞稿發布平臺

精選圖文

鴻蒙版快手大更新：連麥、聽視頻、找工作，這20項新功能太實用了

北上深圳深耕精密制造，楊建文從小密封圈闖出千億玻璃産業

鴻蒙版快手大更新：連麥、聽視頻、找工作，這20項新功能太實用了

聯想樂享超級智能體重磅升級交互跨越“問答”直指“辦成事”

别隻盯着最強模型了，Agent 場景更該看這類 Flash 檔模型

TUV北德受邀亮相中國具身智能與人形機器人創新峰會，一站式賦能全品類機器人發展

先鋒泰坦攜手德國Crylas 推出單頻連續深紫外266nm 200mW高功率激光器中國區樣機

中科聞歌發布海彙TokSea，一站式接入辦公、科研、編程大模型

别隻盯着最強模型了，Agent 場景更該看這類 Flash 檔模型

精選圖文

相關關鍵詞:

汽車與交通最近新聞稿

IT科技與互聯網最近新聞稿

零售業最近新聞稿

消費者科技最近新聞稿

能源化工與環保最近新聞稿

時尚與藝術最近新聞稿

旅遊與酒店最近新聞稿

搜尋

别隻盯着最強模型了，Agent 場景更該看這類 Flash 檔模型

精選圖文

相關關鍵詞:

汽車與交通 最近新聞稿

IT科技與互聯網 最近新聞稿

零售業 最近新聞稿

消費者科技 最近新聞稿

能源化工與環保 最近新聞稿

時尚與藝術 最近新聞稿

旅遊與酒店 最近新聞稿

汽車與交通最近新聞稿

IT科技與互聯網最近新聞稿

零售業最近新聞稿

消費者科技最近新聞稿

能源化工與環保最近新聞稿

時尚與藝術最近新聞稿

旅遊與酒店最近新聞稿