電子發燒友網報道(文/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級,當前版本為DeepSeek-R1-0528。次日,DeepSeek-R1-0528正式在Hugging Face平臺開源。用戶可通過官方網頁、App、小程序進入對話界面后,開啟“深度思考”功能體驗最新版本。API也已同步更新,調用方式不變。
DeepSeek-R1-0528編程能力提升最為顯著
DeepSeek-R1-0528仍然以2024年12月發布的DeepSeek V3 Base模型為基座,通過在后訓練過程中投入更多算力,顯著提升了模型的思維深度與推理能力。
官方稱,在數學、編程與通用邏輯等多個基準測評中,DeepSeek-R1-0528取得了當前國內所有模型中首屈一指的優異成績,并且在整體表現上接近其他國際頂尖模型,如OpenAI的o3 高版本與o4 mini模型、Google的Gemini-2.5-Pro等。
在編程能力方面,DeepSeek-R1-0528能力的提升最為顯著。知名代碼測試平臺Live CodeBench顯示,新版本性能可以媲美OpenAIo3模型的高版本。據測試者反饋,DeepSeek-R1-0528能夠一次性生成超千行無Bug代碼,且在HTML/CSS/JS動態交互實現(如天氣卡片動畫、數據可視化)中更加精準。另外,在模擬物理碰撞的編程任務中,其表現優于一些其他模型。它還能用Python 編寫將Word文檔中的圖片提取到固定路徑的小程序,在短時間內完成任務。
在復雜推理任務中,DeepSeek-R1-0528的表現也有顯著提升。在AIME 2025測試中,新版模型的準確率從舊版的70%提升至87.5%。這一提升得益于模型在解題過程中進行了更為詳盡和深入的思考,舊版模型平均每題使用12K tokens,而新版模型平均每題使用 23K tokens。此外,它還能正確回答“9.9 - 9.11 = ?”這類難倒其他頂流大模型的數字新難題。
在創意寫作能力上,DeepSeek-R1-0528 輸出的文本更加自然,結構更有層次感,展現出了獨特的推理風格,不僅速度很快,而且進行了充分的思考。在舊版R1的基礎上,DeepSeek-R1-0528 針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。
在其他能力方面,如幻覺改善,DeepSeek-R1-0528針對幻覺問題進行了優化。與舊版相比,更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了45~50%左右,能夠有效地提供更為準確、可靠的結果。
此外,DeepSeek-R1-0528 還支持工具調用功能,盡管不支持在 thinking 中進行工具調用,但在Tau-Bench測評中表現良好,與OpenAI o1-high相當。API方面,DeepSeek-R1-0528已同步更新,接口與調用方式保持不變,但增加了Function Calling 和JsonOutput的支持。
目前,百度智能云千帆大模型平臺正式上架了DeepSeek最新的R1-0528大模型。千帆模型開發平臺同步支持DeepSeek-R1最新版的批量推理、模型評估、推理日志挖掘分析以及模型蒸餾功能,全流程工具鏈支持企業構建自己的專屬大模型;千帆應用開發平臺上的企業級RAG、Agent、工作流、百度AI搜索組件等功能也完成對DeepSeek新模型全鏈路接入,支持企業基于DeepSeek-R1-0528定制專屬應用。文小言App也全面接入了DeepSeek最新模型。
騰訊旗下元寶、ima、搜狗輸入法、QQ瀏覽器等多款產品也已接入了 DeepSeek R1-0528版本。用戶打開元寶(電腦版、網頁版可搶先體驗)、ima、搜狗輸入法(Windows版側邊欄)、QQ瀏覽器,選擇DeepSeek模型R1深度思考,即可免費不限量使用。
全球AI大模型技術能力持續突破
近些年,全球大模型技術能力持續突破,原生多模態大模型成為技術演進的重要方向,通過打通視覺、音頻、3D等模態數據,實現端到端輸入輸出。例如,百度文心大模型4.5系列實現了文本、圖像和視頻的混合訓練,顯著提升了多模態理解能力。
基于長思維鏈的“慢思考”技術成為提升模型邏輯推理能力的關鍵。例如,OpenAI的o1模型通過強化學習和思維鏈技術,在STEM領域的推理能力顯著增強,并具備自我反思與錯誤修正能力。
模型參數量呈指數級增長,例如從GPT-2的15億參數躍升到GPT-4的數千億參數。同時,訓練數據集規模每八個月翻一番,推動了模型性能的持續提升。
目前全球各大模型呈現多元化競爭態勢,國內外模型在不同唯獨展開激烈競爭。從技術能力上來看,在國外,OpenAI的GPT系列(如GPT - 4)通過大規模訓練和計算資源,在生成文本和理解語言方面表現出色,具備強大的語言理解和生成能力,在復雜的文本生成和學術研究領域占據優勢。Google的Gemini系列結合了Google Brain和DeepMind技術,追求極致的多模態和推理性能,在多模態支持方面具備最全面的能力,如原生支持文本、圖像、音頻、視頻和代碼等多種模態輸入輸出。
在國內,DeepSeek通過創新的算法優化和高效的資源利用,提供了具備競爭力的選擇。其DeepSeek - R1模型在推理速度和計算資源消耗方面具有顯著優勢,在推理能力、編程表現及交互體驗方面實現顯著突破,在數學、編程與通用邏輯等多個基準測評中取得了國內領先的成績。百度的文心大模型在自然語言處理、知識圖譜構建等方面技術成熟,廣泛應用于智能搜索、智能寫作、智能客服等領域。商湯科技專注于計算機視覺和深度學習技術,在圖像識別、視頻分析等方面的技術實力強勁,其大模型在智能安防、智慧城市等領域有廣泛應用。
從應用場景上來看,國外GPT - 4適用于跨國智庫咨詢、新藥研發分子關系推理等場景。摩根士丹利使用GPT - 4.5生成投行報告,分析師效率提升70%。Gemini系列適用于跨境電商客服、全球輿情監控等場景,沃爾瑪定制Gemini客服系統,支持50種語言實時翻譯。
國內DeepSeek在智能客服、醫療健康等領域具有強大潛力。文心一言深度綁定政企市場,覆蓋98%部委合規標準,在國企流程自動化、醫療病歷結構化分析等場景有應用,如國家衛健委疫情政策解讀報告生成。通義千問在電商場景表現突出,是電商場景霸主,在直播腳本生成、競品輿情分析準確率超90%,如天貓雙11自動生成百萬級個性化商品描述。
從生態方面來看,國外OpenAI憑借其強大的語言理解和生成能力,吸引了全球的開發者和企業。Google依托谷歌TPU算力壟斷和搜索數據優勢,推動Gemini系列的發展。
國內百度匯聚了大量高端人才,平臺技術發展全面且快速,文心大模型在內部和外部應用方面雙向發力,積累了較多行業應用案例。阿里電商生態加持通義千問,使其與阿里云無縫集成,可一鍵調用云計算、支付、物流接口。騰訊整合微信、游戲生態,調用微信社交語料,生成“網感”最強內容,在游戲NPC交互方面,實時生成劇情對話,玩家留存率提升25%。
寫在最后
可以預見,隨著產業鏈技術的不斷成熟,大模型將在更多行業得到廣泛應用,推動各行業的智能化發展。隨著生成式模型在圖像、視頻側的處理能力提升,疊加推理優化帶來的降本,AI超級應用有望出現,改變人機交互方式。從市場趨勢來看,全球大模型行業市場規模將持續擴大,頭部企業將鞏固地位,新興企業將尋求突破。開源社區、合作伙伴和應用開發者將成為生態競爭的關鍵。完善的生態系統將增強用戶粘性,促進技術創新。
-
AI
+關注
關注
88文章
34428瀏覽量
275815 -
百度
+關注
關注
9文章
2328瀏覽量
91899 -
DeepSeek
+關注
關注
1文章
783瀏覽量
1436
發布評論請先 登錄
百度搜索接入DeepSeek,業內人士開始擔心

如何使用OpenVINO運行DeepSeek-R1蒸餾模型

實戰案例 | 299元國產工業級AI核心板部署DeepSeek-R1

RK3588開發板上部署DeepSeek-R1大模型的完整指南
百度搜索全量接入DeepSeek-R1滿血版
Infinix AI接入DeepSeek-R1滿血版
了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
百度智能云發布昆侖芯三代萬卡集群及DeepSeek-R1/V3上線
軟通動力天璇MaaS融合DeepSeek-R1,引領企業智能化轉型
deepin UOS AI接入DeepSeek-R1模型
芯動力神速適配DeepSeek-R1大模型,AI芯片設計邁入“快車道”!

評論