Skip to content Skip to sidebar Skip to footer

華為 AI 晶片受挫:DeepSeek 為何在 R2 轉回 Nvidia?技術現實與產業啟示

華為 AI 晶片受挫:DeepSeek 為何在 R2 轉回 Nvidia?技術現實與產業啟示

引言

DeepSeek 原計劃以華為 Ascend 晶片訓練其新一代 R2 模型,但因「持續性的技術問題」最終無法完成訓練,被迫回到 Nvidia 平台,並推遲發佈時程。事件反映政策推動自立自強與工程落地之間的張力:在訓練穩定性與生態成熟度仍存差距的階段,採用成熟體系可降低風險、確保進度與品質。

事件概述

  • R1 於 1 月成功推出後,據《金融時報》報導,相關部門明確傳遞「用華為、不用 Nvidia」的訊息,DeepSeek 承受在地化硬體採用壓力。
  • R2 訓練在華為 AI 晶片上遭遇基礎性技術障礙,導致專案停滯,原定 5 月發佈計劃取消。
  • 兩位消息人士稱,華為派工程師進駐 DeepSeek 協助,但仍未能完成成功的訓練任務。
  • DeepSeek 已轉回使用 Nvidia 系統進行訓練;團隊仍嘗試在推理(Inference)階段使用華為晶片。
  • 創辦人梁文峰據報對 R2 整體進展不滿,要求團隊提升目標,以維持公司在產業中的領先地位。

核心技術問題:訓練 vs 推理

大模型的訓練與推理對硬體與生態的要求存在本質差異。

定義差異:

  • 訓練(Training): 相當於長期高強度的「大學深造」,需要龐大算力、長時間穩定性與成熟的軟硬體生態。
  • 推理(Inference): 類似畢業後的「解題應用」,對算力與穩定性要求相對較低。

關鍵挑戰: DeepSeek 的經驗顯示,華為晶片在推理端具備潛力,但在大規模訓練的穩定性與效率上尚未達到可行門檻,因此只能改回 Nvidia 完成訓練。

政策與市場背景

  • 政策導向: 北京持續鼓勵大型科技公司優先採用本土硬體;據《金融時報》,企業下單 Nvidia 符合出口規範的 H20 晶片需提供額外正當性說明。
  • 市場現實: 華為 CEO 任正非年內表示,美方「高估了華為的成就」,公司「還沒有那麼厲害」,其最佳晶片仍落後一代。
  • 產業影響: 政策可加速本土生態培育,但短期內可能迫使企業做出技術上較不利的選擇,影響產品時程與品質。

多方動態與進展

  • 技術支援: 華為工程團隊實地支援 DeepSeek,但未能完成有效訓練。
  • 策略調整: 以 Nvidia 平台完成訓練,同時探索在推理階段採用華為晶片,以兼顧性能與政策期待。
  • 研發壓力: R2 延宕使公司在快速演進的市場中承壓,管理層要求提高研發標準與目標。

行業影響與啟示

  • Nvidia 在大規模訓練的算力與軟體生態上仍具明顯領先優勢。
  • 大模型訓練對硬體穩定性、工具鏈成熟度要求極高,短板將直接反映在進度與成本。
  • 「訓練—推理分離」或為過渡期可行方案:以成熟平台完成訓練,於推理側逐步導入本土硬體,降低風險並累積生態能力。
  • 政策推進需兼顧企業落地節奏,在培育本土技術同時維持產品節點與市場競爭力。

結論

DeepSeek R2 由華為轉回 Nvidia 的案例顯示,在大型 AI 模型訓練場景中,工程穩定性與完整生態是決策核心。短期看,Nvidia 仍握有性能與生態優勢;中長期隨著本土硬體與工具鏈迭代、在推理場景的落地累積經驗,訓練端差距有望收斂。遵循工程規律、採取分階段與混合式策略,有助於兼顧技術自主與市場節奏。