別盯着GPU了，CPU正成為AI時代的“新瓶頸”

在AI狂飆的這些年裡，產業幾乎被一條邏輯主導：算力決定上限，而GPU就是算力的核心。

不過，進入2026年，這套邏輯開始變動：模型推理不再是唯一瓶頸，系統效能越來越取決於執行與調度能力。 GPU依然重要，但決定AI「能不能跑起來」的關鍵，正逐漸轉向長期被忽略的CPU。

美國當地時間4月9日，Google與英特爾達成多年協議，在全球AI資料中心規模部署英特爾的“Xeon至強處理器”，正是為了破解這個瓶頸。英特爾CEO陳立武直言，AI運作在整個系統上，CPU和IPU才是效能、效率和彈性的關鍵。換句話說，過去兩年被當作「配角」的CPU，正在卡住AI擴展的脖子。

CPU不再只是一個被動的配套元件，而正在成為AI基礎架構中的關鍵變數之一。

01 一場「悄無聲息」的供應危機

當大家都盯著GPU的交貨週期時，CPU市場的緊張氣氛已經悄悄拉滿。

根據多家IT分銷商的最新報告，2025年第四季度，伺服器CPU的平均售價上漲了約30%。這種漲幅在相對成熟的CPU市場是非常罕見的。

AMD資料中心負責人福雷斯特‧諾羅德（Forrest Norrod）透露，過去三個季度，CPU需求的成長速度超乎想像。目前，AMD的交付週期已經從原來的八週延長到了十週以上，部分型號甚至面臨長達六個月的延遲。

這種短缺主要由於「次級效應」引發的擠兌。有業內人士表示，由於台積電的3nm生產線極為緊張，原本分配給CPU的晶圓產能，正不斷被利潤更高的GPU訂單資源擠佔。這導致了一個極具諷刺意味的局面：AI實驗室擁有了足夠的GPU，卻發現市場上買不到足夠的頂級CPU來「帶」動這些顯示卡。

在這一輪CPU搶購潮中，還有伊隆·馬斯克（Elon Musk）。

英特爾執行長陳立武在社群平台上證實，馬斯克已委託英特爾為其在德州的「Terafab」計畫設計並製造客製化晶片。這個龐大的專案旨在為xAI、SpaceX和特斯拉提供統一的計算底座。

馬斯克對英特爾的信任，很大程度上是因為英特爾正試圖將自己嵌入從地面資料中心到太空軌道計算的每個層面。

對英特爾來說，這無疑是一劑強心針。有產業分析師預測AMD在伺服器CPU市場的營收份額將在2026年超過英特爾，但英特爾在x86生態系統中的深厚慣性和製造能力，依然是馬斯克這類大客戶無法忽視的籌碼。

這種跨產業的深度捆綁，正讓CPU市場的競爭從單純的參數比拼，升級為生態系與供應鏈穩定性的賽局。

02 為什麼CPU會成為「短板」？

CPU突然成為瓶頸，核心是它需要承擔的工作，在智能體時代發生了根本性變化。

在傳統聊天機器人模式中，CPU主要負責調度和資料處理，GPU承擔核心推理計算。由於運算密集型環節集中在GPU側，整體延遲通常由GPU主導，CPU很少成為效能瓶頸。

但智能體工作負載完全不同。一個智能體需要執行多步驟推理、呼叫API、讀寫資料庫、編排複雜業務流，並將中間結果整合為最終輸出。搜尋、API呼叫、程式碼執行、檔案I/O和結果編排等任務，大部分落在CPU和主機系統側。 GPU負責token生成（即「思考」），而CPU負責將「思考」結果轉化為實際行動。

喬治亞理工學院學者在2025年11月發表的論文《以CPU為中心的智能體型AI視角》（A CPU-Centric Perspective on Agentic AI）中，對智能體工作負載中的延遲分佈進行了量化分析。研究發現，CPU端工具處理所佔用的時間，佔總延遲的50%至90.6%。在某些場景下，GPU已準備好處理下一批任務，而CPU仍在等待工具呼叫返回。

另一個關鍵因素是上下文視窗的快速擴展。 2024年，主流模型大多支援128K至200K token。進入2025年，Gemini 2.5 Pro、GPT-4.1、Llama 4 Maverick等模型均開始支援100萬token以上。 KV快取（Key-Value Cache，用於加速Transformers模型推理過程）隨token數量線性成長，在100萬token時約為200GB，遠超單塊H100的80GB顯存容量。

對於這類問題的解決方案之一是將KV快取部分卸載至CPU記憶體。這意味著CPU不僅要管理編排和工具調用，還要協助承載顯存放不下的資料。 CPU記憶體容量、記憶體頻寬以及CPU與GPU之間的互連速度，由此成為系統效能的關鍵。

因此，適合智能體時代的CPU，更需要低延遲、一致的記憶體存取能力，以及更強的系統級協同能力，而不是單一的核心規模擴張。

03 廠商們都在做什麼？有人搶地盤，有人改設計

面對這場突然爆發的CPU需求，幾家大廠的打法完全不同。

英特爾佔據傳統伺服器CPU的首位。 Mercury Research的數據顯示，2025年第四季，英特爾在伺服器CPU市場仍佔60%的份額，AMD佔24.3%，英偉達佔6.2%。但英特爾這些年一直在追趕新技術，這次CPU需求的爆發對他們來說，既是機會也是考驗。

英特爾現在的策略是兩條腿走路。一邊是繼續賣至強處理器，跟Google這樣的超大規模客戶深度綁定；另一邊跟SambaNova合作，推出基於至強處理器與其自研RDU加速器的組合方案，主打「不用GPU也能跑智能體推理」的賣點。至強6 Granite Rapids和18A製程的路線圖，將是檢驗英特爾能否翻盤的關鍵。

AMD則是這次CPU需求爆發中最大的受益者之一。 2025年第四季，AMD資料中心營收54億美元，年增39%。第五代EPYC Turin佔了伺服器CPU收入的一半以上，運行EPYC的雲端實例部署年增超過50%。 AMD的伺服器CPU營收份額首次突破40%。

AMD CEO蘇姿豐（Lisa Su）把成長原因直接歸到了「智能體」的發展——智能體工作負荷把任務「推回」到了傳統CPU任務上。

2026年2月，AMD也宣布了一項與Meta的潛在交易，價值超過1000億美元，供應MI450 GPU和Venice EPYC CPU。

不過，AMD在系統層級協同方面仍有提升空間，缺乏類似NVLink C2C這樣成熟的高速CPU-GPU互連能力。隨著智能體（Agent）系統對資料互動與協同效率要求不斷提高，這一環節的重要性也逐漸上升。

英偉達設計CPU的思路，跟英特爾和AMD完全不一樣。

英偉達Grace CPU只有72個核心，而AMD EPYC和英特爾至強通常是128個。英偉達AI基礎設施負責人迪昂·哈里斯（Dion Harris）解釋稱：“如果你是超大規模企業，你希望最大化每個CPU的核心數量，這基本上會降低成本，即每核心的美元成本。所以這是一種商業模式。”

換句話說，在AI算力體系裡，CPU的角色不再是通用運算主力，而是為GPU服務的「調度中樞」。如果CPU跟不上，昂貴的GPU就會被迫等待，整體效率反而下降。

因此，英偉達在設計上優先確保CPU與GPU之間的高效能協同。例如透過NVLink C2C互連，將CPU與GPU之間的頻寬提升到約1.8TB/s，遠高於傳統PCIe，CPU可以直接存取GPU內存，KV快取管理一下子簡單了許多。

目前，英偉達已將Vera CPU作為獨立產品銷售。 CoreWeave是第一個客戶。與Meta的交易更誇張，這是其第一次大規模“純Grace部署”，也就是CPU在沒有GPU配對的情況下大規模獨立部署。

研究機構Creative Strategies首席分析師本·巴賈林（Ben Bajarin）指出，在高強度的系統協作中，CPU的處理能力必須能夠匹配加速器的迭代速度。如果資料通道出現哪怕百分之一的延遲，整個AI集群的經濟效益就會大打折扣。這種對極致系統效率的追求，正迫使所有大廠重新檢視CPU的性能指標。

Constellation Research副總裁兼首席分析師霍爾格·穆勒（Holger Mueller）表示，隨著AI工作負載向智能體驅動架構轉變，CPU的地位正變得愈發核心。他指出：“在智能體世界中，智能體需要呼叫API和各類業務應用程序，這些任務最適合由CPU來完成。”

他也補充說：「目前，關於GPU和CPU誰更適合處理推理任務，尚無定論。GPU在模型訓練方面佔據優勢，而像TPU這樣的定制ASIC也有其專長。但有一點是明確的：谷歌需要採用混合處理器架構。因此，谷歌選擇與英特爾展開合作是合理的」。

04 結語：智能體時代，算力天平回擺

在最新的產業觀察中，一個數據需要我們注意。在亞馬遜AWS與OpenAI高達380億美元的合作協議中，其官方也明確提到了「數千萬個CPU」的擴展規模。

在過去幾年，通常情況下，行業的關注焦點總是那「數十萬個GPU」。然而，OpenAI等前沿實驗室主動將CPU規模作為一個重要的規劃變量，向外界傳遞了一個清晰的訊號：智能體工作負載的擴展，必須建立在龐大的CPU基礎設施之上。

美國銀行預測，到2030年，全球CPU市場規模可望從目前的270億美元翻倍至600億美元。這多出來的份額，幾乎全部將由AI驅動。

我們正在見證一種全新的基礎設施開始擴張。：大廠不再只堆GPU，而是同步擴張一整層“CPU調度基礎設施”，專門為AI智能體提供運作支撐。

英特爾與Google的聯手，以及馬斯克對客製化晶片的重金投入，都在證明一個事實：AI競賽的致勝點正在前移。當算力不再稀缺，誰能先解決系統級的“瓶頸”，誰才能在這場萬億級的遊戲中笑到最後。

華客|新聞與歷史：別盯着GPU了，CPU正成為AI時代的“新瓶頸”

探索更多來自華客的內容

訂閱即可透過電子郵件收到最新文章。

別盯着GPU了，CPU正成為AI時代的“新瓶頸”

分享此文：

相關

探索更多來自 華客 的內容

探索更多來自華客的內容