今天,我手握著世界上最大的計(jì)算機(jī)芯片。它的尺寸令人印象深刻,但速度更令人驚嘆,當(dāng)然也更為重要。大多數(shù)計(jì)算機(jī)芯片都很小,只有郵票大小甚至更小。相比之下,Cerebras WSE(晶圓級引擎)是一個(gè)邊長 8.5 英寸(22 厘米)的巨大正方形,最新型號的單芯片上集成了驚人的 40 億個(gè)晶體管。這數(shù)十億個(gè)晶體管使 WSE 創(chuàng)下了 AI 推理運(yùn)算的世界紀(jì)錄:比大致相當(dāng)?shù)?NVIDIA 集群快 2.5 倍左右。“這是世界上最快的推理速度,”Cerebras 首席信息安全官 Naor Penso 今天在溫哥華網(wǎng)絡(luò)峰會上告訴我?!吧现?,NVIDIA 宣布 Llama 4 達(dá)到了每秒 1,000 個(gè)tokens的速度,這令人印象深刻。我們今天剛剛發(fā)布了每秒 2,500 個(gè)tokens的基準(zhǔn)測試?!?/span>如果你對這些概念一頭霧水,可以把“推理”理解為思考或行動:根據(jù)輸入或提示構(gòu)建句子、圖像或視頻?!皹?biāo)記”則理解為思維的基本單位:單詞、字符或符號。AI 引擎每秒處理的 token 越多,它就能越快地提供結(jié)果。速度至關(guān)重要。對你來說可能并非如此,但當(dāng)企業(yè)客戶想要在購物車中添加 AI 引擎,以便他們能夠告訴你,只需再添加一種配料,就能做出韓式烤牛肉玉米卷時(shí),他們希望能夠立即為成千上萬的人提供這一服務(wù)。有趣的是,速度將變得更加重要。我們正在進(jìn)入一個(gè)代理時(shí)代,人工智能可以為我們執(zhí)行復(fù)雜的多步驟項(xiàng)目,比如計(jì)劃和預(yù)訂周末去奧斯汀觀看一級方程式賽車之旅。代理并非魔法:它們吃大象的方式和你吃大象的方式一模一樣……一次一口。這意味著將一個(gè)龐大的整體任務(wù)分解成40、50甚至100個(gè)子任務(wù)。這意味著更多的工作量。“人工智能代理需要做更多的工作,而且各種工作需要相互溝通,”彭索告訴我?!巴评硭俣炔荒芴?。”WSE 的 40 億個(gè)晶體管是實(shí)現(xiàn)如此速度的部分原因。相比之下,英特爾酷睿 i9 只有 335 億個(gè)晶體管,而蘋果 M2 Max 芯片也只有 670 億個(gè)晶體管。但構(gòu)成這臺計(jì)算速度“魔鬼”的不僅僅是數(shù)量。它還具備共置性:將所有功能集成到一塊芯片上,并配備 44GB 最快的 RAM(內(nèi)存)。“AI 計(jì)算需要大量內(nèi)存,”Penso 說,“NVIDIA 需要芯片外的計(jì)算,但有了Cerebras,就無需芯片外的計(jì)算了?!?/span>獨(dú)立機(jī)構(gòu) Artificial Analysis 證實(shí)了該速度聲明,稱他們已經(jīng)在 Llama 4 上測試了該芯片,實(shí)現(xiàn)了每秒 2,522 個(gè)tokens,而 NVIDIA Blackwell 的速度為每秒 1,038 個(gè)tokens。我們已經(jīng)測試了數(shù)十家供應(yīng)商,而 Cerebras 是唯一一款在 Meta 旗艦?zāi)P头矫鎰龠^ Blackwell 的推理解決方案,”Artificial Analysis 首席執(zhí)行官 Micah Hill-Smith 表示。WSE 芯片是計(jì)算機(jī)芯片設(shè)計(jì)的一個(gè)有趣的演變。雖然我們從 20 世紀(jì) 50 年代就開始制造集成電路,從 20 世紀(jì) 60 年代就開始制造微處理器,但幾十年來,CPU 一直是計(jì)算領(lǐng)域的主導(dǎo)力量。相對較近的是,GPU(圖形處理單元)從圖形和游戲的輔助工具轉(zhuǎn)變?yōu)槿斯ぶ悄荛_發(fā)的關(guān)鍵處理組件。Cerebras 首席營銷官 Julie Shin 告訴我,WSE 不是 x86 或 ARM 架構(gòu),而是一種全新的 GPU 加速架構(gòu)。“這不是一項(xiàng)漸進(jìn)式技術(shù),”她補(bǔ)充道?!斑@是芯片的又一次跨越式發(fā)展?!?/span>?
今天,我手握著世界上最大的計(jì)算機(jī)芯片。它的尺寸令人印象深刻,但速度更令人驚嘆,當(dāng)然也更為重要。大多數(shù)計(jì)算機(jī)芯片都很小,只有郵票大小甚至更小。相比之下,Cerebras WSE(晶圓級引擎)是一個(gè)邊長 8.5 英寸(22 厘米)的巨大正方形,最新型號的單芯片上集成了驚人的 40 億個(gè)晶體管。這數(shù)十億個(gè)晶體管使 WSE 創(chuàng)下了 AI 推理運(yùn)算的世界紀(jì)錄:比大致相當(dāng)?shù)?NVIDIA 集群快 2.5 倍左右。
“這是世界上最快的推理速度,”Cerebras 首席信息安全官 Naor Penso 今天在溫哥華網(wǎng)絡(luò)峰會上告訴我?!吧现?,NVIDIA 宣布 Llama 4 達(dá)到了每秒 1,000 個(gè)tokens的速度,這令人印象深刻。我們今天剛剛發(fā)布了每秒 2,500 個(gè)tokens的基準(zhǔn)測試?!?/span>
如果你對這些概念一頭霧水,可以把“推理”理解為思考或行動:根據(jù)輸入或提示構(gòu)建句子、圖像或視頻?!皹?biāo)記”則理解為思維的基本單位:單詞、字符或符號。
AI 引擎每秒處理的 token 越多,它就能越快地提供結(jié)果。速度至關(guān)重要。對你來說可能并非如此,但當(dāng)企業(yè)客戶想要在購物車中添加 AI 引擎,以便他們能夠告訴你,只需再添加一種配料,就能做出韓式烤牛肉玉米卷時(shí),他們希望能夠立即為成千上萬的人提供這一服務(wù)。有趣的是,速度將變得更加重要。我們正在進(jìn)入一個(gè)代理時(shí)代,人工智能可以為我們執(zhí)行復(fù)雜的多步驟項(xiàng)目,比如計(jì)劃和預(yù)訂周末去奧斯汀觀看一級方程式賽車之旅。代理并非魔法:它們吃大象的方式和你吃大象的方式一模一樣……一次一口。這意味著將一個(gè)龐大的整體任務(wù)分解成40、50甚至100個(gè)子任務(wù)。這意味著更多的工作量。“人工智能代理需要做更多的工作,而且各種工作需要相互溝通,”彭索告訴我?!巴评硭俣炔荒芴?。”WSE 的 40 億個(gè)晶體管是實(shí)現(xiàn)如此速度的部分原因。相比之下,英特爾酷睿 i9 只有 335 億個(gè)晶體管,而蘋果 M2 Max 芯片也只有 670 億個(gè)晶體管。但構(gòu)成這臺計(jì)算速度“魔鬼”的不僅僅是數(shù)量。它還具備共置性:將所有功能集成到一塊芯片上,并配備 44GB 最快的 RAM(內(nèi)存)。“AI 計(jì)算需要大量內(nèi)存,”Penso 說,“NVIDIA 需要芯片外的計(jì)算,但有了Cerebras,就無需芯片外的計(jì)算了?!?/span>獨(dú)立機(jī)構(gòu) Artificial Analysis 證實(shí)了該速度聲明,稱他們已經(jīng)在 Llama 4 上測試了該芯片,實(shí)現(xiàn)了每秒 2,522 個(gè)tokens,而 NVIDIA Blackwell 的速度為每秒 1,038 個(gè)tokens。我們已經(jīng)測試了數(shù)十家供應(yīng)商,而 Cerebras 是唯一一款在 Meta 旗艦?zāi)P头矫鎰龠^ Blackwell 的推理解決方案,”Artificial Analysis 首席執(zhí)行官 Micah Hill-Smith 表示。WSE 芯片是計(jì)算機(jī)芯片設(shè)計(jì)的一個(gè)有趣的演變。雖然我們從 20 世紀(jì) 50 年代就開始制造集成電路,從 20 世紀(jì) 60 年代就開始制造微處理器,但幾十年來,CPU 一直是計(jì)算領(lǐng)域的主導(dǎo)力量。相對較近的是,GPU(圖形處理單元)從圖形和游戲的輔助工具轉(zhuǎn)變?yōu)槿斯ぶ悄荛_發(fā)的關(guān)鍵處理組件。Cerebras 首席營銷官 Julie Shin 告訴我,WSE 不是 x86 或 ARM 架構(gòu),而是一種全新的 GPU 加速架構(gòu)。“這不是一項(xiàng)漸進(jìn)式技術(shù),”她補(bǔ)充道?!斑@是芯片的又一次跨越式發(fā)展?!?/span>?
AI 引擎每秒處理的 token 越多,它就能越快地提供結(jié)果。速度至關(guān)重要。對你來說可能并非如此,但當(dāng)企業(yè)客戶想要在購物車中添加 AI 引擎,以便他們能夠告訴你,只需再添加一種配料,就能做出韓式烤牛肉玉米卷時(shí),他們希望能夠立即為成千上萬的人提供這一服務(wù)。
有趣的是,速度將變得更加重要。
我們正在進(jìn)入一個(gè)代理時(shí)代,人工智能可以為我們執(zhí)行復(fù)雜的多步驟項(xiàng)目,比如計(jì)劃和預(yù)訂周末去奧斯汀觀看一級方程式賽車之旅。代理并非魔法:它們吃大象的方式和你吃大象的方式一模一樣……一次一口。這意味著將一個(gè)龐大的整體任務(wù)分解成40、50甚至100個(gè)子任務(wù)。這意味著更多的工作量。
“人工智能代理需要做更多的工作,而且各種工作需要相互溝通,”彭索告訴我?!巴评硭俣炔荒芴?。”
WSE 的 40 億個(gè)晶體管是實(shí)現(xiàn)如此速度的部分原因。相比之下,英特爾酷睿 i9 只有 335 億個(gè)晶體管,而蘋果 M2 Max 芯片也只有 670 億個(gè)晶體管。但構(gòu)成這臺計(jì)算速度“魔鬼”的不僅僅是數(shù)量。它還具備共置性:將所有功能集成到一塊芯片上,并配備 44GB 最快的 RAM(內(nèi)存)。
“AI 計(jì)算需要大量內(nèi)存,”Penso 說,“NVIDIA 需要芯片外的計(jì)算,但有了Cerebras,就無需芯片外的計(jì)算了?!?/span>
獨(dú)立機(jī)構(gòu) Artificial Analysis 證實(shí)了該速度聲明,稱他們已經(jīng)在 Llama 4 上測試了該芯片,實(shí)現(xiàn)了每秒 2,522 個(gè)tokens,而 NVIDIA Blackwell 的速度為每秒 1,038 個(gè)tokens。
我們已經(jīng)測試了數(shù)十家供應(yīng)商,而 Cerebras 是唯一一款在 Meta 旗艦?zāi)P头矫鎰龠^ Blackwell 的推理解決方案,”Artificial Analysis 首席執(zhí)行官 Micah Hill-Smith 表示。
WSE 芯片是計(jì)算機(jī)芯片設(shè)計(jì)的一個(gè)有趣的演變。
雖然我們從 20 世紀(jì) 50 年代就開始制造集成電路,從 20 世紀(jì) 60 年代就開始制造微處理器,但幾十年來,CPU 一直是計(jì)算領(lǐng)域的主導(dǎo)力量。相對較近的是,GPU(圖形處理單元)從圖形和游戲的輔助工具轉(zhuǎn)變?yōu)槿斯ぶ悄荛_發(fā)的關(guān)鍵處理組件。Cerebras 首席營銷官 Julie Shin 告訴我,WSE 不是 x86 或 ARM 架構(gòu),而是一種全新的 GPU 加速架構(gòu)。
“這不是一項(xiàng)漸進(jìn)式技術(shù),”她補(bǔ)充道?!斑@是芯片的又一次跨越式發(fā)展?!?/span>