国产美女爆乳午夜性涩视频_无码人妻精品一区二区三18禁_无码精品A∨在线观看十八禁下载_亚洲AvV无码一区二区在线播放

您的位置:首頁 >要聞 > 正文

梁文鋒帶隊DeepSeek,重置深度神經(jīng)網(wǎng)絡(luò)最底層的「定海神針」_速訊

來源:市場資訊2026-01-03 08:28:04

來源:騰訊科技 

新年第一天,DeepSeek在arXiv放出一篇相當(dāng)“硬核”的論文:mHC: Manifold-Constrained Hyper-Connections,時間戳是2025 年 12 月 31 日(v1)。


(相關(guān)資料圖)

作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),還出現(xiàn)了神龍見首不見尾的傳奇人物 Wenfeng Liang(梁文鋒)。

這篇論文要解決的,其實是一個“基礎(chǔ)設(shè)施級”的老問題:當(dāng)網(wǎng)絡(luò)深度與通道層層加碼,系統(tǒng)如何不走向崩塌?

01 從殘差的“定海神針”說起:為什么 x + F(x) 讓深度網(wǎng)絡(luò)能 work

熟悉神經(jīng)網(wǎng)絡(luò)里程碑歷史的都知道,殘差(Residual / Skip Connection)的發(fā)明,是深度神經(jīng)網(wǎng)絡(luò)能 work 的關(guān)鍵,從而為深度學(xué)習(xí)革命打穩(wěn)了基礎(chǔ)。何凱明/張祥雨也因此成名;那篇殘差論文的引用數(shù),據(jù)說在 AI 歷史上是絕對的首屈一指。

這是一項發(fā)生在十多年前、深度學(xué)習(xí)革命剛剛開啟時,他們在微軟做出的里程碑工作。后來,它成了深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn) practice:用x+f(x) 代替f(x)。這條看似樸素的改動,恰恰是為了保證多達幾百、上千層的網(wǎng)絡(luò),在不斷加深的(函數(shù))轉(zhuǎn)換中不至于“差之毫厘,失之千里”,從結(jié)構(gòu)上兜住訓(xùn)練的穩(wěn)定性(那條x 的直通路徑,本質(zhì)上就是恒等映射的安全繩)。

我們知道,大模型本質(zhì)上就是個圖靈機:在足夠的容量與數(shù)據(jù)驅(qū)動下,它可以規(guī)律性地把任何信號輸入x 變成任何其他信號輸出y,也就是實現(xiàn)某個f(x)。這就是所謂的萬能函數(shù)近似——老母雞變鴨的魔術(shù):文生圖、機器翻譯之類,看上去神奇,背后都是“把x 變成y”的系統(tǒng)性變換。正是在這個意義上,殘差網(wǎng)絡(luò)(ResNet)里x 這條直通連接線,成了大模型的定海神針。

因此,ResNet 的核心不是某個更復(fù)雜的卷積,而是那條看似樸素的“直通線”——讓每一層學(xué)習(xí) F(x),但輸出是 y = x + F(x)。原論文把這種 直通車道(shortcut) 設(shè)計解釋為“identity mapping”,它讓信息可以跨層穩(wěn)定傳遞。

你可以把它當(dāng)作在深度網(wǎng)絡(luò)這個“層層加工的工廠”里,額外修了一條不加工作業(yè)、直達下一站的傳送帶。于是深度從幾十層堆到幾百層、上千層時,也不至于在復(fù)合變換里越走越偏,最終訓(xùn)練崩盤。

ResNet 把每一層從“直接學(xué)一個函數(shù)”改成“學(xué)一個增量”。這就好比雕塑大師把人物雕塑工作,轉(zhuǎn)變?yōu)椤叭コ嘤嗟牟糠帧?。一塊大理石,多余的“殘差”去除殆盡,人物自然就成型了。

這件事的關(guān)鍵在于它把恒等映射(identity mapping)塞進了網(wǎng)絡(luò):哪怕F 學(xué)得一塌糊涂,x這條直通路徑也能把信號和梯度比較完整地送到更深處,從而讓幾百上千層不至于“越算越跑偏”。mHC 論文在引言里也把這點講得很直白:殘差的穩(wěn)定性,來自恒等映射跨層累積時的結(jié)構(gòu)性保障。

作為研究背景,一句話總結(jié)殘差的精神內(nèi)核:

讓網(wǎng)絡(luò)“可以很深”,靠的不是每層轉(zhuǎn)換多聰明,而是“永遠留一條‘不作妖’的直達通路”。

02 單車道不夠了:HC 把殘差流“擴建成多車道”

傳統(tǒng)殘差是一條殘差流(hidden state 的那條“主干通道”)。但當(dāng)模型越來越大,研究者會自然產(chǎn)生一個念頭:

既然殘差流像高速公路的主干,那我能不能把它從 1 條車道擴成 n 條車道,讓信息在不同車道之間更自由地交換、混合,表達力更強?

這就是 Hyper-Connections(HC)這類工作的出發(fā)點:把殘差流的寬度從 C 擴到 n×C,并引入一個可學(xué)習(xí)的混合矩陣,把“各條車道”的信息在每層重新路由。在 HC 原論文里,核心機制就是這種“復(fù)制 n 份 residual path、再在它們之間做連接”的宏觀結(jié)構(gòu)。

路修寬了,車更多了,理論上吞吐更大、信息更豐富。

但問題是:你把高速路擴建成多車道,最怕的不是車多,而是沒有交規(guī)。

03 HC 為什么會炸:無約束矩陣跨層復(fù)合變成“放大器”

殘差之所以穩(wěn),關(guān)鍵是 identity mapping 這條線天然具備一種“守恒”味道:

你至少能保證有一部分信號,不被層內(nèi)變換“瞎折騰”(帶偏)。但 HC 的混合矩陣完全自由學(xué)習(xí)、沒有任何約束,跨多層之后,實際上是在做一串矩陣連乘。

mHC 論文直說了:HC 的這種無約束設(shè)計在大規(guī)模訓(xùn)練時會破壞 identity mapping 作為“conservation mechanism(守恒機制)”的角色,導(dǎo)致平均信號強度無法保持,從而出現(xiàn)無界放大或衰減。

更直觀地講這種“放大器效應(yīng)”就是:

●如果某幾層學(xué)到的“殘差”在某些方向上“略大于 1”,

●經(jīng)過幾十層、上百層復(fù)合后,增長會呈指數(shù)積累,

●最終就是大家熟悉的兩種災(zāi)難:信號爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型訓(xùn)練的災(zāi)難。

不是 HC 多車道思路不對,而是它把原殘差網(wǎng)絡(luò)自帶的這根“定海神針”,拆成了“自由的放大鏈路”。

04 DeepSeek 的一招:把混合矩陣關(guān)進“雙隨機”的籠子里

mHC 的核心思想可以一句話概括:

你可以修立交橋、修多車道;但負責(zé)“指揮交通”的矩陣,必須服從一套嚴格的守恒規(guī)則。他們選擇的規(guī)則是:把殘差約束到所謂 雙隨機(doubly stochastic / bistochastic)矩陣集合上——元素非負、每一行和每一列都等于 1(歸一化)。

這樣做帶來三層非?!肮こ逃押谩钡姆€(wěn)定性保證:

凸組合(convex combination)解釋

  • 因為行列和為 1,殘差等價于對輸入特征做“加權(quán)混合”,但權(quán)重總量守恒,所以整體更像“攪拌”而不是“放大器”。均值守恒 + 范數(shù)被嚴格規(guī)整

  • 論文明確說:這種約束讓特征均值保持、信號范數(shù)被嚴格 regularize,從而緩解 信號爆炸/消失(vanishing/exploding)??鐚訌?fù)合仍然穩(wěn)定(乘法封閉性)

雙隨機矩陣相乘仍是雙隨機矩陣(非負性與行列和約束都能傳遞),因此“多層連乘”不會越乘越野,守恒性可以貫穿整個深度。翻譯成咱老百姓的話就是:

每一層的混合矩陣,本質(zhì)上像是在“若干種換道方案(置換)”之間做概率意義上的加權(quán)選擇。這就特別像一個“帶守恒約束的交通路由系統(tǒng)”:怎么換道都行,但總車流不能憑空變多或變少。另外,mHC 還對前后殘差引入非負約束(論文用 sigmoid 形式實現(xiàn)),避免正負系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消行為。

05 把“野矩陣”投影成“雙隨機矩陣”

“利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機矩陣流形上”,這里的核心是這一步:

  • 先讓矩陣元素變成嚴格正數(shù)

■然后反復(fù)做兩件事:

  • 歸一化每一行(讓行和=1)

  • 歸一化每一列(讓列和=1)

行列交替迭代,最終收斂到雙隨機結(jié)構(gòu)。你可以把所謂 Sinkhorn-Knopp 過程想象成一個“交警訓(xùn)練營”:

不管你原來學(xué)出來的“交警”矩陣多么放飛自我,進訓(xùn)練營一套隊列動作做完,它就必須滿足“行列守恒”的硬紀(jì)律,才能上崗指揮交通。關(guān)于“流形”(manifold)這個術(shù)語,可以這樣理解:

嚴格說雙隨機矩陣集合整體是個凸多胞形(邊界有棱角),但在其內(nèi)部(所有元素嚴格正)可以視為一個受約束的光滑空間;論文在工程語境里用“manifold”來表達“我們不讓參數(shù)在整個歐氏空間亂跑,而是限制在一個有幾何結(jié)構(gòu)的可行集合里”。

06 它不僅是數(shù)學(xué),更是工程:6.7% 的代價換穩(wěn)定與收益

把殘差流擴成 n 倍,直覺上顯存與通信都會爆炸。mHC 論文非常明確地把“系統(tǒng)開銷”當(dāng)作同等重要目標(biāo):它不僅提出數(shù)學(xué)約束,也在配套工程上做了 kernel fusion、選擇性重計算、以及在 DualPipe 調(diào)度里更激進的通信-計算重疊。

最后他們給出的系統(tǒng)級結(jié)論是:當(dāng)n = 4時,mHC只帶來約 6.7% 的額外訓(xùn)練時間開銷。

這點很關(guān)鍵:

如果只講“理論上更穩(wěn)”,我們會問“那是不是貴得用不起?”

而這篇論文顯然在回答:“我們把它做成了大訓(xùn)練里可落地的結(jié)構(gòu)升級。”

07 一句話總結(jié):mHC 的創(chuàng)新意義在哪?

HC 想把殘差從單車道升級成立交橋;mHC 做的,是給立交橋加上守恒型交通規(guī)則——用雙隨機約束恢復(fù) identity mapping 的穩(wěn)定性,同時把工程開銷壓到可接受范圍。

這也解釋了下列對應(yīng)關(guān)系:

  • 殘差的多流并行架構(gòu):殘差流從 C 變成 n×C,讓“通道”更多;

  • 連接矩陣受約束:核心是殘差不再自由,而是雙隨機;

  • Sinkhorn-Knopp:實現(xiàn)“投影/歸一化”的具體算法;

  • 解決數(shù)值不穩(wěn)定與信號爆炸:把跨層連乘的放大鏈條關(guān)進“守恒籠子”

殘差之所以穩(wěn),不是因為“加法神奇”,而是因為它隱含了某種守恒結(jié)構(gòu);

當(dāng)我們試圖把殘差升級成更復(fù)雜的拓撲時,真正需要被繼承的,是這份守恒,而不是加號本身。

關(guān)鍵詞:

最近更新