神譯局是36氪旗下編譯團隊,關注科技、商業(yè)、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:在執(zhí)行特定類型任務,如圖像識別、語音識別等方面,AI已經(jīng)可以與人類相媲美了,甚至有時候已經(jīng)超越了人類。但這些AI事先必須經(jīng)過訓練,而訓練是個既耗時又耗計算能力的過程,有上百萬甚至幾十億的參數(shù)需要優(yōu)化。但最近研究人員做出了能瞬時預測參數(shù)的超網(wǎng)絡。通過利用超網(wǎng)絡(hypernetwork),研究人員現(xiàn)在可以先下手為強,提前對人工神經(jīng)網(wǎng)絡進行調(diào)優(yōu),從而節(jié)省部分訓練時間和費用。文章來自編譯。
劃重點:
人工智能是一場數(shù)字游戲,訓練耗時耗力
超網(wǎng)絡可以在幾分之一秒內(nèi)預測出新網(wǎng)絡的參數(shù)
超網(wǎng)絡的表現(xiàn)往往可以跟數(shù)千次 SGD 迭代的結果不相上下,有時甚至是更好
超網(wǎng)絡有望讓深度學習大眾化
人工智能在很大程度上是一場數(shù)字游戲。10 年前,深度神經(jīng)網(wǎng)絡(一種學習識別數(shù)據(jù)模式的 AI 形式)之所以開始超越傳統(tǒng)算法,那是因為我們終于有了足夠的數(shù)據(jù)和處理能力,可以充分利用這種AI。
現(xiàn)如今的神經(jīng)網(wǎng)絡對數(shù)據(jù)和處理能力更加渴望。訓練它們需要對表征參數(shù)的值進行仔細的調(diào)整,那些參數(shù)代表人工神經(jīng)元之間連接的強度,有數(shù)百萬甚至數(shù)十億之巨。其目標是為它們找到接近理想的值,而這個過程叫做優(yōu)化,但訓練網(wǎng)絡達到這一點并不容易。 DeepMind研究科學家Petar Veli?kovi? 表示:“訓練可能需要數(shù)天、數(shù)周甚至數(shù)月之久”。
但這種情況可能很快就會改變。加拿大安大略省圭爾夫大學(University of Guelph)的Boris Knyazev和他的同事設計并訓練了一個“超網(wǎng)絡”——這有點像是凌駕于其他神經(jīng)網(wǎng)絡之上的最高統(tǒng)治者——用它可以加快訓練的過程。給定一個為特定任務設計,未經(jīng)訓練的新深度神經(jīng)網(wǎng)絡,超網(wǎng)絡可以在幾分之一秒內(nèi)預測出該新網(wǎng)絡的參數(shù),理論上可以讓訓練變得不必要。由于超網(wǎng)絡學習了深度神經(jīng)網(wǎng)絡設計當中極其復雜的模式,因此這項工作也可能具有更深層次的理論意義。
目前為止,超網(wǎng)絡在某些環(huán)境下的表現(xiàn)出奇的好,但仍有增長空間——考慮到問題的量級,這是很自然的。如果他們能解決這個問題,Veli?kovi?說:“這將對機器學習產(chǎn)生很大的影響?!薄?/p>
變成“超網(wǎng)絡”
目前,訓練和優(yōu)化深度神經(jīng)網(wǎng)絡最好的方法是隨機梯度下降(SGD) 技術的各種變種。訓練涉及到將網(wǎng)絡在給定任務(例如圖像識別)中所犯的錯誤最小化。 SGD 算法通過大量標記數(shù)據(jù)來調(diào)整網(wǎng)絡參數(shù),并減少錯誤或損失。梯度下降是從損失函數(shù)的高位值一級級向下降到某個最小值的迭代過程,代表的是足夠好的(或有時候甚至是可能的最好)參數(shù)值。
但是這種技術只有在你有需要優(yōu)化的網(wǎng)絡時才有效。為了搭建最開始的神經(jīng)網(wǎng)絡(一般由從輸入到輸出的多層人工神經(jīng)元組成),工程師必須依靠自己的直覺和經(jīng)驗法則。這些結構在神經(jīng)元的層數(shù)、每層包含的神經(jīng)元數(shù)量等方面可能會有所不同。
梯度下降算法讓網(wǎng)絡沿著其“損失景觀”向下走,其中高位值表示較大錯誤或損失。算法旨在找到全局最小值,讓損失最小化。
理論上可以從多個結構出發(fā),然后優(yōu)化每個結構并選出最好的。但Google Brain 訪問學者 MengYe Ren 說:“訓練需要花費相當多的時間,要想訓練和測試每以個候選網(wǎng)絡結構是不可能的。這種做法擴展不好,尤其是如果要考慮到數(shù)百萬種可能設計的話?!?/p>
于是 2018 年,Ren 與自己在多倫多大學的前同事 Chris Zhang ,以及他們的指導 Raquel Urtasun 開始嘗試一種不同的方法。他們設計出一種所謂的圖超網(wǎng)絡(Graph Hypernetwork, GHN),這種網(wǎng)絡可以在給出一組候選結構的情況下,找出解決某個任務的最佳深度神經(jīng)網(wǎng)絡結構。
顧名思義,“圖”指的是深度神經(jīng)網(wǎng)絡的架結構,可以認為是數(shù)學意義的圖——由線或邊連接的點或節(jié)點組成的集合。此處節(jié)點代表計算單元(通常是神經(jīng)網(wǎng)絡的一整層),邊代表的是這些單元互連的方式。
原理是這樣的。圖超網(wǎng)絡從任何需要優(yōu)化的結構(稱其為候選結構)開始,然后盡最大努力預測候選結構的理想?yún)?shù)。接著將實際神經(jīng)網(wǎng)絡的參數(shù)設置為預測值,用給定任務對其進行測試。Ren 的團隊證明,這種方法可用于來對候選結構進行排名,并選擇表現(xiàn)最佳的結構。
當 Knyazev 和他的同事想出圖超網(wǎng)絡這個想法時,他們意識到可以在此基礎上進一步開發(fā)。在他們的新論文里,這支團隊展示了 GHN 的用法,不僅可以用來從一組樣本中找到最佳的結構,還可以預測最好網(wǎng)絡的參數(shù),讓網(wǎng)絡表現(xiàn)出絕對意義上的好。在其中的最好還沒有達到最好的情況下,還可以利用梯度下降進一步訓練該網(wǎng)絡。
在談到這項新工作時,Ren 表示:“這篇論文非常扎實,里面包含的實驗比我們多得多。他們在非常努力地提升圖超網(wǎng)絡的絕對表現(xiàn),這是我們所樂見的?!?/p>
訓練“訓練師”
Knyazev和他的團隊將自己的超網(wǎng)絡稱為是 GHN -2,這種網(wǎng)絡從兩個重要方面改進了Ren及其同事構建的圖超網(wǎng)絡。
首先,他們需要依賴 Ren 等人的技術,用圖來表示神經(jīng)網(wǎng)絡結構。該圖里面的每個節(jié)點都包含有關于執(zhí)行特定類型計算的神經(jīng)元子集的編碼信息。圖的邊則描述了信息是如何從一個節(jié)點轉(zhuǎn)到另一節(jié)點,如何從輸入轉(zhuǎn)到輸出的。
他們借鑒的第二個想法是一種方法,訓練超網(wǎng)絡來預測新的候選結構的方法。這需要用到另外兩個神經(jīng)網(wǎng)絡。第一個用來開啟對原始候選圖的計算,更新與每個節(jié)點相關的信息,第二個把更新過的節(jié)點作為輸入,然后預測候選神經(jīng)網(wǎng)絡相應計算單元的參數(shù)。這兩個網(wǎng)絡也有自己的參數(shù),在超網(wǎng)絡能夠正確預測參數(shù)值之前,必須對這兩個網(wǎng)絡進行優(yōu)化。
用圖來表示神經(jīng)網(wǎng)絡
為此,你得訓練數(shù)據(jù)——在本案例中,數(shù)據(jù)就是可能的人工神經(jīng)網(wǎng)絡(ANN)結構的隨機樣本。對于樣本的每一個結構,你都要從圖開始,然后用圖超網(wǎng)絡來預測參數(shù),并利用預測的參數(shù)對候選 ANN進行初始化。然后該ANN會執(zhí)行一些特定任務,如識別一張圖像。通過計算該ANN的損失函數(shù)來更新做出預測的超網(wǎng)絡的參數(shù),而不是更新該ANN的參數(shù)以便做出更好的預測。這樣以來,該超網(wǎng)絡下一次就能做得更好?,F(xiàn)在,通過遍歷部分標記訓練圖像數(shù)據(jù)集的每一張圖像,以及隨機樣本結構里面的每一個ANN,一步步地減少損失,直至最優(yōu)。到了一定時候,你就可以得到一個訓練好的超網(wǎng)絡。
由于Ren 的團隊沒有公開他們的源代碼,所以Knyazev 的團隊采用上述想法自己從頭開始寫軟件。然后Knyazev及其同事在此基礎上加以改進。首先,他們確定了 15 種類型的節(jié)點,這些節(jié)點混合搭配可構建幾乎任何的現(xiàn)代深度神經(jīng)網(wǎng)絡。在提高預測準確性方面,他們也取得了一些進展。
最重要的是,為了確保 GHN-2 能學會預測各種目標神經(jīng)網(wǎng)絡結構的參數(shù),Knyazev 及其同事創(chuàng)建了一個包含 100 萬種可能結構的獨特數(shù)據(jù)集。Knyazev 說:“為了訓練我們的模型,我們創(chuàng)建了盡量多樣化的隨機結構”。
因此,GHN-2 的預測能力很有可能可以很好地泛化到未知的目標結構。Google Research的Brain Team研究科學家 Thomas Kipf 說:“比方說,人們使用的各種典型的最先進結構他們都可以解釋,這是一大重大貢獻?!?/p>
結果令人印象深刻
當然,真正的考驗是讓 GHN-2 能用起來。一旦 Knyazev 和他的團隊訓練好這個網(wǎng)絡,讓它可以預測給定任務(比方說對特定數(shù)據(jù)集的圖像進行分類)的參數(shù)之后,他們開始測試,讓這個網(wǎng)絡給隨機挑選的候選結構預測參數(shù)。該新的候選結構與訓練數(shù)據(jù)集上百萬結構當中的某個也許具備相似的屬性,也可能并不相同——有點算是異類。在前一種情況下,目標結構可認為屬于分布范圍內(nèi);若是后者,則屬于分布范圍外。深度神經(jīng)網(wǎng)絡在對后者進行預測時經(jīng)常會失敗,所以用這類數(shù)據(jù)測試 GHN-2 非常重要。
借助經(jīng)過全面訓練的 GHN-2,該團隊預測了 500 個以前看不見的隨機目標網(wǎng)絡結構的參數(shù)。然后將這 500 個網(wǎng)絡(其參數(shù)設置為預測值)與使用隨機梯度下降訓練的相同網(wǎng)絡進行對比。新的超網(wǎng)絡通??梢缘钟鶖?shù)千次 SGD 迭代,有時甚至做得更好,盡管有些結果更加復雜。
借助訓練好的 GHN-2 模型,該團隊預測了 500 個之前未知的隨機目標網(wǎng)絡結構的參數(shù)。然后將這 500 個(參數(shù)設置為預測值的)網(wǎng)絡與利用隨機梯度下降訓練的同一網(wǎng)絡進行對比。盡管部分結果有好有壞,但新的超網(wǎng)絡的表現(xiàn)往往可以跟數(shù)千次 SGD 迭代的結果不相上下,有時甚至是更好。
對于圖像數(shù)據(jù)集 CIFAR-10 ,GHN-2 用于分布范圍內(nèi)的結構得到的平均準確率為 66.9%,而用經(jīng)過近 2500 次 SGD 迭代訓練出來的網(wǎng)絡,其平均準確率為 69.2%。對于不在分布范圍內(nèi)的結構,GHN-2 的表現(xiàn)則出人意料地好,準確率達到了約 60%。尤其是,對一種知名的特定深度神經(jīng)網(wǎng)絡架構, ResNet-50, GHN2的準確率達到了 58.6% 這是相當可觀的。在本領域的頂級會議 NeurIPS 2021 上,Knyazev說:“鑒于 ResNet-50 比我們一般訓練的結構大了有大概 20 倍,可以說泛化到 ResNet-50 的效果出奇地好?!?。
不過GHN-2 應用到 ImageNet 上卻表現(xiàn)不佳。ImageNet 這個數(shù)據(jù)集規(guī)模很大。平均而言,它的準確率只有 27.2% 左右。盡管如此,跟經(jīng)過 5000SGD 迭代訓練的同一網(wǎng)絡相比,GHN-2的表現(xiàn)也要好一些,后者的平均準確度只有 25.6%。 (當然,如果你繼續(xù)用 SGD 迭代的話,你最終可以實現(xiàn)95% 的準確率,只是成本會非常高。)最關鍵的是,GHN-2 是在不到一秒的時間內(nèi)對ImageNet 做出了參數(shù)預測,而如果用 SGD 在GPU上預測參數(shù),要想達到同樣的表現(xiàn),花費的平均時間要比 GHN-2 要多 10000 倍。
Veli?kovi?說:“結果絕對是令人印象深刻。基本上他們已經(jīng)極大地降低了能源成本?!?/p>
一旦GHN-2 從結果樣本中為特定任務選出了最佳的神經(jīng)網(wǎng)絡,但這個網(wǎng)絡表現(xiàn)還不夠好時,至少該模型已經(jīng)過了部分訓練,而且可以還進一步優(yōu)化了。與其對用隨機參數(shù)初始化的網(wǎng)絡進行 SGD,不如以 GHN-2 的預測作為起點。Knyazev 說:“基本上我們是在模仿預訓練”。
超越 GHN-2
盡管取得了這些成功,但Knyazev 認為剛開始的時候機器學習社區(qū)會抵制使用圖超網(wǎng)絡。他把這種阻力拿來跟 2012 年之前深度神經(jīng)網(wǎng)絡的遭遇相比擬。當時,機器學習從業(yè)者更喜歡人工設計的算法,而不是神秘的深度網(wǎng)絡。但是,當用大量數(shù)據(jù)訓練出來的大型深度網(wǎng)絡開始超越傳統(tǒng)算法時,情況開始逆轉(zhuǎn)。Knyazev :“超網(wǎng)絡也可能會走上同樣的道路。”
與此同時,Knyazev 認為還有很多的改進機會。比方說,GHN-2 只能訓練來預測參數(shù),去解決給定的任務,比如對 CIFAR-10 或 ImageNet 里面的圖像進行分類,但不能同時執(zhí)行不同的任務。將來,他設想可以用更加多樣化的結果以及不同類型的任務(如圖像識別、語音識別與自然語言處理)來訓練圖超網(wǎng)絡。然后同時根據(jù)目標結構與手頭的特定任務來做出預測。
如果這些超網(wǎng)絡確實能成功的話,那么新的深度神經(jīng)網(wǎng)絡的設計和開發(fā),將不再是有錢和能夠訪問大數(shù)據(jù)的公司的專利了。任何人都可以參與其中。Knyazev 非常清楚這種“讓深度學習大眾化”的潛力,稱之為長期愿景。
然而,如果像GHN -2 這樣的超網(wǎng)絡真的成為優(yōu)化神經(jīng)網(wǎng)絡的標準方法, Veli?kovi?強調(diào)了一個潛在的大問題。他說,對于圖超網(wǎng)絡,“你有一個神經(jīng)網(wǎng)絡——本質(zhì)上是一個黑盒子——預測另一個神經(jīng)網(wǎng)絡的參數(shù)。所以當它出錯時,你無法解釋[它]?!?/p>
不過,Veli?kovi? 強調(diào),如果類似 GHN-2 這樣的超網(wǎng)絡真的成為優(yōu)化神經(jīng)網(wǎng)絡的標準方法的話,可能會有一個大問題。他說:“你會得到一個基本上是個黑箱的神經(jīng)網(wǎng)絡,然后再用圖超網(wǎng)絡去預測另一個神經(jīng)網(wǎng)絡的參數(shù)。如果它出錯,你沒法解釋錯在哪里?!?/p>
當然,神經(jīng)網(wǎng)絡基本上也是這樣。Veli?kovi?說:“我不會說這是弱點,我把這叫做告警信號?!?/p>
不過Kipf看到的卻是一線希望。 “讓我最為興奮的是其他東西?!?GHN-2 展示了圖神經(jīng)網(wǎng)絡在復雜數(shù)據(jù)當中尋找模式的能力。
通常,深度神經(jīng)網(wǎng)絡是在圖像、文本或音頻信號里面尋找模式,這類信息一般都比較結構化。但 GHN-2 卻是在完全隨機的神經(jīng)網(wǎng)絡結構圖里面尋找模式。而圖是非常復雜的數(shù)據(jù)。
還有,GHN-2 可以泛化——這意味著它可以對未知、甚至不在分布范圍內(nèi)的網(wǎng)絡結構的參數(shù)做出合理的預測。Kipf 說:“這項工作向我們表明,不同結構的很多模式其實多少是優(yōu)點相似的,而且模型能學習如何將知識從一種結構轉(zhuǎn)移到另一種結構,這可能會啟發(fā)神經(jīng)網(wǎng)絡新理論的誕生?!?/p>
如果是這樣的話,它可能會讓我們對這些黑箱有新的、更深入的理解。
譯者:boxi。
關鍵詞:
- 發(fā)力蛋制品 勁仔食品小蛋圓圓鵪鶉蛋入圍iSEE全球創(chuàng)新品牌百強榜
- 新捷途X70S顏值與實力全面升級,將于4月29日發(fā)布預售
- 奶茶行業(yè)品牌多、競爭大 冰雪時光靠什么贏得掌聲?
- 千千惠生活全國上線“隨心退”功能,消費者可無條件隨時退款
- 杭州臨平區(qū):創(chuàng)建市場疫情防控“三色”預警分類管理機制 動態(tài)防控監(jiān)測預警
- 海南開展防止一次性不可降解塑料制品入島聯(lián)合執(zhí)法行動 對當事人立案調(diào)查
- 河北保定市場監(jiān)管局創(chuàng)新應用信用分級分類監(jiān)管 提升監(jiān)管效能助力營商環(huán)境優(yōu)化
- 原料新鮮 用料扎實 冰雪時光穩(wěn)扎茶飲下沉市場
- 陜西省市場監(jiān)管局連續(xù)三年榮獲平安陜西建設先進集體 充分發(fā)揮市場監(jiān)管職能優(yōu)勢
- 浙江杭州:西湖食品安全風險綜合治理中心掛牌成立 健全機制規(guī)范運行為
- 湖北恩施州鶴峰縣市場監(jiān)管局開展進口水果排查專項行動 加強宣傳引導
- 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確保節(jié)日期間市場安全穩(wěn)定
- 北京東城對轄區(qū)旅游客運企業(yè)開展專項聯(lián)合檢 營造和諧市場環(huán)境
- 安徽開展專項執(zhí)法查處濫用行政權力行為 共同營造公平競爭良好社會環(huán)境
- 安徽啟動2022年春茶地理標志保護專項行動 促進茶產(chǎn)業(yè)高質(zhì)量發(fā)展
- 吉林:開展知識產(chǎn)權代理行業(yè)“藍天”專項整治行動 促進知識產(chǎn)權服務業(yè)健康發(fā)展
- 福建福州:宣傳知識產(chǎn)權法律知識 全方位推進地方高質(zhì)量發(fā)展超越
- 遼寧撫順積極建設知識產(chǎn)權強市 建設知識產(chǎn)權強市為目標
- 2021年全國公共服務質(zhì)量監(jiān)測情況發(fā)布 南京以總體滿意度?排名第一
- 立案20件!安徽嚴查哄抬物價等價格違法行為 督促經(jīng)營者守法經(jīng)營

- 杭州臨平區(qū):創(chuàng)建市場疫情防控“三色”預警分類管理
- 海南開展防止一次性不可降解塑料制品入島聯(lián)合執(zhí)法行
- 河北保定市場監(jiān)管局創(chuàng)新應用信用分級分類監(jiān)管 提
- 陜西省市場監(jiān)管局連續(xù)三年榮獲平安陜西建設先進集體
- 浙江杭州:西湖食品安全風險綜合治理中心掛牌成立
- 湖北恩施州鶴峰縣市場監(jiān)管局開展進口水果排查專項行
- 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確
- 北京東城對轄區(qū)旅游客運企業(yè)開展專項聯(lián)合檢 營造和
- 安徽開展專項執(zhí)法查處濫用行政權力行為 共同營造公
- 安徽啟動2022年春茶地理標志保護專項行動 促進茶產(chǎn)
- 1 發(fā)力蛋制品 勁仔食品小蛋圓圓鵪鶉蛋入圍iSEE全球創(chuàng)
- 2 新捷途X70S顏值與實力全面升級,將于4月29日發(fā)布預售
- 3 奶茶行業(yè)品牌多、競爭大 冰雪時光靠什么贏得掌聲?
- 4 千千惠生活全國上線“隨心退”功能,消費者可無條件
- 5 杭州臨平區(qū):創(chuàng)建市場疫情防控“三色”預警分類管理
- 6 海南開展防止一次性不可降解塑料制品入島聯(lián)合執(zhí)法行
- 7 河北保定市場監(jiān)管局創(chuàng)新應用信用分級分類監(jiān)管 提
- 8 原料新鮮 用料扎實 冰雪時光穩(wěn)扎茶飲下沉市場
- 9 陜西省市場監(jiān)管局連續(xù)三年榮獲平安陜西建設先進集體
- 10 浙江杭州:西湖食品安全風險綜合治理中心掛牌成立