国精产品999国精产品蜜臀,开心五月激情中文在线,久久免费看少妇喷水高潮,午夜高清拍精品福利


    <i id="izbqq"><video id="izbqq"><thead id="izbqq"></thead></video></i>
      <b id="izbqq"><legend id="izbqq"></legend></b>
    1. <b id="izbqq"></b>
      您當(dāng)前的位置 :環(huán)球傳媒網(wǎng)>科技 > 正文
      全球最大規(guī)模NLP模型誕生:5300億參數(shù)!
      2021-10-13 09:48:18 來(lái)源:量子位 編輯:

      5300億參數(shù)!全球最大規(guī)模NLP模型誕生。

      由微軟聯(lián)手英偉達(dá)推出,名叫威震天-圖靈自然語(yǔ)言生成模型(Megatron Turing-NLG)。

      據(jù)他們介紹,這樣的量級(jí)不僅讓它成為全球規(guī)模最大,同時(shí)也是性能最強(qiáng)的NLP模型。

      訓(xùn)練過(guò)程一共使用了4480塊英偉達(dá)A100 GPU,最終使該模型在一系列自然語(yǔ)言任務(wù)中——包括文本預(yù)測(cè)、閱讀理解、常識(shí)推理、自然語(yǔ)言推理、詞義消歧——都獲得了前所未有的準(zhǔn)確率。

      三倍規(guī)模于GPT-3

      此模型簡(jiǎn)稱(chēng)MT-NLG,是微軟Turing NLG和英偉達(dá)Megatron-LM兩者的“繼任者”。

      Turing NLG由微軟于2020年2月推出,參數(shù)為170億;Megatron-LM來(lái)自英偉達(dá),2019年8月推出,參數(shù)83億。

      它倆在當(dāng)時(shí)分別是第一、二大規(guī)模的Transfomer架構(gòu)模型。

      我們都知道大參數(shù)規(guī)模的語(yǔ)言模型效果會(huì)更好,但訓(xùn)練起來(lái)也很有挑戰(zhàn)性,比如:

      即使是最大容量的GPU,也存不下如此規(guī)模的參數(shù);

      如果不特別注意優(yōu)化算法、軟件和硬件堆棧,那么所需的大量計(jì)算操作可能會(huì)導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng)。

      那這個(gè)參數(shù)已是GPT-3三倍的MT-NLG又是如何解決的呢?

      答案就是汲取“兩家”所長(zhǎng),融合英偉達(dá)最先進(jìn)的GPU加速訓(xùn)練設(shè)備,以及微軟最先進(jìn)的分布式學(xué)習(xí)系統(tǒng),來(lái)提高訓(xùn)練速度。

      并用上千億個(gè)token構(gòu)建語(yǔ)料庫(kù),共同開(kāi)發(fā)訓(xùn)練方法來(lái)優(yōu)化效率和穩(wěn)定性。

      具體來(lái)說(shuō),通過(guò)借鑒英偉達(dá)Megatron-LM模型的GPU并行處理,以及微軟開(kāi)源的分布式訓(xùn)練框架DeepSpeed,創(chuàng)建3D并行系統(tǒng)。

      對(duì)于本文中這個(gè)5300億個(gè)參數(shù)的模型,每個(gè)模型副本跨越280個(gè)NVIDIA A100 GPU,節(jié)點(diǎn)內(nèi)采用Megatron-LM的8路張量切片(tensor-slicing),節(jié)點(diǎn)間采用35路管道并行(pipeline parallelism)。

      然后再使用DeepSpeed的數(shù)據(jù)并行性進(jìn)一步擴(kuò)展到數(shù)千個(gè)GPU。

      最終在基于NVIDIA DGX SuperPOD的Selene超級(jí)計(jì)算機(jī)上完成混合精度訓(xùn)練。

      (該超級(jí)計(jì)算機(jī)由560個(gè)DGX A100服務(wù)器提供支持,每個(gè)DGX A100有8個(gè)NVIDIA A100 80GB Tensor Core GPU,通過(guò)NVLink 和 NVSwitch相互完全連接)。

      該模型使用了Transformer解碼器的架構(gòu),層數(shù)、hidden dimension和attention head分別為 105、20480和128。

      訓(xùn)練所用數(shù)據(jù)集包括近20萬(wàn)本書(shū)的純文本數(shù)據(jù)集Books3、問(wèn)答網(wǎng)站Stack Exchange、維基百科、學(xué)術(shù)資源網(wǎng)站PubMed Abstracts、ArXiv、維基百科、GitHub等等,這些都是從他們先前搭建的Pile數(shù)據(jù)集中挑出的質(zhì)量較高的子集。

      最終一共提取了2700億個(gè)token。

      五大任務(wù)上的準(zhǔn)確度測(cè)試

      開(kāi)發(fā)者在以下5大任務(wù)上對(duì)MT-NLG進(jìn)行了準(zhǔn)確度測(cè)試。

      在文本預(yù)測(cè)任務(wù)LAMBADA中,該模型需預(yù)測(cè)給定段落的最后一個(gè)詞。

      在閱讀理解任務(wù)RACE-h和BoolQ中,模型需根據(jù)給定的段落生成問(wèn)題的答案。

      在常識(shí)推理任務(wù)PiQA、HellaSwag和Winogrande中,每個(gè)任務(wù)都需要該模型具有一定程度的常識(shí)了解。

      對(duì)于自然語(yǔ)言推理,兩個(gè)硬基準(zhǔn),ANLI-R2和HANS考驗(yàn)先前模型的典型失敗案例。

      詞義消歧任務(wù)WiC需該模型從上下文對(duì)多義詞進(jìn)行理解。

      結(jié)果該模型在PiQA開(kāi)發(fā)集和LAMBADA測(cè)試集上的零樣本、單樣本和少樣本三種設(shè)置中都獲得了最高的成績(jī)。

      在其他各項(xiàng)任務(wù)上也獲得了最佳。

      除了報(bào)告基準(zhǔn)任務(wù)的匯總指標(biāo)外,他們還對(duì)模型輸出進(jìn)行了定性分析,并觀察到,即使符號(hào)被嚴(yán)重混淆,該模型也可以從上下文中推斷出基本的數(shù)學(xué)運(yùn)算。

      當(dāng)然,該模型也從數(shù)據(jù)中也提取出了刻板印象和偏見(jiàn)。微軟和英偉達(dá)表示也在解決這個(gè)問(wèn)題。

      另外,他們表示在生產(chǎn)場(chǎng)景中使用MT-NLG都必須遵守微軟的“負(fù)責(zé)任的AI原則”來(lái)減少輸出內(nèi)容的負(fù)面影響,但目前該模型還未公開(kāi)。

      關(guān)鍵詞: 微軟 英偉達(dá) 5300億 NLP模型

      分享到:
      版權(quán)和免責(zé)申明

      凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。

      Copyright ? 1999-2017 cqtimes.cn All Rights Reserved 環(huán)球傳媒網(wǎng)-重新發(fā)現(xiàn)生活版權(quán)所有 聯(lián)系郵箱:8553 591@qq.com