一、參數(shù)的優(yōu)化調(diào)整
關(guān)于本次更新Pro1.9.1,優(yōu)化調(diào)整了Max len參數(shù)說明。請(qǐng)使用者按以下解釋指導(dǎo)進(jìn)行訓(xùn)練操作。
本次調(diào)整Max len參數(shù),在安裝包1.9.1會(huì)自動(dòng)調(diào)整900。(原參數(shù)為1024)
如已安裝其他版本的包,本次使用在線更新,該參數(shù)無法覆蓋,需手動(dòng)修改為“900”參數(shù)值,如下圖展示:

原因如下:
原本參數(shù)為1024,指的是1024的Token詞匯長(zhǎng)度進(jìn)行輸入。在某些情況下,當(dāng)顯存為24Gb時(shí)(24576MiB),正常訓(xùn)練使用,會(huì)占用到“24000MiB”的顯存,可能僅剩下:“576MiB”,也就是剩下很少很少,只要有其他應(yīng)用占用一下GPU的顯存,可能就導(dǎo)致訓(xùn)練過程中出現(xiàn)“OMM”情況,也就是:“顯存爆了,顯存不夠用”,就導(dǎo)致訓(xùn)練出錯(cuò)。
關(guān)于Token的詞匯,您可以簡(jiǎn)單理解為中文長(zhǎng)度就行。因?yàn)橛?xùn)練模型,在我們中央驗(yàn)證中心服務(wù)器中,存儲(chǔ)了預(yù)訓(xùn)練模型的詞匯表,也就是您訓(xùn)練的時(shí)候,對(duì)數(shù)據(jù)預(yù)處理后,可訓(xùn)練文件Json中的所有文字,在訓(xùn)練開始時(shí),會(huì)對(duì)模型詞匯表進(jìn)行匹配,如正確匹配則進(jìn)行分詞訓(xùn)練,這個(gè)步驟是個(gè)復(fù)雜的NLP知識(shí)理論,您不需要了解很深,如對(duì)此感興趣,可自行查閱通用模型訓(xùn)練相關(guān)的學(xué)習(xí)資料。
本次優(yōu)化了訓(xùn)練架構(gòu),推薦所有用戶,將該參數(shù)調(diào)整為:900,進(jìn)行訓(xùn)練,這樣能更大的留存1~2Gb的顯存進(jìn)行緩沖。
請(qǐng)注意:原參數(shù)為1024,現(xiàn)調(diào)整900,對(duì)模型的影響很小很小。不比太過于擔(dān)心模型的質(zhì)量會(huì)受到影響。反而調(diào)整了該參數(shù),能更穩(wěn)定的提升模型訓(xùn)練過程。此步驟是極其值得推薦操作的。
二、模型的選擇使用
推薦24Gb顯卡的用戶們,也可以嘗試使用Small模型,Small模型并不比標(biāo)準(zhǔn)模型差很多。使用Small模型,訓(xùn)練會(huì)更快。
Small模型與標(biāo)準(zhǔn)模型的能力差距如下:
標(biāo)準(zhǔn)模型:訓(xùn)練次數(shù)少,能達(dá)到不錯(cuò)的效果
標(biāo)準(zhǔn)模型 | Small模型 | |
訓(xùn)練時(shí)長(zhǎng) | 推薦訓(xùn)練5輪左右就可用 | 推薦訓(xùn)練30~50輪左右 |
訓(xùn)練速度 | 3090每秒2~4條數(shù)據(jù)訓(xùn)練 4090每秒5~8條數(shù)據(jù)訓(xùn)練 | 3090每秒10~15條數(shù)據(jù)訓(xùn)練 4090每秒20~25條數(shù)據(jù)訓(xùn)練 |
模型能力 | 支持語(yǔ)料長(zhǎng)度3倍生成輸出 | 對(duì)超越語(yǔ)料原始字?jǐn)?shù)生成輸出不太好 |
模型大小 | 成品模型大約在6Gb左右 | 成品模型大約在2Gb左右 |
知識(shí)能力 | 能承載百萬(wàn)級(jí)以上語(yǔ)料訓(xùn)練 | 僅承載50萬(wàn)級(jí)語(yǔ)料以下訓(xùn)練 |
推薦用戶們可以嘗試使用Small模型進(jìn)行體驗(yàn)使用。
內(nèi)容很實(shí)用
學(xué)習(xí)到了