一、參數(shù)的優(yōu)化調(diào)整
關(guān)于本次更新Pro1.9.1,優(yōu)化調(diào)整了Max len參數(shù)說明。請使用者按以下解釋指導進行訓練操作。
本次調(diào)整Max len參數(shù),在安裝包1.9.1會自動調(diào)整900。(原參數(shù)為1024)
如已安裝其他版本的包,本次使用在線更新,該參數(shù)無法覆蓋,需手動修改為“900”參數(shù)值,如下圖展示:

原因如下:
原本參數(shù)為1024,指的是1024的Token詞匯長度進行輸入。在某些情況下,當顯存為24Gb時(24576MiB),正常訓練使用,會占用到“24000MiB”的顯存,可能僅剩下:“576MiB”,也就是剩下很少很少,只要有其他應用占用一下GPU的顯存,可能就導致訓練過程中出現(xiàn)“OMM”情況,也就是:“顯存爆了,顯存不夠用”,就導致訓練出錯。
關(guān)于Token的詞匯,您可以簡單理解為中文長度就行。因為訓練模型,在我們中央驗證中心服務器中,存儲了預訓練模型的詞匯表,也就是您訓練的時候,對數(shù)據(jù)預處理后,可訓練文件Json中的所有文字,在訓練開始時,會對模型詞匯表進行匹配,如正確匹配則進行分詞訓練,這個步驟是個復雜的NLP知識理論,您不需要了解很深,如對此感興趣,可自行查閱通用模型訓練相關(guān)的學習資料。
本次優(yōu)化了訓練架構(gòu),推薦所有用戶,將該參數(shù)調(diào)整為:900,進行訓練,這樣能更大的留存1~2Gb的顯存進行緩沖。
請注意:原參數(shù)為1024,現(xiàn)調(diào)整900,對模型的影響很小很小。不比太過于擔心模型的質(zhì)量會受到影響。反而調(diào)整了該參數(shù),能更穩(wěn)定的提升模型訓練過程。此步驟是極其值得推薦操作的。
二、模型的選擇使用
推薦24Gb顯卡的用戶們,也可以嘗試使用Small模型,Small模型并不比標準模型差很多。使用Small模型,訓練會更快。
Small模型與標準模型的能力差距如下:
標準模型:訓練次數(shù)少,能達到不錯的效果
標準模型 | Small模型 | |
訓練時長 | 推薦訓練5輪左右就可用 | 推薦訓練30~50輪左右 |
訓練速度 | 3090每秒2~4條數(shù)據(jù)訓練 4090每秒5~8條數(shù)據(jù)訓練 | 3090每秒10~15條數(shù)據(jù)訓練 4090每秒20~25條數(shù)據(jù)訓練 |
模型能力 | 支持語料長度3倍生成輸出 | 對超越語料原始字數(shù)生成輸出不太好 |
模型大小 | 成品模型大約在6Gb左右 | 成品模型大約在2Gb左右 |
知識能力 | 能承載百萬級以上語料訓練 | 僅承載50萬級語料以下訓練 |
推薦用戶們可以嘗試使用Small模型進行體驗使用。
內(nèi)容很實用
學習到了
怎么聯(lián)系客服