閃豚速寫Pro-1.9.1更新說明

教程專區(qū)
23年8月29日
編輯

閃豚AI閃豚AI官方

一、參數(shù)的優(yōu)化調(diào)整

關(guān)于本次更新Pro1.9.1，優(yōu)化調(diào)整了Max len參數(shù)說明。請使用者按以下解釋指導進行訓練操作。

本次調(diào)整Max len參數(shù)，在安裝包1.9.1會自動調(diào)整900。（原參數(shù)為1024）

如已安裝其他版本的包，本次使用在線更新，該參數(shù)無法覆蓋，需手動修改為“900”參數(shù)值，如下圖展示：

原因如下：

原本參數(shù)為1024，指的是1024的Token詞匯長度進行輸入。在某些情況下，當顯存為24Gb時（24576MiB），正常訓練使用，會占用到“24000MiB”的顯存，可能僅剩下：“576MiB”，也就是剩下很少很少，只要有其他應用占用一下GPU的顯存，可能就導致訓練過程中出現(xiàn)“OMM”情況，也就是：“顯存爆了，顯存不夠用”，就導致訓練出錯。

關(guān)于Token的詞匯，您可以簡單理解為中文長度就行。因為訓練模型，在我們中央驗證中心服務器中，存儲了預訓練模型的詞匯表，也就是您訓練的時候，對數(shù)據(jù)預處理后，可訓練文件Json中的所有文字，在訓練開始時，會對模型詞匯表進行匹配，如正確匹配則進行分詞訓練，這個步驟是個復雜的NLP知識理論，您不需要了解很深，如對此感興趣，可自行查閱通用模型訓練相關(guān)的學習資料。

本次優(yōu)化了訓練架構(gòu)，推薦所有用戶，將該參數(shù)調(diào)整為：900，進行訓練，這樣能更大的留存1~2Gb的顯存進行緩沖。

請注意：原參數(shù)為1024，現(xiàn)調(diào)整900，對模型的影響很小很小。不比太過于擔心模型的質(zhì)量會受到影響。反而調(diào)整了該參數(shù)，能更穩(wěn)定的提升模型訓練過程。此步驟是極其值得推薦操作的。

二、模型的選擇使用

推薦24Gb顯卡的用戶們，也可以嘗試使用Small模型，Small模型并不比標準模型差很多。使用Small模型，訓練會更快。

Small模型與標準模型的能力差距如下：

標準模型：訓練次數(shù)少，能達到不錯的效果

	標準模型	Small模型
訓練時長	推薦訓練5輪左右就可用	推薦訓練30~50輪左右
訓練速度	3090每秒2~4條數(shù)據(jù)訓練 4090每秒5~8條數(shù)據(jù)訓練	3090每秒10~15條數(shù)據(jù)訓練 4090每秒20~25條數(shù)據(jù)訓練
模型能力	支持語料長度3倍生成輸出	對超越語料原始字數(shù)生成輸出不太好
模型大小	成品模型大約在6Gb左右	成品模型大約在2Gb左右
知識能力	能承載百萬級以上語料訓練	僅承載50萬級語料以下訓練