問題一:預載模型不完整。
OSError: Unable to load weights from pytorch checkpoint file for '
C:\...\Stdownload\train_model\pytorch_model.bin' at '
C:\...\Stdownload\train_model\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
如果剛開始點擊訓練,就報錯遇到這種,看到:Stdownload\train_model\pytorch_model.bin這個字段,就說明是預載模型不完整。
解決方案:使用官網緩存清理工具,對閃豚軟件全面的清理緩存,重新從中央驗證服務器預載模型權重。
工具下載地址:http://yunzou.com.cn/app/69618.html
問題二:顯存不足導致的閃退或終止訓練報錯。
【閃豚Ai】訓練出錯319!錯誤信息:
CUDA out of memory. Tried to allocate 12.00 MiB
(GPU 0; 23.99 GiB total capacity; 11.95 GiB already allocated; 10.36 GiB free; 11.96 GiB reserved in total by PyTorch)
當看到報錯信息:CUDA out of memory.等關鍵信息,就說明是顯存不足導致的。
顯存不足導致的原因有很多,不好解決,可能是其他應用占用,也有可能是顯卡的CUDA驅動,沒來得及自己清理緩存,導致模型訓練的時候,緩存得不到釋放,就導致顯存不足,訓練終止了。
初步解決方案一:
初始訓練的時候,用強制清理JSON工具,清理一遍你的訓練JSON數據文件。
工具下載:http://yunzou.com.cn/app/69557.html
初步解決方案二:
訓練界面中,默認Max_len參數是:900,可以調整更小,比如800,700。
初步解決方案三:
save_steps參數和logging_steps參數不要設置太大,保持默認10000即可。過多的模型生成出來,可以手動刪除舊的模型文件夾,保留最新的3~5個模型文件夾即可?;蛘叩认到y默認會根據硬盤設置的大小自動刪除舊的模型。
問題三:繼續(xù)訓練剛開始的報錯。
【閃豚Ai】訓練出錯319!錯誤信息:
Unable to load weights from pytorch checkpoint file for '
.../checkpoint-xxxxx\pytorch_model.bin'
at '.../checkpoint-xxxxx\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
checkpoint-xxxxx:后面的XXX代表的是數字。
當繼續(xù)訓練,遇到報錯信息是:.../checkpoint-xxxxx\pytorch_model.bin,說明這個模型損壞,需要刪除這個模型,再重新繼續(xù)訓練即可。
原因是:沒有在這個模型文件夾下,找到可用完整的模型和可繼續(xù)訓練的記憶模型。
問題四:繼續(xù)訓練卻提醒模型訓練完成
當繼續(xù)訓練的時候,卻沒達到最終步數,卻提示“模型訓練完成”,這個是因為,模型機制判定問題,因為接近最后的訓練次數,沒有完整的一個Epoch輪次,所以會提醒“模型訓練完成”。
解決方法:增大你的訓練次數,就可以解決。比如原本是10次,繼續(xù)訓練的時候提醒“模型訓練完成”,則你可以增加到15次,20次。
其他訓練報錯問題,后續(xù)完善補充
生成過程中遇到的報錯問題
生成問題一:list index out of range
批量生成中,當點擊生成后,出現:
[閃豚Ai] 生成出錯,數據標題: xxxxx!錯誤信息: list index out of range
說明是你的生成數據表沒按標準處理,標準的生成數據表如下格式:

每行一條數據,前面是標題,### 號后是正文的起始句。
生成問題二:點擊生成后,就閃退
遇到這個問題,80%是因為你模型路徑有中文,一定要切記,模型路徑不能有中文,把中文改成拼音或者其他英文即可解決。
生成問題三:生成一段時間后,閃退
百分之八十也是因為顯存不足,當你開了多個生成任務,每個生成任務會占用4~6G左右的顯存,顯存的占用也會隨著字數的長短而變化。如果多個生成任務,開了一段時間后,就閃退了,基本就是顯存不足導致的。
減少生成任務窗口或者軟件的多開,就能解決。
建議是每一個生成任務單獨開一個軟件,避免使用軟件自帶的窗口1~5來生成,每單獨一個軟件生成,能更好的控制任務。
666666
學習到了