問題一:預(yù)載模型不完整。
OSError: Unable to load weights from pytorch checkpoint file for '
C:\...\Stdownload\train_model\pytorch_model.bin' at '
C:\...\Stdownload\train_model\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
如果剛開始點擊訓(xùn)練,就報錯遇到這種,看到:Stdownload\train_model\pytorch_model.bin這個字段,就說明是預(yù)載模型不完整。
解決方案:使用官網(wǎng)緩存清理工具,對閃豚軟件全面的清理緩存,重新從中央驗證服務(wù)器預(yù)載模型權(quán)重。
工具下載地址:http://yunzou.com.cn/app/69618.html
問題二:顯存不足導(dǎo)致的閃退或終止訓(xùn)練報錯。
【閃豚Ai】訓(xùn)練出錯319!錯誤信息:
CUDA out of memory. Tried to allocate 12.00 MiB
(GPU 0; 23.99 GiB total capacity; 11.95 GiB already allocated; 10.36 GiB free; 11.96 GiB reserved in total by PyTorch)
當(dāng)看到報錯信息:CUDA out of memory.等關(guān)鍵信息,就說明是顯存不足導(dǎo)致的。
顯存不足導(dǎo)致的原因有很多,不好解決,可能是其他應(yīng)用占用,也有可能是顯卡的CUDA驅(qū)動,沒來得及自己清理緩存,導(dǎo)致模型訓(xùn)練的時候,緩存得不到釋放,就導(dǎo)致顯存不足,訓(xùn)練終止了。
初步解決方案一:
初始訓(xùn)練的時候,用強制清理JSON工具,清理一遍你的訓(xùn)練JSON數(shù)據(jù)文件。
工具下載:http://yunzou.com.cn/app/69557.html
初步解決方案二:
訓(xùn)練界面中,默認Max_len參數(shù)是:900,可以調(diào)整更小,比如800,700。
初步解決方案三:
save_steps參數(shù)和logging_steps參數(shù)不要設(shè)置太大,保持默認10000即可。過多的模型生成出來,可以手動刪除舊的模型文件夾,保留最新的3~5個模型文件夾即可?;蛘叩认到y(tǒng)默認會根據(jù)硬盤設(shè)置的大小自動刪除舊的模型。
問題三:繼續(xù)訓(xùn)練剛開始的報錯。
【閃豚Ai】訓(xùn)練出錯319!錯誤信息:
Unable to load weights from pytorch checkpoint file for '
.../checkpoint-xxxxx\pytorch_model.bin'
at '.../checkpoint-xxxxx\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
checkpoint-xxxxx:后面的XXX代表的是數(shù)字。
當(dāng)繼續(xù)訓(xùn)練,遇到報錯信息是:.../checkpoint-xxxxx\pytorch_model.bin,說明這個模型損壞,需要刪除這個模型,再重新繼續(xù)訓(xùn)練即可。
原因是:沒有在這個模型文件夾下,找到可用完整的模型和可繼續(xù)訓(xùn)練的記憶模型。
問題四:繼續(xù)訓(xùn)練卻提醒模型訓(xùn)練完成
當(dāng)繼續(xù)訓(xùn)練的時候,卻沒達到最終步數(shù),卻提示“模型訓(xùn)練完成”,這個是因為,模型機制判定問題,因為接近最后的訓(xùn)練次數(shù),沒有完整的一個Epoch輪次,所以會提醒“模型訓(xùn)練完成”。
解決方法:增大你的訓(xùn)練次數(shù),就可以解決。比如原本是10次,繼續(xù)訓(xùn)練的時候提醒“模型訓(xùn)練完成”,則你可以增加到15次,20次。
其他訓(xùn)練報錯問題,后續(xù)完善補充
生成過程中遇到的報錯問題
生成問題一:list index out of range
批量生成中,當(dāng)點擊生成后,出現(xiàn):
[閃豚Ai] 生成出錯,數(shù)據(jù)標(biāo)題: xxxxx!錯誤信息: list index out of range
說明是你的生成數(shù)據(jù)表沒按標(biāo)準(zhǔn)處理,標(biāo)準(zhǔn)的生成數(shù)據(jù)表如下格式:

每行一條數(shù)據(jù),前面是標(biāo)題,### 號后是正文的起始句。
生成問題二:點擊生成后,就閃退
遇到這個問題,80%是因為你模型路徑有中文,一定要切記,模型路徑不能有中文,把中文改成拼音或者其他英文即可解決。
生成問題三:生成一段時間后,閃退
百分之八十也是因為顯存不足,當(dāng)你開了多個生成任務(wù),每個生成任務(wù)會占用4~6G左右的顯存,顯存的占用也會隨著字數(shù)的長短而變化。如果多個生成任務(wù),開了一段時間后,就閃退了,基本就是顯存不足導(dǎo)致的。
減少生成任務(wù)窗口或者軟件的多開,就能解決。
建議是每一個生成任務(wù)單獨開一個軟件,避免使用軟件自帶的窗口1~5來生成,每單獨一個軟件生成,能更好的控制任務(wù)。
666666
學(xué)習(xí)到了