注意:不管是訓練還是生成,不要把模型放到中文文件夾路徑內,路徑需要用英文!建議不管是什么數(shù)據,路徑都選擇英文或者拼音,不要用中文!
訓練其實跟V3一樣的。沒什么難度。
語料格式:

語料格式跟V3要求一樣:
每個語料一個TXT文本。
第一行為標題
第二行留空
第三行就是正文內容。(正文內容需要段落分明,不要有夾雜廣告等亂七八糟的)
以下就是訓練教程:
首先你要準備好你的訓練語料,數(shù)據在10萬左右,肯定是越多越好?,F(xiàn)在5萬的數(shù)據量也能訓練,但是需要訓練稍微步伐多點就行。
首先打開我們的閃豚速寫Pro

進入數(shù)據處理功能
選擇好你的原始數(shù)據路徑,選擇好保存路徑,就可以點擊開始處理了。就會生成到你保存路徑下有個train_data.json

打開后,數(shù)據就是這樣的

處理完了,就可以進入模型訓練的功能了。

選擇好你的訓練數(shù)據,就是你剛剛處理的JSON這個文件。
顯卡設備基本上都是0(基本不用更改)
訓練次數(shù):默認也可以,你調多點也可以,當是數(shù)據少的時候,就要調多些,什么10輪,20輪。
Batch_size:這個默認1就行。如果你是A100啥的,你這個就調高,1=23Gb的顯存。
save_steps:這個默認就可以,但是如果你的數(shù)據就幾萬,你可以調小點,比如:1000,默認是100000,意思就是,每訓練10000步,就會先保存一個階段性的模型。(如果你不想每10000步就保存一個模型,怕占用硬盤空間大,那就把這個值設置大一些,步伐模型保存是根據這個值保存的,設置10萬步,則就跑完10條訓練數(shù)據才保存一個步伐模型)
其他的參數(shù)都默認就可以
選擇好你的模型保存路徑就行。
定制化模型:這個基本上不用選,這個是給大客戶定制的一些私有化預訓練模型用的。
最后,點擊:預載模型(加載預訓練模型)
不預載模型的話,是訓練不了的,開始訓練的時候都需要根據自己的顯存預載對應的模型(24Gb顯存就預載標準模型,低于24Gb顯存的顯卡就預載Small模型),預載模型需要從我們驗證服務器上下載,時間需要長一些,耐心等待加載完成就行。后面就預載后就很快。
預載完成后就可以點擊訓練。
挺好的