我們默認使用的是5e-5,這個學習率是一個常見的默認值,但不確保適合所有行業(yè)數據或數據量的大小,更好的學習率則要根據數據集的大小、訓練目標、優(yōu)化器的選擇等因素來調整。
一般來說,隨著訓練數據集的增大,可以使用稍微較高的學習率,因為更多的數據有助于模型更穩(wěn)健地學習,從而能夠承受更大的學習率而不容易出現(xiàn)震蕩。反之,數據集較小時,較小的學習率可以幫助模型穩(wěn)定收斂,避免過擬合或損失函數波動較大。
通常可以遵循以下一些經驗法則來設置學習率:
最好通過實驗多次訓練同一批數據來驗證學習率的選擇,采用交叉驗證等方法來找到最適合你數據集和任務的學習率。
]]>目前版本:自定義關鍵詞提取批量生成數據表1.4
修復了百度知道最新反爬機制
更新時間:2023-11-9
該工具已更新為單獨的EXE程序。
主要作用:根據自己整理的關鍵詞或者長尾詞,讓程序通過爬蟲提取標題和起始句。而不是提取原始語料的數據了。
如果速度過快,容易被屏蔽,然后就會停止了,建議加上代理。代理使用“隧道代理,最好每次請求更換IP”
如果使用代理的話,需要將代理開關打開,在配置文件里面的代理設置,把False改成True。
True為使用代理,F(xiàn)alse為不使用代理。
如果啟用代理的話,需要刪掉代理配置中的雙引號:
【新增更新】新增已處理記憶功能,中斷運行后,不會重復提取已提取的數據。
【9-11新增更新】:優(yōu)化程序爬取邏輯
聲明:由于此工具并非AI項目配套必須品(我們項目有自帶的提取標題和起始句的工具),此工具只為拓展協(xié)助你提取你自定義的數據,提升使用者的方便,所以本工具需另收費。本工具僅限用于我們AI-CPM批量生成功能。
暫定價格:168元(買斷制)
]]>OSError: Unable to load weights from pytorch checkpoint file for '
C:\...\Stdownload\train_model\pytorch_model.bin' at '
C:\...\Stdownload\train_model\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
如果剛開始點擊訓練,就報錯遇到這種,看到:Stdownload\train_model\pytorch_model.bin這個字段,就說明是預載模型不完整。
解決方案:使用官網緩存清理工具,對閃豚軟件全面的清理緩存,重新從中央驗證服務器預載模型權重。
工具下載地址:http://yunzou.com.cn/app/69618.html
【閃豚Ai】訓練出錯319!錯誤信息:
CUDA out of memory. Tried to allocate 12.00 MiB
(GPU 0; 23.99 GiB total capacity; 11.95 GiB already allocated; 10.36 GiB free; 11.96 GiB reserved in total by PyTorch)
當看到報錯信息:CUDA out of memory.等關鍵信息,就說明是顯存不足導致的。
顯存不足導致的原因有很多,不好解決,可能是其他應用占用,也有可能是顯卡的CUDA驅動,沒來得及自己清理緩存,導致模型訓練的時候,緩存得不到釋放,就導致顯存不足,訓練終止了。
初始訓練的時候,用強制清理JSON工具,清理一遍你的訓練JSON數據文件。
工具下載:http://yunzou.com.cn/app/69557.html
初步解決方案二:
訓練界面中,默認Max_len參數是:900,可以調整更小,比如800,700。
初步解決方案三:
save_steps參數和logging_steps參數不要設置太大,保持默認10000即可。過多的模型生成出來,可以手動刪除舊的模型文件夾,保留最新的3~5個模型文件夾即可?;蛘叩认到y(tǒng)默認會根據硬盤設置的大小自動刪除舊的模型。
【閃豚Ai】訓練出錯319!錯誤信息:
Unable to load weights from pytorch checkpoint file for '
.../checkpoint-xxxxx\pytorch_model.bin'
at '.../checkpoint-xxxxx\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
checkpoint-xxxxx:后面的XXX代表的是數字。
當繼續(xù)訓練,遇到報錯信息是:.../checkpoint-xxxxx\pytorch_model.bin,說明這個模型損壞,需要刪除這個模型,再重新繼續(xù)訓練即可。
原因是:沒有在這個模型文件夾下,找到可用完整的模型和可繼續(xù)訓練的記憶模型。
當繼續(xù)訓練的時候,卻沒達到最終步數,卻提示“模型訓練完成”,這個是因為,模型機制判定問題,因為接近最后的訓練次數,沒有完整的一個Epoch輪次,所以會提醒“模型訓練完成”。
解決方法:增大你的訓練次數,就可以解決。比如原本是10次,繼續(xù)訓練的時候提醒“模型訓練完成”,則你可以增加到15次,20次。
生成過程中遇到的報錯問題
批量生成中,當點擊生成后,出現(xiàn):
[閃豚Ai] 生成出錯,數據標題: xxxxx!錯誤信息: list index out of range
說明是你的生成數據表沒按標準處理,標準的生成數據表如下格式:
每行一條數據,前面是標題,### 號后是正文的起始句。
遇到這個問題,80%是因為你模型路徑有中文,一定要切記,模型路徑不能有中文,把中文改成拼音或者其他英文即可解決。
百分之八十也是因為顯存不足,當你開了多個生成任務,每個生成任務會占用4~6G左右的顯存,顯存的占用也會隨著字數的長短而變化。如果多個生成任務,開了一段時間后,就閃退了,基本就是顯存不足導致的。
減少生成任務窗口或者軟件的多開,就能解決。
建議是每一個生成任務單獨開一個軟件,避免使用軟件自帶的窗口1~5來生成,每單獨一個軟件生成,能更好的控制任務。
]]>1.模型訓練的硬件設備:3090
2.模型訓練的時長:120小時
3.模型訓練的數據量:13.8萬
4.模型訓練的最終loss值:2.1
5.模型屬于什么行業(yè)內容:星座內容垂直行業(yè)
6.模型實際生成效果內容展示:
模型生成的內容,基本過AI檢測
點擊下載預覽生成內容樣本:
https://wwvw.lanzouj.com/idlrn18qdv1g
7.明確模型出售價格:1100元
8.賣家需預留聯(lián)系信息:聯(lián)系官方客服
9.是否允許二次交易:不允許
10.上傳訓練語料樣本:
語料樣本查看下載:
]]>更新時間:2023-9-7
更新日志:http://yunzou.com.cn/updata-page
閃豚速寫Pro全功能版本安裝包
需要購買后,才有權限下載和激活使用,沒購買的話,請前往商城進行購買再使用。
點擊下方鏈接購買終身版
點擊下方鏈接購按月訂閱版
更新公告,請自行前往更新公告專欄
更新時間:2023-9-7
更新日志:http://yunzou.com.cn/updata-page
閃豚速寫LE輕量版安裝包,輕量版僅支持生成,不支持訓練和數據處理等功能。
輕量版需要購買模型才可以使用。
輕量版安裝包需要購買后,才有權限下載和激活使用,沒購買的話,請前往商城進行購買再使用。
點擊下方鏈接購買輕量版
更推薦購買全功能版本,閃豚速寫Pro
很多用戶已經使用上了推理,但是想要模型生成出來的質量更好,需要根據自己的應用場景和模型質量進行調參。
下面我們來講解一下這些參數的說明:
seqiences:表示生成的序列個數。如果設置為大于1的值,模型會生成指定數量的不同序列。這對于希望得到多種可能輸出的場景是有用的。
penalty:這個參數用于控制生成文本中的重復性。值越大,生成的文本中的重復內容就越少。調整此參數可以影響生成文本的多樣性和唯一性。
top_k:在生成過程中,模型會在每個時間步驟為每個可能的下一個詞賦予一個分數。top_k
用于限制在每個時間步驟中,模型只考慮分數最高的k個詞。如果top_k
設置的太小,可能會導致生成的文本過于單一;設置的太大,可能導致生成的文本缺乏連貫性。
top_p:這也是一種限制模型考慮的可能下一個詞的方法,不同的是,它是基于分數的累積概率而不是個數。即在每個時間步驟中,模型會考慮到使得下一個詞的分數的累積概率超過top_p
的最小集合。這種方法又被稱為nucleus sampling。它可以增加生成文本的多樣性。
調整這些參數可以影響生成的質量。例如,適當增大penalty
可以減少生成文本中的重復;合理設置top_k
和top_p
可以影響生成文本的多樣性和連貫性。但需要注意的是,沒有一組適合所有場景的最優(yōu)參數,需要根據具體任務和數據進行嘗試和調整。
字數限制:請注意,該參數為內容的生成最高字數,如果覺得模型生成的字數低,請調整該參數,比如,字數限制是800,那么模型生成的字數絕對不會超過800字。
字數限制還有個問題請注意,模型的生成字數長度多少,取決于訓練語料的字數,如果您的訓練語料字數普遍只有三四百字,那么模型最終生成的字數也是三四百字。標準模型則可以最高支持3倍以上的字數生成。
最簡單的調整參數教學:
penalty:你就把它看成,控制生成內容的重復性的,減少它,則會讓內容有更多重復的語句,詞語出現(xiàn)。
top_k:這個參數是調整生成的內容的隨機性的,調整大,則會出現(xiàn)隨機性越大,越能拓展你的學習語料。調小則會更貼近你的訓練樣本。
top_p:這個參數也是調整生成內容的隨機性,只不過它是控制概率采樣的,也就是生成推理時候,預測下一個組詞命中我們模型詞典數據。
減少top_k并增加top_p參數值,模型的輸出會變得更有確定性,更接近它在訓練數據中看到學習的內容。
軟件操作教程:
如果你只有關鍵詞,可以使用下面的工具進行數據表轉換
工具下載鏈接:
http://yunzou.com.cn/app/75359.html
推薦使用完成的標題和起始句(文章的第一句話),這種方式去引導模型生成內容,質量會更好。
]]>請注意:軟件安裝時,一定不要安裝默認路徑C盤,C盤系統(tǒng)有權限問題會導致軟件出現(xiàn)異常!
兩個模型的區(qū)別:
標準模型 | Small模型 | |
訓練時長 | 訓練5輪左右就可用(訓練越多越好) | 訓練30~50輪左右可用(訓練越多越好) |
訓練要求 | GPU顯存≥24GB | GPU顯存≥6GB |
訓練速度 | 3090每秒2~4條數據訓練 4090每秒5~8條數據訓練 | 3090每秒10~15條數據訓練 4090每秒20~25條數據訓練 |
模型超長輸出能力 | 支持語料長度3倍生成輸出 (例如,原始語料1000字,模型能生成3000字) | 對訓練語料原始字數生成超長輸出不太好 (例如,原始語料1000字,模型僅能生成1000字) |
成品模型大小 | 成品模型大約在6Gb左右 | 成品模型大約在2Gb左右 |
知識訓練能力 | 能承載百萬級以上語料訓練 | 僅承載50萬級語料以下訓練 |
對于模型的訓練速度預測,可以使用官網在線計算器,根據你顯卡型號的CUDA數量進行訓練時間預估計算,在線計算器請點擊下方URL鏈接:
http://yunzou.com.cn/mdcalculator
軟件安裝使用,需要安裝CUDA驅動以及安裝CUDNN提供訓練加速。具體請參照以下文章教程,點擊跳轉。請務必按照教程中步驟,進行驅動安裝和CUDNN的安裝。
(請注意,CUDA驅動是CUDA驅動,顯卡驅動是顯卡驅動,請不要搞混淆。教程中最下面提供CUDA驅動和CUDNN安裝包。自行下載根據教程流程安裝。)
打開軟件后,首先點擊用戶注冊按鈕,跳轉注冊頁面,按照要求進行資料填寫,邀請碼可不用填寫。注冊完成后,會自動跳轉“激活”頁面,輸入激活碼進行激活即可使用。
在激活頁面中,需要輸入您注冊的用戶名和密碼以及激活卡號。點擊激活即可。
(請注意:無需填寫充值卡密碼)
獲得的激活碼,一共有三次綁定/兩次解綁換綁服務,超出后每次收取500元服務費(僅支持同一IP段換綁,非同IP段換綁則需新購)
每篇學習語料以TXT文件形式保存,文件名推薦使用內容的標題。
格式為:
TXT的第一行為內容的標題
TXT的第二行請保留空行(用作于區(qū)分識別作用)
TXT的第三行為內容(內容需要段落分明,盡量不要加載亂七八糟的符號、HTML標簽等,少許英文也可以)
可以參考以下圖片樣例:
訓練語料排版需要段落分明,這樣最終學習的模型也會參照語料排版進行學習。
任何模型都很依賴于原始語料,如果您的數據有AI生成數據,那么可能最終的模型也會被檢測AI內容,如果對內容檢測有要求,請盡量使用22年以前的數據,避免GPT生成的數據進行訓練。
訓練數據需要5萬篇以上,太少的話,模型能力會很弱。
1、數據越多,你的模型能力就越強,并不是數據越多,你的模型生成的內容就越多。模型生成的數量是無限的,不管多少數據量訓練的模型,同標題生成不同數量的文章內容,都不會重復,僅可能出現(xiàn)少數句子,段落重復。
2、訓練語料的多少,決定模型的知識含量而已,增加它的詞匯量以及句子理解能力。比如:10萬的訓練數據,都是小學生學習的詞語和句子等內容;20萬的語料數據里,就有初中生的學習的內容。不可能模型學習了10萬的數據,你讓他生成初中的內容,模型是無法生成出來的。因為它都沒學習到知識,肯定是不無法生成您所需要的內容。
簡單點講:數據量越多,模型對內容的詞匯和知識就掌握的越多。
但推薦模型訓練數據在5~50萬就可以,不必要上百萬。數據量太大,訓練時間太長,成本太大,不建議這么操作。
訓練語料準備好了后,推薦以下工具進行清洗處理:
免費工具:
收費工具:(根據個人需求選擇使用)
請參照下圖解釋說明,填寫好對應的路徑,點擊開始處理即可。
顯卡設備序號:默認為0,指的是您顯卡在您電腦中的設備序號,基本都是0,無需更改。您可以打開您的電腦任務管理器,在性能里面,有個GPU,GPU后面會有個序號:
訓練數據路徑:選擇您上一步處理的學習語料的文件,也就是JSON文件。
訓練次數:對你的數據訓練多少次,訓練步數=你的數據量。
訓練總數=你的語料數據x訓練次數。
例如:您的語料數據為10萬,那么你的訓練步數就是10萬步。您設置訓練5次,那就是100000x5=50萬步。
Batch_size:顯卡的批處理,24Gb顯存顯卡,如果使用標準模型,請保持參數為“1”,如果使用small模型,該參數可以調大,每增加1,占用顯存會大一倍。調整此處可以增加模型訓練學習效率。
比如:您顯存為24Gb,如果使用標準模型,那么僅能設置“1”,如果您使用small模型,該參數可以設置“4”,因為small模型訓練占用顯存為:“6Gb”左右。
save_steps:該參數為模型保存步數,也就是您訓練多少步后保存一個模型,防止模型出錯。建議使用默認每一萬步就保存一個模型。如果覺得保存太多,占用太多的硬盤空間,那么可以調整該參數,可以設置每5萬或者10萬或者更多保存一個模型。
學習效率:該參數請保持默認
epsilon:該參數請保持默認
logging_steps:該參數為訓練日志的保存,訓練日志能直觀的看到每條訓練數據的學習成果,也就是loss值,一個模型loss值推薦在2以下,就可以很好使用。該參數建議請保持跟save_steps參數保持一致。
max_len:Token詞匯量的輸入,推薦使用900,參數設置900能更穩(wěn)定的訓練標準模型。如果您使用的是Small小模型,可以使用1024參數。
sed:該參數請保持默認
模型保存路徑:該參數請選擇訓練好的模型保存位置,路徑也需要使用英文或者拼音,請避免使用中文路徑。
定制化模型:該參數請不要填寫,該參數為企業(yè)用戶私有化定制訓練模型的路徑。
根據要求,填寫好對應的參數后,請點擊預載模型:
點擊后,則會從中央驗證服務器中下載加載模型權重:
完成后會有以上提醒,模型預載完成后,就可以點擊開始訓練按鈕進行模型訓練。
請注意:每次關閉軟件后,需要使用模型訓練功能,都需要重新點擊預載模型。
如果模型訓練過程中出現(xiàn)意外導致訓練中斷,需要接著訓練的時候,要確保模型保存路徑下至少已保存2份步伐模型;
也就是以上圖片中的文件夾,請至少確保有2個文件夾以上,才能接著訓練。
中斷訓練會加載倒數第二個文件夾中 的模型權重進行訓練。
例如:您的總訓練步伐是100萬,在您訓練26萬步的時候,訓練中斷了,您設置的參數是,每1萬步保存一個模型。那么您的路徑下應該有:
checkpoint-260000
checkpoint-250000
checkpoint-240000
......
等等模型文件夾。需要繼續(xù)訓練的時候,請保持您上一次的模型訓練參數,然后點擊預載模型,模型預載完成后,點擊開始訓練即可。
軟件算法會加載您路徑下所有的已存儲的模型文件夾,自動檢索模型權重,最終會從checkpoint-250000開始往后訓練。
1、訓練完成后,不支持增量訓練,僅支持增加訓練次數,加深訓練。(增量訓練是指,您首次訓練模型使用的是10萬語料,然后第二次訓練,重新預處理了20萬語料,再訓練。這樣的話就需要新訓練,而不能繼續(xù)訓練,否則導致模型損壞。)
2、訓練開始前,可以打開軟件的根目錄,找到y(tǒng)ingpan.ini
打開它。您會看到如下:
該配置文件主要是給模型訓練提供足夠的存儲空間保障。當您的硬盤空間不足時,達到了軟件設置的磁盤空間閾值,軟件每次新保存訓練模型,則自動刪除最老的模型文件,這樣循環(huán)下去,始終會為您的硬盤保留指定值的空間進行存儲新的模型。
如果覺得你硬盤中保存過多的步伐模型保存文件,影響硬盤空間,可以手動刪除一些,或者調大保存步伐。手動刪除的話,要確保至少預留五個步伐模型,以防止意外。
3、訓練過程中,您會看到界面中輸出如下值:
1、首先界面中的:Iter(loss=x.xxx),這個數值僅代表該條訓練數據對我們預訓練模型的詞典進行匹配學習的loss值。僅僅是該條數據的學習值。正確的每批次訓練的loss值,在軟件的根目錄下,logs文件夾內,train-2023-xx-xx-xx-xx.log,該文件內進行查看。該文件名為:train-年-月-日-時-分.log,也就是你開始訓練的時間,每次訓練,都會有一個開始訓練的時間為命名的訓練日志。在該日志內查看訓練的loss值。
打開日志文件后,日志的記錄內容是上圖顯示;
Epoch代表的是第幾輪的訓練,從0開始。
global_step:代表的是訓練的步數,也就是界面中設置的。
最后看,train_loss值,loss值在2左右,就說明模型基本上學習到了你的數據內容。Loss值越低,模型越好。
待補充
重要說明:載入模型路徑,模型文件存儲的路徑不要有中文!目錄路徑一定要英文或者拼音!
選擇模型路徑,是選擇你訓練好的模型存放的路徑,默認模型文件夾名稱是:checkpoint-XXXXX(XX代表數字),如:D:/STUNAI/checkpoint-100000
自行創(chuàng)建生成數據,要求格式如上圖,新建一份TXT文檔,里面生成數據每行一條。
推薦使用官方語料生成數據表提取工具,生成效果會更好。
點擊下方卡片推薦內容跳轉下載。
如果提取語料的數量比較大,導致數據表很大,建議使用數據表分割工具,進行分割使用。
點擊下方卡片推薦,進行跳轉下載。
提取完成后的數據表標準如下圖展示:
可以看到,標準數據表里面,前面是該條生成任務的標題,###三個井號后面,就是起始句,也就是文章的第一句話。
對于這個問題,AI模型需要更好的提示,才能推理生成更準確更符合要求的內容。一個關鍵詞僅幾個中文字,模型是無法判斷你這個任務的最終需求,比如讓你自己寫一份材料,只有一個關鍵詞,相信你也無法下手寫作。AI模型也是一樣的道理,需要給它更多的提示和任務指令,它才能更好的輸出符合你要求的內容。
AI訓練的時候,語料也是有標題和內容的,AI模型學習訓練,它需要先學習每篇文章的標題,再學習內容,也就能明白這個標題的作用,所以推理生成的時候,也是一樣,需要給它標題和第一句話,引導AI推理更準確的內容。
如果只有關鍵詞,沒有標題和起始句怎么辦?可以購買根據關鍵詞抓取相關標題和起始句的收費插件。
上面推薦的卡片鏈接,插件就能實現(xiàn)根據關鍵詞,去爬取相關的標題和起始句。然后會生成標準的生成數據表。
還是更加推薦直接提取語料的標題和起始句,用作生成任務。不用擔心,即使同一標題和起始句,最終生成的數據內容,也不會重復一致。
開始生成的時候,建議使用單篇生成,進行模型生成參數調整修改,根據你的模型任務,找到一個最適合的參數,因為軟件自帶的參數,屬于通用參數,中規(guī)中矩,用戶仔細訓練的不同任務的行業(yè)模型,都需要調整生成參數,這樣才能達到生成效果更好的狀態(tài),參數調整教程請點擊下方卡片推薦:
調整到了適合的參數后,就去批量生成或者雙標題、圖文生成中修改你調整的參數,最后就可以進行內容的生產。
因為雙標題功能,我們采用的策略是去獲取百度下拉結果,需要與百度進行通信,所以就會導致有個時間損耗,會比普通生成慢。如果自己有雙標題工具,完全可以使用自己的工具,把數據表的標題,先單獨弄成雙標題,然后再開啟普通的批量生成就行。生成的內容也是聚合生成。
軟件中,圖文生成功能,并不是根據生成內容,生成出圖片,而是生成內容的同時,軟件算法會根據你需要給內容加入多少張配圖,會對內容進行分析,再根據標題,段落內容,去百度圖庫調取相關圖片的URL,最終保存為TXT。(請注意,調用百度圖片會有侵權風險,請自行甄別使用)
圖文生成功能如上圖展示,TXT的內容里,穿插<img>URL的標簽
什么是聚合生成?
當你的標題格式如下:
斑鳩吃什么(斑鳩飼養(yǎng))###斑鳩吃什么?野外生活的斑鳩一般都是在地面找食,
標題中,斑鳩吃什么(斑鳩飼養(yǎng))這樣的,軟件算法則會生成兩篇內容,聚合成一篇內容:
聚合生成支持多種標題格式,如:
標題A(標題B)###起始句
標題A(標題B)###起始句
標題A!標題B###起始句
標題A?標題B###起始句
以上的標題格式,都會進行聚合生成。優(yōu)先級如下:
()>()>?。??
中文括號(全角括號)>英文括號(半角括號)>感嘆號>問號
請注意:如果在括號內的副標題,小于三個中文漢字時候,是不生效的,副標題需要大于三個中文漢字。
所以,在生成數據表中,如果標題含有以上數據格式,都會進行聚合生成,這樣就極大避免文章有多標題,但是沒有副標題的內容,導致內容關聯(lián)性不強的問題。
使用過程中遇到其他問題,先進入教程專區(qū)看有沒有教程解決,無教程再聯(lián)系技術售后。
教程專區(qū):http://yunzou.com.cn/aidownload/aixuexi
其他問題待補充
]]>關于本次更新Pro1.9.1,優(yōu)化調整了Max len參數說明。請使用者按以下解釋指導進行訓練操作。
本次調整Max len參數,在安裝包1.9.1會自動調整900。(原參數為1024)
如已安裝其他版本的包,本次使用在線更新,該參數無法覆蓋,需手動修改為“900”參數值,如下圖展示:
原因如下:
原本參數為1024,指的是1024的Token詞匯長度進行輸入。在某些情況下,當顯存為24Gb時(24576MiB),正常訓練使用,會占用到“24000MiB”的顯存,可能僅剩下:“576MiB”,也就是剩下很少很少,只要有其他應用占用一下GPU的顯存,可能就導致訓練過程中出現(xiàn)“OMM”情況,也就是:“顯存爆了,顯存不夠用”,就導致訓練出錯。
關于Token的詞匯,您可以簡單理解為中文長度就行。因為訓練模型,在我們中央驗證中心服務器中,存儲了預訓練模型的詞匯表,也就是您訓練的時候,對數據預處理后,可訓練文件Json中的所有文字,在訓練開始時,會對模型詞匯表進行匹配,如正確匹配則進行分詞訓練,這個步驟是個復雜的NLP知識理論,您不需要了解很深,如對此感興趣,可自行查閱通用模型訓練相關的學習資料。
本次優(yōu)化了訓練架構,推薦所有用戶,將該參數調整為:900,進行訓練,這樣能更大的留存1~2Gb的顯存進行緩沖。
請注意:原參數為1024,現(xiàn)調整900,對模型的影響很小很小。不比太過于擔心模型的質量會受到影響。反而調整了該參數,能更穩(wěn)定的提升模型訓練過程。此步驟是極其值得推薦操作的。
推薦24Gb顯卡的用戶們,也可以嘗試使用Small模型,Small模型并不比標準模型差很多。使用Small模型,訓練會更快。
Small模型與標準模型的能力差距如下:
標準模型:訓練次數少,能達到不錯的效果
標準模型 | Small模型 | |
訓練時長 | 推薦訓練5輪左右就可用 | 推薦訓練30~50輪左右 |
訓練速度 | 3090每秒2~4條數據訓練 4090每秒5~8條數據訓練 | 3090每秒10~15條數據訓練 4090每秒20~25條數據訓練 |
模型能力 | 支持語料長度3倍生成輸出 | 對超越語料原始字數生成輸出不太好 |
模型大小 | 成品模型大約在6Gb左右 | 成品模型大約在2Gb左右 |
知識能力 | 能承載百萬級以上語料訓練 | 僅承載50萬級語料以下訓練 |
推薦用戶們可以嘗試使用Small模型進行體驗使用。
]]>工具介紹:
本工具主要為檢查生成數據表中是否含有重復標題數據以及檢查已生成內容異常缺少問題。
比如:數據表中有很多重復的數據,就會被檢測出來告知有哪些標題是重復的。
比如:生成數據表中數據有1萬條,但是實際生成出的內容只有5000個內容,通過該工具檢測,就知道數據表中有哪些數據沒有進行生成/遺漏。
使用說明:
如果僅需要篩查數據表,填寫或選擇好數據表的文件路徑,點擊“僅篩查生成數據表內重復數據”按鈕即可。
如果需要篩查已生成的數據是否缺漏,選擇好你的數據表,再選擇該數據表的內容保存路徑,點擊篩查即可。
最終的分析文件,會存放到軟件的根目錄下。
]]>本工具主要作用:
當提取了生成數據表,一份數據表里面有數十萬內容需要生成,閃豚速寫支持多開和多窗口進行生成,就需要不同的數據表,該工具就可以快速把數據表自動分割需要的份數,方便進行內容生成操作。
]]>用于閃豚AI系統(tǒng)的批量生成數據表提取。主要從自己訓練語料提取標題和起始句作用。
提取完保存TXT文本格式的數據表文件。
也可以自己手動制作批量生成數據表,格式如下:
標題###起始句
標題###起始句
標題###起始句
標題###起始句
請注意:數據表需要一行一條數據,前面是標題,后面是起始句。
本次發(fā)布該小工具是已剝離原系統(tǒng)自帶該小功能,以獨立小工具方式為閃豚用戶提供服務。
優(yōu)化提取策略
]]>當模型訓練過程中,遇到意外中斷或者主動中斷訓練,當不改變訓練參數(epoch參數值除外),需要加載上一次中斷前保存的完整的模型,就可以繼續(xù)接著該模型再次訓練。
例如1:
當我模型設置Epoch值為10輪,我訓練到5輪的時候,checkpoint-500000,這里中斷了,測試checkpoint-500000該模型能力,發(fā)現(xiàn)并未達到訓練需求,還想接著訓練,那么就要確保checkpoint-500000模型完整。直接開啟新的訓練即可,此時,epoch能增大而不能減少。意思就是:原始設置的Epoch為10,想加深訓練,可以設置為20,而不能減少為9。
例如2:
當模型設置Epoch為10輪,10輪訓練結束,最后的模型為:checkpoint-1000000,測試該模型并未達到理想效果,還想接著訓練,那么,就需要把epoch設置為20或者更多(這個數值自定義),設置好了后,就可以繼續(xù)讀取checkpoint-1000000模型參數繼續(xù)訓練,那么下一輪就會保存:checkpoint-1100000。
也就是說,新的模型算法,加載為最新的保存模型,而不是讀取完整三輪模型。想要接著訓練,僅需要保存最新的模型即可,但是請不要更改訓練學習率或者訓練的JSON。JSON不能新增也不能減少。否則無法繼續(xù)訓練。
值得注意的是:1.8.3版本之前的模型,如果接著訓練,loss值會重新計算更迭,但是訓練的學習內容,模型都是完整接上,不必擔心模型沒有接上訓練。
1.8.3版本之后,如果模型中斷,繼續(xù)訓練,loss值會接上(該算法為測試版,可能會對loss值有遺漏)
]]>本功能工具可以處理刪除路徑下所有TXT文檔的指定行數。
比如你需要刪除TXT文檔中的第一行和第二行。則在開始刪除和結束刪除參數輸入1,2即可。
]]>閃豚官方承諾:項目源碼等功能確保完整可用,但需要有Python基礎配置基礎環(huán)境,環(huán)境配置完成后,閃豚官方承諾該項目一定完整可用。
閃豚AI-V3-221209官方發(fā)售價格:5200元!
官方發(fā)布,不用擔心不可用,有后門,有病毒,代碼開源,僅核心算法加密!
本次作為福利贈送產品,不提供任何技術咨詢和技術服務,需要自行解決技術問題。
如需技術服務或技術咨詢,需另支付技術服務費。
系統(tǒng)部署:500元/次
技術咨詢:300元/小時
技術服務:1800元/月(含一次系統(tǒng)部署、技術咨詢服務)
本福利產品確保該完整可用,包含單篇生成功能、批量生成功能、批量雙標題生成功能。該基礎功能確保無任何使用問題。
AI系統(tǒng)部署要求環(huán)境依賴包:
依賴包名稱 | 版本 | 備注 |
python | 3.6.3 | |
CUDA+CUDNN | 11 | |
transformers | 4.6.0 | |
sentencepiece | 0.1.94 | |
Flask | 1.1.2 | |
jieba | / | |
pandas | / | |
sklearn | / | |
zhconv | / | |
tensorboardX | / | |
func_timeout | / | |
torch+torchvision | torch-1.7.0 torchvision-0.8.0 | |
numpy | / |
參照上方環(huán)境需求,安裝完成后,均可實現(xiàn)跑通程序。
請注意,一定需要安裝以上依賴,才可以跑通AI程序。
如新手不會,可以先去B站學習:Python環(huán)境的搭建或者使用Anaconda配置Python虛擬環(huán)境,python項目如何跑通,需要先學習python基礎,Bilibili上很多基礎教程。
歡迎加入我們交流群,后續(xù)不斷贈送AI相關軟件免費體驗:
歡迎關注我們公眾號,有更多福利消息和閃豚消息,均在公眾號上推送!
閃豚速寫已發(fā)布新品,可以點擊查看更多!
]]>該工具主要作用,二次清理篩選訓練數據JSON文件。
很多用戶自行采集的語料很亂,導致程序處理出來的,有問題,最終就導致訓練出問題。
再次強調,訓練出問題,100%是數據文件的問題,語料數據的問題!
自行采集整理語料,一定要按照要求整理!
第一行為標題
第二行留空
第三行為內容
不是這種標準語料的,都是有問題的。就不要再說,訓練怎么又閃退!
建議當你不確定你語料有沒有問題,你就二次用這個清洗一下你的JSON文件。
]]>首先打開我們的生成窗口。
可以看到上方有窗口一到窗口五。
使用方法:
當你窗口一填寫好生成參數后,需要點擊保存設置,然后開啟推理。
(當開始生成了,再點擊窗口二,填寫好參數,再點擊保存設置,這樣才是運行多線程。)
請注意:開啟多線程生成。需要關注你的GPU占用性能,GPU顯存占用隨著你生成字數長度而增長改變。
]]>1.批量解決訓練語料編碼非UTF-8(自動把編碼統(tǒng)一轉為UTF-8)
2.批量解決訓練語料內容有各種html標簽(自動過濾各種標簽)
3.批量解決訓練語料多余空格自動過濾。
4.批量解決統(tǒng)一規(guī)范訓練語料格式要求。(整理除第一行標題外,第二行程序會處理成自動空行,第三行就是語料內容了)
5.批量處理語料的簡易排版,實現(xiàn)每段前面都加兩個空格。
6.增加了檢測內容不符條件,當TXT內容少于100字中文時,直接過濾。(這種措施是防止有些位置的亂碼,符號等無法過濾,導致TXT文本中沒中文,就統(tǒng)一過濾掉)
6.更新加入報錯處理,非常規(guī)問題異常報錯文件單獨保存到一份新的文件夾內,不進行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項目配套必須品(人工完全自己也可以把控采集時把訓練語料處理干凈標準),此工具只為協(xié)助解決處理你的語料數據,提升使用者的方便,所以本工具需另收費。本工具僅限用于我們閃豚AI的訓練語料批量處理。
使用本工具后,能全自動化高速處理訓練語料,也就是說,你采集的語料只需采集的時候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價格:98元(買斷制)
]]>請所有發(fā)布模型交易的用戶,發(fā)布模型交易內容,需要使用該工具進行語料樣本抽樣,本工具會抽樣你訓練的模型語料隨機3%的數據進行壓縮打包。
發(fā)布交易的時候,需要將語料樣本壓縮包,也上傳到網盤去,做個分享鏈接,以便購買用戶進行模型數據核驗。
]]>2023年9月26日,新增模型成本計算器工具,本文底部有下載鏈接。
模型訓練成本計算其實并不難,我們閃豚速寫訓練的時候,現(xiàn)在能直接計算大概一輪訓練時長,僅需要計算,設備損耗,電費,數據費用就能得到一個模型的成本了。
下面教大家如何去計算成本:
模型成本公式:
顯卡發(fā)行價格 x 0.0005x訓練時長
語料費用:
范圍語料:每篇0.02元x20%
半精語料:每篇0.04元x20%
全精語料:每篇0.1元x20%
(這里的20%指的是你語料的成本,因為數據是最貴的。)
加上電腦其他硬件損耗
加上電費
公式:顯卡損耗+語料數據+其他硬件損耗+模型訓練電費=成本費用
就是最終的模型成本費用。
所以建議大家如果訓練的模型需要上傳交易,可以參考以上成本計算,其次,語料數據單獨交易,也可以參考以上語料單篇價格。
可以下載使用最新發(fā)布的模型訓練成本計算器
]]>訓練其實跟V3一樣的。沒什么難度。
語料格式:
語料格式跟V3要求一樣:
每個語料一個TXT文本。
第一行為標題
第二行留空
第三行就是正文內容。(正文內容需要段落分明,不要有夾雜廣告等亂七八糟的)
以下就是訓練教程:
首先你要準備好你的訓練語料,數據在10萬左右,肯定是越多越好。現(xiàn)在5萬的數據量也能訓練,但是需要訓練稍微步伐多點就行。
首先打開我們的閃豚速寫Pro
進入數據處理功能
選擇好你的原始數據路徑,選擇好保存路徑,就可以點擊開始處理了。就會生成到你保存路徑下有個train_data.json
打開后,數據就是這樣的
處理完了,就可以進入模型訓練的功能了。
選擇好你的訓練數據,就是你剛剛處理的JSON這個文件。
顯卡設備基本上都是0(基本不用更改)
訓練次數:默認也可以,你調多點也可以,當是數據少的時候,就要調多些,什么10輪,20輪。
Batch_size:這個默認1就行。如果你是A100啥的,你這個就調高,1=23Gb的顯存。
save_steps:這個默認就可以,但是如果你的數據就幾萬,你可以調小點,比如:1000,默認是100000,意思就是,每訓練10000步,就會先保存一個階段性的模型。(如果你不想每10000步就保存一個模型,怕占用硬盤空間大,那就把這個值設置大一些,步伐模型保存是根據這個值保存的,設置10萬步,則就跑完10條訓練數據才保存一個步伐模型)
其他的參數都默認就可以
選擇好你的模型保存路徑就行。
定制化模型:這個基本上不用選,這個是給大客戶定制的一些私有化預訓練模型用的。
最后,點擊:預載模型(加載預訓練模型)
不預載模型的話,是訓練不了的,開始訓練的時候都需要根據自己的顯存預載對應的模型(24Gb顯存就預載標準模型,低于24Gb顯存的顯卡就預載Small模型),預載模型需要從我們驗證服務器上下載,時間需要長一些,耐心等待加載完成就行。后面就預載后就很快。
預載完成后就可以點擊訓練。
]]>目前不支持50系NVIDIA GPU,請不要采購50系GPU來跑AI訓練,Torch框架不兼容最新的CUDA12.8
首次安裝閃豚速寫軟件時候,需先安裝CUDA驅動。(本文最下方有下載地址!)
cuda_11.8
cudnn-windows-8.8.1.3
NVIDIA驅動(顯卡驅動)請使用56x.xxx系列,不要使用最新的驅動,可能導致不兼容情況!
下面是安裝教程:
首先下載這兩個東西,(本文下方有下載鏈接,或自行去NVIDIA官網下載CUDA驅動和CUDNN加速器)
先運行cuda_11.8.0_522.06_windows.exe
這里可以直接默認,點擊OK
它就會自動解壓這個安裝包的東西。
全程下一步,下一步就可以。
自動解壓后,這就是安裝界面。點擊同意并繼續(xù)就行。
全部下一步。
安裝好了后,首先回到桌面,右鍵點擊電腦屬性,
找到:高級系統(tǒng)設置
點擊高級,點擊環(huán)境變量
然后在你的系統(tǒng)變量里面,看有沒有CUDA的變量
如果有,就可以,不需要跟我一樣。你們安裝的是11_8。如果有就可以了。
然后這個解壓出來
把解壓出來的文件夾內這里面所有的東西都復制一下。
復制到這個路徑下:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
覆蓋粘貼就行。這樣你的CUDNN也安裝好了。
然后就是正題了,安裝我們的閃豚軟件
先下載好我們的安裝包,雙擊運行它就行。
可以點擊那個箭頭,就可以自己更換安裝目錄(一定不要安裝在默認路徑C盤,自行更換路徑)
默認是安裝到:C:\Program Files (x86)\ShanTunAI\
建議系統(tǒng)安裝到500G的空余硬盤上?;蛘邔iT拿塊硬盤留給閃豚AI軟件使用。因為涉及模型訓練等,會很占用磁盤空間。
安裝前,請先看《軟件許可及服務協(xié)議》,如不同意,則請不要使用,如安裝使用,就默認同意我們的許可和協(xié)議!
選擇好路徑后,就點擊一鍵安裝就可以了。
就會自動安裝。
安裝完,就可以點擊開始使用了。
安裝完成,就可以打開軟件,注冊軟件賬戶和激活,官網賬戶與軟件賬戶不互通,需要單獨注冊軟件賬戶。
]]>