2023-6-15更新,已打包成可執(zhí)行EXE文件。不需要單獨(dú)安裝環(huán)境。

語料內(nèi)容清洗小工具功能介紹
1.批量解決訓(xùn)練語料編碼非UTF-8(自動把編碼統(tǒng)一轉(zhuǎn)為UTF-8)
2.批量解決訓(xùn)練語料內(nèi)容有各種html標(biāo)簽(自動過濾各種標(biāo)簽)
3.批量解決訓(xùn)練語料多余空格自動過濾。
4.批量解決統(tǒng)一規(guī)范訓(xùn)練語料格式要求。(整理除第一行標(biāo)題外,第二行程序會處理成自動空行,第三行就是語料內(nèi)容了)
5.批量處理語料的簡易排版,實(shí)現(xiàn)每段前面都加兩個空格。
6.增加了檢測內(nèi)容不符條件,當(dāng)TXT內(nèi)容少于100字中文時(shí),直接過濾。(這種措施是防止有些位置的亂碼,符號等無法過濾,導(dǎo)致TXT文本中沒中文,就統(tǒng)一過濾掉)


6.更新加入報(bào)錯處理,非常規(guī)問題異常報(bào)錯文件單獨(dú)保存到一份新的文件夾內(nèi),不進(jìn)行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項(xiàng)目配套必須品(人工完全自己也可以把控采集時(shí)把訓(xùn)練語料處理干凈標(biāo)準(zhǔn)),此工具只為協(xié)助解決處理你的語料數(shù)據(jù),提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們閃豚AI的訓(xùn)練語料批量處理。
優(yōu)勢介紹
使用本工具后,能全自動化高速處理訓(xùn)練語料,也就是說,你采集的語料只需采集的時(shí)候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標(biāo)簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價(jià)格:98元(買斷制)
生成的內(nèi)容真不錯
這個軟件有優(yōu)惠不
內(nèi)容很實(shí)用
贊一個