2023-6-15更新,已打包成可執(zhí)行EXE文件。不需要單獨(dú)安裝環(huán)境。

語(yǔ)料內(nèi)容清洗小工具功能介紹
1.批量解決訓(xùn)練語(yǔ)料編碼非UTF-8(自動(dòng)把編碼統(tǒng)一轉(zhuǎn)為UTF-8)
2.批量解決訓(xùn)練語(yǔ)料內(nèi)容有各種html標(biāo)簽(自動(dòng)過(guò)濾各種標(biāo)簽)
3.批量解決訓(xùn)練語(yǔ)料多余空格自動(dòng)過(guò)濾。
4.批量解決統(tǒng)一規(guī)范訓(xùn)練語(yǔ)料格式要求。(整理除第一行標(biāo)題外,第二行程序會(huì)處理成自動(dòng)空行,第三行就是語(yǔ)料內(nèi)容了)
5.批量處理語(yǔ)料的簡(jiǎn)易排版,實(shí)現(xiàn)每段前面都加兩個(gè)空格。
6.增加了檢測(cè)內(nèi)容不符條件,當(dāng)TXT內(nèi)容少于100字中文時(shí),直接過(guò)濾。(這種措施是防止有些位置的亂碼,符號(hào)等無(wú)法過(guò)濾,導(dǎo)致TXT文本中沒(méi)中文,就統(tǒng)一過(guò)濾掉)


6.更新加入報(bào)錯(cuò)處理,非常規(guī)問(wèn)題異常報(bào)錯(cuò)文件單獨(dú)保存到一份新的文件夾內(nèi),不進(jìn)行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項(xiàng)目配套必須品(人工完全自己也可以把控采集時(shí)把訓(xùn)練語(yǔ)料處理干凈標(biāo)準(zhǔn)),此工具只為協(xié)助解決處理你的語(yǔ)料數(shù)據(jù),提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們閃豚AI的訓(xùn)練語(yǔ)料批量處理。
優(yōu)勢(shì)介紹
使用本工具后,能全自動(dòng)化高速處理訓(xùn)練語(yǔ)料,也就是說(shuō),你采集的語(yǔ)料只需采集的時(shí)候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標(biāo)簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價(jià)格:98元(買斷制)
生成的內(nèi)容真不錯(cuò)
這個(gè)軟件有優(yōu)惠不
內(nèi)容很實(shí)用
贊一個(gè)