該工具主要作用,二次清理篩選訓(xùn)練數(shù)據(jù)JSON文件。
很多用戶自行采集的語料很亂,導(dǎo)致程序處理出來的,有問題,最終就導(dǎo)致訓(xùn)練出問題。
再次強(qiáng)調(diào),訓(xùn)練出問題,100%是數(shù)據(jù)文件的問題,語料數(shù)據(jù)的問題!
自行采集整理語料,一定要按照要求整理!

第一行為標(biāo)題
第二行留空
第三行為內(nèi)容
不是這種標(biāo)準(zhǔn)語料的,都是有問題的。就可能會導(dǎo)致軟件出現(xiàn)各種未知問題。
建議當(dāng)你不確定你語料有沒有問題,你就二次用這個清洗一下你的JSON文件。
