該工具主要作用,二次清理篩選訓練數(shù)據(jù)JSON文件。
很多用戶自行采集的語料很亂,導致程序處理出來的,有問題,最終就導致訓練出問題。
再次強調(diào),訓練出問題,100%是數(shù)據(jù)文件的問題,語料數(shù)據(jù)的問題!
自行采集整理語料,一定要按照要求整理!

第一行為標題
第二行留空
第三行為內(nèi)容
不是這種標準語料的,都是有問題的。就可能會導致軟件出現(xiàn)各種未知問題。
建議當你不確定你語料有沒有問題,你就二次用這個清洗一下你的JSON文件。
