本工具主要作用:
對長文本進(jìn)行切割,當(dāng)采集整理回來的數(shù)據(jù)較長,或者以整本書,或者其他長文本資料,需要用于做語料訓(xùn)練的情況下,想讓模型完整的學(xué)習(xí)長文本的內(nèi)容。則需要對長文本進(jìn)行拆分。
本工具會以閃豚速寫Pro訓(xùn)練要求對長文本進(jìn)行拆分。
請注意:一定要把語料先清洗干凈后,再用本工具,本工具僅只會對長文本拆分,不會進(jìn)行其他操作。所以使用前,需要確認(rèn)排版,內(nèi)容是否正確。
本工具拆分會以1000字進(jìn)行截斷拆分,會以完成的一句話為結(jié)尾,并不會拆分后導(dǎo)致長文本題不對文的情況。

切分完效果如下:



切分完成的數(shù)據(jù),每個文件的第一行還是原標(biāo)題,所以處理成訓(xùn)練數(shù)據(jù)的JSON文件時候,直接可以加入處理就行,這樣就能確保模型能學(xué)習(xí)到該標(biāo)題下能關(guān)聯(lián)更長的數(shù)據(jù)。