本工具主要作用:
對(duì)長(zhǎng)文本進(jìn)行切割,當(dāng)采集整理回來的數(shù)據(jù)較長(zhǎng),或者以整本書,或者其他長(zhǎng)文本資料,需要用于做語料訓(xùn)練的情況下,想讓模型完整的學(xué)習(xí)長(zhǎng)文本的內(nèi)容。則需要對(duì)長(zhǎng)文本進(jìn)行拆分。
本工具會(huì)以閃豚速寫Pro訓(xùn)練要求對(duì)長(zhǎng)文本進(jìn)行拆分。
請(qǐng)注意:一定要把語料先清洗干凈后,再用本工具,本工具僅只會(huì)對(duì)長(zhǎng)文本拆分,不會(huì)進(jìn)行其他操作。所以使用前,需要確認(rèn)排版,內(nèi)容是否正確。
本工具拆分會(huì)以1000字進(jìn)行截?cái)嗖鸱?,?huì)以完成的一句話為結(jié)尾,并不會(huì)拆分后導(dǎo)致長(zhǎng)文本題不對(duì)文的情況。

切分完效果如下:



切分完成的數(shù)據(jù),每個(gè)文件的第一行還是原標(biāo)題,所以處理成訓(xùn)練數(shù)據(jù)的JSON文件時(shí)候,直接可以加入處理就行,這樣就能確保模型能學(xué)習(xí)到該標(biāo)題下能關(guān)聯(lián)更長(zhǎng)的數(shù)據(jù)。