目前版本:自定義關(guān)鍵詞提取批量生成數(shù)據(jù)表1.4
修復(fù)了百度知道最新反爬機(jī)制
更新時(shí)間:2023-11-9
該工具已更新為單獨(dú)的EXE程序。
主要作用:根據(jù)自己整理的關(guān)鍵詞或者長尾詞,讓程序通過爬蟲提取標(biāo)題和起始句。而不是提取原始語料的數(shù)據(jù)了。
如果速度過快,容易被屏蔽,然后就會停止了,建議加上代理。代理使用“隧道代理,最好每次請求更換IP”
如果使用代理的話,需要將代理開關(guān)打開,在配置文件里面的代理設(shè)置,把False改成True。
True為使用代理,F(xiàn)alse為不使用代理。
如果啟用代理的話,需要刪掉代理配置中的雙引號:
【新增更新】新增已處理記憶功能,中斷運(yùn)行后,不會重復(fù)提取已提取的數(shù)據(jù)。
【9-11新增更新】:優(yōu)化程序爬取邏輯
聲明:由于此工具并非AI項(xiàng)目配套必須品(我們項(xiàng)目有自帶的提取標(biāo)題和起始句的工具),此工具只為拓展協(xié)助你提取你自定義的數(shù)據(jù),提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們AI-CPM批量生成功能。
暫定價(jià)格:168元(買斷制)
]]>工具介紹:
本工具主要為檢查生成數(shù)據(jù)表中是否含有重復(fù)標(biāo)題數(shù)據(jù)以及檢查已生成內(nèi)容異常缺少問題。
比如:數(shù)據(jù)表中有很多重復(fù)的數(shù)據(jù),就會被檢測出來告知有哪些標(biāo)題是重復(fù)的。
比如:生成數(shù)據(jù)表中數(shù)據(jù)有1萬條,但是實(shí)際生成出的內(nèi)容只有5000個(gè)內(nèi)容,通過該工具檢測,就知道數(shù)據(jù)表中有哪些數(shù)據(jù)沒有進(jìn)行生成/遺漏。
使用說明:
如果僅需要篩查數(shù)據(jù)表,填寫或選擇好數(shù)據(jù)表的文件路徑,點(diǎn)擊“僅篩查生成數(shù)據(jù)表內(nèi)重復(fù)數(shù)據(jù)”按鈕即可。
如果需要篩查已生成的數(shù)據(jù)是否缺漏,選擇好你的數(shù)據(jù)表,再選擇該數(shù)據(jù)表的內(nèi)容保存路徑,點(diǎn)擊篩查即可。
最終的分析文件,會存放到軟件的根目錄下。
]]>本工具主要作用:
當(dāng)提取了生成數(shù)據(jù)表,一份數(shù)據(jù)表里面有數(shù)十萬內(nèi)容需要生成,閃豚速寫支持多開和多窗口進(jìn)行生成,就需要不同的數(shù)據(jù)表,該工具就可以快速把數(shù)據(jù)表自動分割需要的份數(shù),方便進(jìn)行內(nèi)容生成操作。
]]>用于閃豚AI系統(tǒng)的批量生成數(shù)據(jù)表提取。主要從自己訓(xùn)練語料提取標(biāo)題和起始句作用。
提取完保存TXT文本格式的數(shù)據(jù)表文件。
也可以自己手動制作批量生成數(shù)據(jù)表,格式如下:
標(biāo)題###起始句
標(biāo)題###起始句
標(biāo)題###起始句
標(biāo)題###起始句
請注意:數(shù)據(jù)表需要一行一條數(shù)據(jù),前面是標(biāo)題,后面是起始句。
本次發(fā)布該小工具是已剝離原系統(tǒng)自帶該小功能,以獨(dú)立小工具方式為閃豚用戶提供服務(wù)。
優(yōu)化提取策略
]]>本功能工具可以處理刪除路徑下所有TXT文檔的指定行數(shù)。
比如你需要刪除TXT文檔中的第一行和第二行。則在開始刪除和結(jié)束刪除參數(shù)輸入1,2即可。
]]>該工具主要作用,二次清理篩選訓(xùn)練數(shù)據(jù)JSON文件。
很多用戶自行采集的語料很亂,導(dǎo)致程序處理出來的,有問題,最終就導(dǎo)致訓(xùn)練出問題。
再次強(qiáng)調(diào),訓(xùn)練出問題,100%是數(shù)據(jù)文件的問題,語料數(shù)據(jù)的問題!
自行采集整理語料,一定要按照要求整理!
第一行為標(biāo)題
第二行留空
第三行為內(nèi)容
不是這種標(biāo)準(zhǔn)語料的,都是有問題的。就不要再說,訓(xùn)練怎么又閃退!
建議當(dāng)你不確定你語料有沒有問題,你就二次用這個(gè)清洗一下你的JSON文件。
]]>1.批量解決訓(xùn)練語料編碼非UTF-8(自動把編碼統(tǒng)一轉(zhuǎn)為UTF-8)
2.批量解決訓(xùn)練語料內(nèi)容有各種html標(biāo)簽(自動過濾各種標(biāo)簽)
3.批量解決訓(xùn)練語料多余空格自動過濾。
4.批量解決統(tǒng)一規(guī)范訓(xùn)練語料格式要求。(整理除第一行標(biāo)題外,第二行程序會處理成自動空行,第三行就是語料內(nèi)容了)
5.批量處理語料的簡易排版,實(shí)現(xiàn)每段前面都加兩個(gè)空格。
6.增加了檢測內(nèi)容不符條件,當(dāng)TXT內(nèi)容少于100字中文時(shí),直接過濾。(這種措施是防止有些位置的亂碼,符號等無法過濾,導(dǎo)致TXT文本中沒中文,就統(tǒng)一過濾掉)
6.更新加入報(bào)錯(cuò)處理,非常規(guī)問題異常報(bào)錯(cuò)文件單獨(dú)保存到一份新的文件夾內(nèi),不進(jìn)行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項(xiàng)目配套必須品(人工完全自己也可以把控采集時(shí)把訓(xùn)練語料處理干凈標(biāo)準(zhǔn)),此工具只為協(xié)助解決處理你的語料數(shù)據(jù),提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們閃豚AI的訓(xùn)練語料批量處理。
使用本工具后,能全自動化高速處理訓(xùn)練語料,也就是說,你采集的語料只需采集的時(shí)候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標(biāo)簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價(jià)格:98元(買斷制)
]]>請所有發(fā)布模型交易的用戶,發(fā)布模型交易內(nèi)容,需要使用該工具進(jìn)行語料樣本抽樣,本工具會抽樣你訓(xùn)練的模型語料隨機(jī)3%的數(shù)據(jù)進(jìn)行壓縮打包。
發(fā)布交易的時(shí)候,需要將語料樣本壓縮包,也上傳到網(wǎng)盤去,做個(gè)分享鏈接,以便購買用戶進(jìn)行模型數(shù)據(jù)核驗(yàn)。
]]>當(dāng)你使用聚合生成配套工具時(shí),出現(xiàn)以上問題,原因是由于你本地網(wǎng)絡(luò)問題。導(dǎo)致無法或者下載驗(yàn)證文件到本地進(jìn)行通信,所以聚合工具無法使用。
解決辦法:下載修復(fù)工具包即可。
沒出現(xiàn)問題的不需要修復(fù)。
]]>1.自定義限制語料文本的最低字?jǐn)?shù)。
2.自定義限制語料文本的最高字?jǐn)?shù)。
3.自動檢索重復(fù)的TXT文本。
4.保存標(biāo)準(zhǔn)語料。
這樣有利于更方便的整理清洗語料。將符合要求的語料進(jìn)行預(yù)處理成可訓(xùn)練文件。
清洗完成后,會保存以下四個(gè)文件夾。將清洗的相關(guān)條件TXT語料文本對應(yīng)保存。
聲明:由于此工具并非AI項(xiàng)目配套必須品(在你采集整理數(shù)據(jù)的時(shí)候完全可以人工清洗相關(guān)不符合條件的語料文本),此工具只為拓展協(xié)助你更快的清洗語料要求,提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們AI-CPM項(xiàng)目。
暫定價(jià)格:168元(買斷制)
官方接語料數(shù)據(jù)定制服務(wù),有需要隨時(shí)聯(lián)系,提取語料需求即可。精準(zhǔn)定制。
]]>支持批量原始標(biāo)題,生成雙標(biāo)題。
工具為轉(zhuǎn)載,并非我們開發(fā)的,謹(jǐn)慎使用。
]]>2.分享語料格式要求講解
3.分享一份采集規(guī)則處理模板
]]>