目前版本:自定義關鍵詞提取批量生成數(shù)據(jù)表1.4
修復了百度知道最新反爬機制
更新時間:2023-11-9
該工具已更新為單獨的EXE程序。
主要作用:根據(jù)自己整理的關鍵詞或者長尾詞,讓程序通過爬蟲提取標題和起始句。而不是提取原始語料的數(shù)據(jù)了。
如果速度過快,容易被屏蔽,然后就會停止了,建議加上代理。代理使用“隧道代理,最好每次請求更換IP”
如果使用代理的話,需要將代理開關打開,在配置文件里面的代理設置,把False改成True。
True為使用代理,F(xiàn)alse為不使用代理。
如果啟用代理的話,需要刪掉代理配置中的雙引號:
【新增更新】新增已處理記憶功能,中斷運行后,不會重復提取已提取的數(shù)據(jù)。
【9-11新增更新】:優(yōu)化程序爬取邏輯
聲明:由于此工具并非AI項目配套必須品(我們項目有自帶的提取標題和起始句的工具),此工具只為拓展協(xié)助你提取你自定義的數(shù)據(jù),提升使用者的方便,所以本工具需另收費。本工具僅限用于我們AI-CPM批量生成功能。
暫定價格:168元(買斷制)
]]>工具介紹:
本工具主要為檢查生成數(shù)據(jù)表中是否含有重復標題數(shù)據(jù)以及檢查已生成內容異常缺少問題。
比如:數(shù)據(jù)表中有很多重復的數(shù)據(jù),就會被檢測出來告知有哪些標題是重復的。
比如:生成數(shù)據(jù)表中數(shù)據(jù)有1萬條,但是實際生成出的內容只有5000個內容,通過該工具檢測,就知道數(shù)據(jù)表中有哪些數(shù)據(jù)沒有進行生成/遺漏。
使用說明:
如果僅需要篩查數(shù)據(jù)表,填寫或選擇好數(shù)據(jù)表的文件路徑,點擊“僅篩查生成數(shù)據(jù)表內重復數(shù)據(jù)”按鈕即可。
如果需要篩查已生成的數(shù)據(jù)是否缺漏,選擇好你的數(shù)據(jù)表,再選擇該數(shù)據(jù)表的內容保存路徑,點擊篩查即可。
最終的分析文件,會存放到軟件的根目錄下。
]]>本工具主要作用:
當提取了生成數(shù)據(jù)表,一份數(shù)據(jù)表里面有數(shù)十萬內容需要生成,閃豚速寫支持多開和多窗口進行生成,就需要不同的數(shù)據(jù)表,該工具就可以快速把數(shù)據(jù)表自動分割需要的份數(shù),方便進行內容生成操作。
]]>用于閃豚AI系統(tǒng)的批量生成數(shù)據(jù)表提取。主要從自己訓練語料提取標題和起始句作用。
提取完保存TXT文本格式的數(shù)據(jù)表文件。
也可以自己手動制作批量生成數(shù)據(jù)表,格式如下:
標題###起始句
標題###起始句
標題###起始句
標題###起始句
請注意:數(shù)據(jù)表需要一行一條數(shù)據(jù),前面是標題,后面是起始句。
本次發(fā)布該小工具是已剝離原系統(tǒng)自帶該小功能,以獨立小工具方式為閃豚用戶提供服務。
優(yōu)化提取策略
]]>本功能工具可以處理刪除路徑下所有TXT文檔的指定行數(shù)。
比如你需要刪除TXT文檔中的第一行和第二行。則在開始刪除和結束刪除參數(shù)輸入1,2即可。
]]>該工具主要作用,二次清理篩選訓練數(shù)據(jù)JSON文件。
很多用戶自行采集的語料很亂,導致程序處理出來的,有問題,最終就導致訓練出問題。
再次強調,訓練出問題,100%是數(shù)據(jù)文件的問題,語料數(shù)據(jù)的問題!
自行采集整理語料,一定要按照要求整理!
第一行為標題
第二行留空
第三行為內容
不是這種標準語料的,都是有問題的。就不要再說,訓練怎么又閃退!
建議當你不確定你語料有沒有問題,你就二次用這個清洗一下你的JSON文件。
]]>1.批量解決訓練語料編碼非UTF-8(自動把編碼統(tǒng)一轉為UTF-8)
2.批量解決訓練語料內容有各種html標簽(自動過濾各種標簽)
3.批量解決訓練語料多余空格自動過濾。
4.批量解決統(tǒng)一規(guī)范訓練語料格式要求。(整理除第一行標題外,第二行程序會處理成自動空行,第三行就是語料內容了)
5.批量處理語料的簡易排版,實現(xiàn)每段前面都加兩個空格。
6.增加了檢測內容不符條件,當TXT內容少于100字中文時,直接過濾。(這種措施是防止有些位置的亂碼,符號等無法過濾,導致TXT文本中沒中文,就統(tǒng)一過濾掉)
6.更新加入報錯處理,非常規(guī)問題異常報錯文件單獨保存到一份新的文件夾內,不進行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項目配套必須品(人工完全自己也可以把控采集時把訓練語料處理干凈標準),此工具只為協(xié)助解決處理你的語料數(shù)據(jù),提升使用者的方便,所以本工具需另收費。本工具僅限用于我們閃豚AI的訓練語料批量處理。
使用本工具后,能全自動化高速處理訓練語料,也就是說,你采集的語料只需采集的時候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價格:98元(買斷制)
]]>請所有發(fā)布模型交易的用戶,發(fā)布模型交易內容,需要使用該工具進行語料樣本抽樣,本工具會抽樣你訓練的模型語料隨機3%的數(shù)據(jù)進行壓縮打包。
發(fā)布交易的時候,需要將語料樣本壓縮包,也上傳到網(wǎng)盤去,做個分享鏈接,以便購買用戶進行模型數(shù)據(jù)核驗。
]]>當你使用聚合生成配套工具時,出現(xiàn)以上問題,原因是由于你本地網(wǎng)絡問題。導致無法或者下載驗證文件到本地進行通信,所以聚合工具無法使用。
解決辦法:下載修復工具包即可。
沒出現(xiàn)問題的不需要修復。
]]>1.自定義限制語料文本的最低字數(shù)。
2.自定義限制語料文本的最高字數(shù)。
3.自動檢索重復的TXT文本。
4.保存標準語料。
這樣有利于更方便的整理清洗語料。將符合要求的語料進行預處理成可訓練文件。
清洗完成后,會保存以下四個文件夾。將清洗的相關條件TXT語料文本對應保存。
聲明:由于此工具并非AI項目配套必須品(在你采集整理數(shù)據(jù)的時候完全可以人工清洗相關不符合條件的語料文本),此工具只為拓展協(xié)助你更快的清洗語料要求,提升使用者的方便,所以本工具需另收費。本工具僅限用于我們AI-CPM項目。
暫定價格:168元(買斷制)
官方接語料數(shù)據(jù)定制服務,有需要隨時聯(lián)系,提取語料需求即可。精準定制。
]]>支持批量原始標題,生成雙標題。
工具為轉載,并非我們開發(fā)的,謹慎使用。
]]>2.分享語料格式要求講解
3.分享一份采集規(guī)則處理模板
]]>