說(shuō)明一:中斷繼續(xù)訓(xùn)練后的Loss值恢復(fù)初始狀態(tài)。
本次主要更新,取消了原本的中斷訓(xùn)練Loss值并接的問(wèn)題,我們發(fā)現(xiàn),當(dāng)loss值并接了,中斷學(xué)習(xí)訓(xùn)練并不能很好的繼續(xù)收斂loss值,導(dǎo)致很多用戶認(rèn)為模型訓(xùn)練無(wú)法收斂,可能模型無(wú)法學(xué)習(xí)新知識(shí)。
在Pro 1.8.3版本公告中,有說(shuō)明中斷后的Loss值并接算法,屬于測(cè)試版,經(jīng)過(guò)這么久,我們發(fā)現(xiàn)該算法并不是很好的服務(wù)用戶,在1.9.3版本后,我們將徹底取消中斷后的Loss值并接,還是采用NLP訓(xùn)練標(biāo)準(zhǔn),每當(dāng)開(kāi)始訓(xùn)練,Loss值恢復(fù)初始狀態(tài),并根據(jù)每次訓(xùn)練單獨(dú)計(jì)算,這樣就能確保直觀的了解模型的學(xué)習(xí)成果和模型收斂問(wèn)題。
說(shuō)明二:關(guān)于繼續(xù)訓(xùn)練,學(xué)習(xí)速度的增長(zhǎng)問(wèn)題說(shuō)明。
我們發(fā)現(xiàn),較多用戶在模型訓(xùn)練結(jié)束或者訓(xùn)練學(xué)習(xí)中途暫停訓(xùn)練后,想接著提升模型能力,并接著訓(xùn)練的時(shí)候發(fā)現(xiàn)學(xué)習(xí)速度增長(zhǎng)過(guò)高的問(wèn)題,這是一個(gè)有趣的現(xiàn)象,但是這也是一個(gè)正常的表現(xiàn),各位Pro用戶不必?fù)?dān)心是否有異常。
初始訓(xùn)練,在一個(gè)訓(xùn)練周期內(nèi),預(yù)訓(xùn)練模型中,它需要加載各類(lèi)初始參數(shù)以及訓(xùn)練數(shù)據(jù)集等大量數(shù)據(jù),需要加載預(yù)訓(xùn)練模型的初始模型權(quán)重,所以并發(fā)會(huì)占用更大的資源去訓(xùn)練。
但是在訓(xùn)練一定的周期后,中斷后繼續(xù)訓(xùn)練,是從你已成功訓(xùn)練保存的模型中,繼續(xù)加載模型權(quán)重和參數(shù),這樣就減輕了模型負(fù)重能力,同時(shí)也釋放了更大的算力能力讓模型繼續(xù)學(xué)習(xí)訓(xùn)練下去,這樣的情況就會(huì)讓每秒學(xué)習(xí)速度得到一定的上升。
所以,當(dāng)您繼續(xù)加載訓(xùn)練,如速度有明顯上升,不必?fù)?dān)心,這是正常表現(xiàn)。但是建議還是盡可能保持模型在一個(gè)周期內(nèi)完成初始訓(xùn)練。
看樣子做網(wǎng)站得買(mǎi)一個(gè)