閃豚速寫軟件推理生成功能中的參數(shù)調(diào)整說明教程

教程專區(qū)
23年8月30日
編輯

閃豚AI閃豚AI官方

很多用戶已經(jīng)使用上了推理，但是想要模型生成出來的質(zhì)量更好，需要根據(jù)自己的應(yīng)用場景和模型質(zhì)量進(jìn)行調(diào)參。

下面我們來講解一下這些參數(shù)的說明：

seqiences：表示生成的序列個數(shù)。如果設(shè)置為大于1的值，模型會生成指定數(shù)量的不同序列。這對于希望得到多種可能輸出的場景是有用的。

penalty：這個參數(shù)用于控制生成文本中的重復(fù)性。值越大，生成的文本中的重復(fù)內(nèi)容就越少。調(diào)整此參數(shù)可以影響生成文本的多樣性和唯一性。

top_k：在生成過程中，模型會在每個時間步驟為每個可能的下一個詞賦予一個分?jǐn)?shù)。top_k用于限制在每個時間步驟中，模型只考慮分?jǐn)?shù)最高的k個詞。如果top_k設(shè)置的太小，可能會導(dǎo)致生成的文本過于單一；設(shè)置的太大，可能導(dǎo)致生成的文本缺乏連貫性。

top_p：這也是一種限制模型考慮的可能下一個詞的方法，不同的是，它是基于分?jǐn)?shù)的累積概率而不是個數(shù)。即在每個時間步驟中，模型會考慮到使得下一個詞的分?jǐn)?shù)的累積概率超過top_p的最小集合。這種方法又被稱為nucleus sampling。它可以增加生成文本的多樣性。

調(diào)整這些參數(shù)可以影響生成的質(zhì)量。例如，適當(dāng)增大penalty可以減少生成文本中的重復(fù)；合理設(shè)置top_k和top_p可以影響生成文本的多樣性和連貫性。但需要注意的是，沒有一組適合所有場景的最優(yōu)參數(shù)，需要根據(jù)具體任務(wù)和數(shù)據(jù)進(jìn)行嘗試和調(diào)整。

字?jǐn)?shù)限制：請注意，該參數(shù)為內(nèi)容的生成最高字?jǐn)?shù)，如果覺得模型生成的字?jǐn)?shù)低，請調(diào)整該參數(shù)，比如，字?jǐn)?shù)限制是800，那么模型生成的字?jǐn)?shù)絕對不會超過800字。

字?jǐn)?shù)限制還有個問題請注意，模型的生成字?jǐn)?shù)長度多少，取決于訓(xùn)練語料的字?jǐn)?shù)，如果您的訓(xùn)練語料字?jǐn)?shù)普遍只有三四百字，那么模型最終生成的字?jǐn)?shù)也是三四百字。標(biāo)準(zhǔn)模型則可以最高支持3倍以上的字?jǐn)?shù)生成。

最簡單的調(diào)整參數(shù)教學(xué)：

penalty：你就把它看成，控制生成內(nèi)容的重復(fù)性的，減少它，則會讓內(nèi)容有更多重復(fù)的語句，詞語出現(xiàn)。

top_k：這個參數(shù)是調(diào)整生成的內(nèi)容的隨機(jī)性的，調(diào)整大，則會出現(xiàn)隨機(jī)性越大，越能拓展你的學(xué)習(xí)語料。調(diào)小則會更貼近你的訓(xùn)練樣本。

top_p：這個參數(shù)也是調(diào)整生成內(nèi)容的隨機(jī)性，只不過它是控制概率采樣的，也就是生成推理時候，預(yù)測下一個組詞命中我們模型詞典數(shù)據(jù)。

減少top_k并增加top_p參數(shù)值，模型的輸出會變得更有確定性，更接近它在訓(xùn)練數(shù)據(jù)中看到學(xué)習(xí)的內(nèi)容。

軟件操作教程：