#Gate BTC链上质押收益百分之三#
親愛的動態用戶們,Gate BTC質押挖礦活動火熱進行中!0.001 BTC起投,支持快速質押贖回,多種 PoS 質押策略可選,按1:1比例 BTC 兌換 GTBTC,每日輕鬆賺取豐厚獎勵!基礎年化收益率2%,在Gate Web3錢包完成簡單任務,次日可獲額外1%獎勵,年化收益高達3%,活動期間持續有效!
參與方式非常簡單:只需質押BTC,即可自動兌換GTBTC參與挖礦,獎勵每日發放至您的帳戶,讓BTC輕鬆實現增值。立即參與,開啓BTC增值之旅!👉 https://www.gate.com/staking/BTC
此外,歡迎大家積極帶上 #Gate BTC链上质押收益百分之三# 話題發帖分享質押經驗、收益截圖、質押攻略等內容,與其他動態用戶一起共贏獎勵!每日打卡發帖曬收益,即可輕鬆賺社區成長值,解鎖評論高亮、動態裝飾、月度抽獎等多重權益。月度抽獎獎品包括 iPhone 16、精美週邊、熱門代幣等超值好禮!
更多成長值任務,請在【動態】頭像旁點擊成長值圖標查看。
擊敗整個羊駝家族,Meta AI自對齊新方法只需極少人工標註數據
原文來源:量子位
人工標註數據告急?
Mata新方法僅用少量種子數據,就構建了一個高質量的指令遵循( instruction following)語言模型。
換言之,大語言模型需要大量人工標註的指令數據進行微調,而現在模型可自動從網絡語料庫未標記的文本中推理出指令。
然後用自己生成的指令數據進行訓練,堪比自產自銷。
並且用這種方法訓練出的模型在Alpaca基準測試上,超越開源羊駝及其一系列衍生模型。
LeCun發推認為該研究在模型自對齊方面具有轟動性:
羊駝:我自己搞數據訓練了一頭鯨
這種可擴展的新方法叫做指令回譯,Mata為用這種方法訓練出的模型起了個名字——Humpback(座頭鯨,又稱駝背鯨)。
(研究人員表示,之所以起這麼個名字,是因為它和駱駝背的關係,而且鯨魚體型更大,對應模型規模更大)
標註示例和語料來源都有了,下一步就是**自增強(Self-augment)**階段。
研究人員用種子數據對基礎模型LLaMa進行了微調,獲得指令預測模型。然後用這個指令預測模型,為未標註文本推理出一個候選指令。之後組合候選指令與文本(指令-輸出對),作為候選增強訓練數據,也就是上圖中的Augmented Data A。
但還不能用A的數據直接訓練,因為未標註文本本身質量參差不齊,生成的候選指令也存在噪聲。
所以需要關鍵的**自管理(Self-curate)**步驟,使用模型預測數據質量,選擇高質量樣本進行訓練。
為了提高模型指令預測質量,研究人員用候選數據迭代訓練了模型,在迭代訓練中,數據質量也會越來越好。
此外,在組合種子數據和增強數據微調模型時,他們還使用不同的系統提示標記區分了這兩個數據源:
進行兩輪迭代後,最終模型就新鮮出爐啦。
合併兩種訓練數據:1+1>2
下面再來看看研究人員的分析結果:
**
**###### △種子數據和增強數據的指令多樣性。內圈是常見的根動詞,外圈是與其對應的常見名詞。
上圖是用8%種子數據和13%的增強數據統計的指令多樣性。
可以很直觀地看到,在長尾部分增強數據多樣性更強,且增強數據與現有的人工標註種子數據相輔相成,補充了種子數據中未出現的類型。
其次,研究人員比較了三個增強數據集:Augmented data,all(無自管理)、
**
**###### △使用自篩選評估不同數據大小和質量的自增強數據。 y軸表示在使用給定數據大小和質量微調LLaMa 7B時與text-davinci-003的勝率。
(text-davinci-003,一種基於GPT-3的指令遵循模型,使用強化學習在人類編寫的指令數據、輸出、模型響應和人類偏好上進行了微調)
最後來看一下Alpaca排行榜上的結果。 Humpback在不依賴蒸餾數據的情況下,表現明顯優於其它方法,並且縮小了與專有模型之間的差距。
非蒸餾(Non-distilled),指不依賴於任何外部模型作為任何形式監督的訓練模型;蒸餾(Distilled),指在訓練過程中引入更強大的外部模型,例如使用從外部模型蒸餾的數據;專有(Proprietary),指使用專有數據和技術進行訓練的模型。
**
**###### △相對於text-davinci-003的勝率
在與開源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B和專有模型davinci-003、Claude的比較中,Humpback的表現也都更符合人類偏好。
由於用於訓練的文本數據來自網絡語料庫,微調後的模型可能會放大網絡數據的偏差。雖然和基礎模型相比,微調後的模型提高了檢測偏差的準確性。然而,這並不意味著會完全解決這個問題。
傳送門:論文鏈接)
參考鏈接: [1] [2] [3]