📢 Gate廣場獨家活動: #PUBLIC创作大赛# 正式開啓!
參與 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),並在 Gate廣場發布你的原創內容,即有機會瓜分 4,000 枚 $PUBLIC 獎勵池!
🎨 活動時間
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 參與方式
在 Gate廣場發布與 PublicAI (PUBLIC) 或當前 Launchpool 活動相關的原創內容
內容需不少於 100 字(可爲分析、教程、創意圖文、測評等)
添加話題: #PUBLIC创作大赛#
帖子需附帶 Launchpool 參與截圖(如質押記錄、領取頁面等)
🏆 獎勵設置(總計 4,000 枚 $PUBLIC)
🥇 一等獎(1名):1,500 $PUBLIC
🥈 二等獎(3名):每人 500 $PUBLIC
🥉 三等獎(5名):每人 200 $PUBLIC
📋 評選標準
內容質量(相關性、清晰度、創意性)
互動熱度(點讚、評論)
含有 Launchpool 參與截圖的帖子將優先考慮
📄 注意事項
所有內容須爲原創,嚴禁抄襲或虛假互動
獲獎用戶需完成 Gate廣場實名認證
Gate 保留本次活動的最終解釋權
大模型長文本能力突破40萬token 推動AI在金融法律等領域應用
大模型長文本能力大比拼:從4000到40萬token,AI"閱讀力"飆升
大模型正以驚人的速度提升其長文本處理能力。從最初的4000 token到如今的40萬token,長文本能力似乎已成爲大模型廠商的新標配。
國際上,OpenAI通過多次升級將GPT-3.5的上下文輸入長度從4千提升至1.6萬token,GPT-4則從8千增至3.2萬token。其競爭對手Anthropic更是一舉將上下文長度提升至10萬token。LongLLaMA甚至將上下文長度擴展到25.6萬token以上。
國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文與MIT合作開發的LongLoRA技術則可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將拓展上下文長度作爲重點升級方向。這些公司普遍受到資本市場的青睞,融資規模和估值均呈現快速增長態勢。
大模型公司如此重視長文本技術,40萬token的突破意味着什麼?表面上看,這代表着模型的輸入文本長度和閱讀能力大幅提升。從最初僅能處理一篇短文,到現在可以閱讀整本長篇小說,模型的應用場景得到顯著拓展。
更深層次來看,長文本技術正推動大模型在金融、司法、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力是這些領域智能化升級的關鍵。
然而,與模型參數類似,文本長度並非越長越好。研究表明,模型支持的上下文長度與效果之間並不存在簡單的正相關。關鍵在於模型如何有效利用上下文內容。
目前,長文本技術的探索仍未達到瓶頸。國內外大模型公司仍在持續突破,40萬token可能只是一個開始。
爲何大模型公司競相"卷"長文本?
月之暗面創始人楊植麟表示,大模型輸入長度的限制造成了許多應用落地的困境,這正是當前各大公司聚焦長文本技術的原因。
例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色可能遺忘重要信息。在開發劇本殺類遊戲時,輸入長度不夠會導致規則和設定被削減,影響遊戲效果。在法律、金融等專業領域,深度內容分析和生成也常常受到限制。
長文本在未來的Agent和AI原生應用中扮演重要角色。Agent需要依靠歷史信息進行規劃和決策,AI原生應用則需要上下文來維持連貫、個性化的用戶體驗。
楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,而執行步驟數即上下文長度。長文本技術不僅可以解決大模型早期的一些問題,還是推進產業和應用落地的關鍵技術之一。
通過月之暗面新發布的Kimi Chat,我們可以一窺長文本時代大模型的升級功能:
這些功能顯示,對話機器人正朝着專業化、個性化、深度化的方向發展,有望成爲推動產業落地和超級APP出現的重要抓手。
長文本的"不可能三角"困境
在長文本技術中,存在文本長短、注意力和算力的"不可能三角"困境。這表現爲:
這一困境的根源在於大多數模型基於Transformer結構。該結構中的自注意力機制使計算量隨上下文長度呈平方級增長。
目前主要有三種解決方案:
長文本的"不可能三角"困境暫時還無解,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者之間尋找最佳平衡點,既能處理足夠的信息,又能兼顧注意力計算與算力成本限制。