亚洲精品一区二三区在线观看_久久美_91妖精视频_成av人电影在线_久久久国产精品免费_久热亚洲

<bdo id="qrhru"></bdo>

登錄

注冊(cè)

123懸賞平臺(tái)
2000活躍值=1元

首頁(yè) > 生活分享 > 免費(fèi)教學(xué) > 剛剛，字節(jié)開(kāi)源Seed-OSS-36B模型，512k上下文

剛剛，字節(jié)開(kāi)源Seed-OSS-36B模型，512k上下文

發(fā)布時(shí)間：2025-08-22 17:44:17

開(kāi)源賽道也是熱鬧了起來(lái)。

就在深夜，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)正式發(fā)布并開(kāi)源了 Seed-OSS 系列模型，包含三個(gè)版本：

Seed-OSS-36B-Base（含合成數(shù)據(jù)）

Seed-OSS-36B-Base（不含合成數(shù)據(jù)）

Seed-OSS-36B-Instruct（指令微調(diào)版）

剛剛，字節(jié)開(kāi)源Seed-OSS-36B模型，512k上下文

Hugging Face 地址：

項(xiàng)目地址：

Seed-OSS 使用了 12 萬(wàn)億（12T）tokens 進(jìn)行訓(xùn)練，并在多個(gè)主流開(kāi)源基準(zhǔn)測(cè)試中取得了出色的表現(xiàn)。

這三個(gè)模型均以 Apache-2.0 許可證發(fā)布，允許研究人員和企業(yè)開(kāi)發(fā)者自由使用、修改和再分發(fā)。

主要特性：

靈活的推理預(yù)算控制：允許用戶(hù)根據(jù)需要靈活調(diào)整推理長(zhǎng)度。這種對(duì)推理長(zhǎng)度的動(dòng)態(tài)控制能力，可在實(shí)際應(yīng)用場(chǎng)景中提升推理效率。

增強(qiáng)的推理能力：在保持平衡且優(yōu)秀的通用能力的同時(shí)，針對(duì)推理任務(wù)進(jìn)行了特別優(yōu)化。

智能體能力：在涉及工具使用和問(wèn)題解決等智能體任務(wù)中表現(xiàn)突出。

研究友好：考慮到在預(yù)訓(xùn)練中加入合成指令數(shù)據(jù)可能會(huì)影響后續(xù)研究，字節(jié)同時(shí)發(fā)布了含有與不含指令數(shù)據(jù)的預(yù)訓(xùn)練模型，為研究社區(qū)提供了更多樣化的選擇。

原生長(zhǎng)上下文：在訓(xùn)練中原生支持最長(zhǎng) 512K 的上下文窗口。

模型架構(gòu)

Seed-OSS-36B 的架構(gòu)結(jié)合了多種常見(jiàn)的設(shè)計(jì)選擇，包括因果語(yǔ)言建模、分組查詢(xún)注意力（Grouped Query Attention）、SwiGLU 激活函數(shù)、RMSNorm 和 RoPE 位置編碼。

每個(gè)模型包含 360 億參數(shù)，分布在 64 層網(wǎng)絡(luò)中，并支持 15.5 萬(wàn)詞表。

其最具代表性的特性之一是原生長(zhǎng)上下文能力，最大上下文長(zhǎng)度可達(dá) 512k tokens，能夠在不損失性能的情況下處理超長(zhǎng)文檔和推理鏈。

這一長(zhǎng)度是 OpenAI 最新 GPT-5 模型系列的兩倍，大約相當(dāng)于 1600 頁(yè)文本。

另一個(gè)顯著的特性是引入了推理預(yù)算，它允許開(kāi)發(fā)者在模型給出答案之前，指定模型應(yīng)執(zhí)行多少推理過(guò)程。

這一設(shè)計(jì)在近期其他一些開(kāi)源模型中也有所體現(xiàn)，例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在實(shí)際應(yīng)用中，這意味著團(tuán)隊(duì)可以根據(jù)任務(wù)的復(fù)雜性和部署的效率需求來(lái)調(diào)節(jié)性能。

推薦的預(yù)算值為 512 tokens 的倍數(shù)，其中 0 表示直接輸出答案的模式。

結(jié)果

基準(zhǔn)測(cè)試結(jié)果顯示，Seed-OSS-36B 位列當(dāng)前性能較強(qiáng)的開(kāi)源大模型之列。

Seed-OSS-36B-Base

含合成數(shù)據(jù)版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分，在 MATH 上取得 81.7 得分。非合成基礎(chǔ)版本雖然在許多方面略微落后，但也具有競(jìng)爭(zhēng)力。

Seed-OSS-36B-Instruct

Instruct 版本在多個(gè)領(lǐng)域都取得了 SOTA 成績(jī)。

數(shù)學(xué)與推理：Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成績(jī)，在 BeyondAIME 上取得 65，均代表開(kāi)源領(lǐng)域的最新 SOTA 水平。

代碼能力：在 LiveCodeBench v6 上，Instruct 模型得分 67.4，同樣刷新 SOTA 紀(jì)錄。

長(zhǎng)上下文處理：在 RULER（128K 上下文長(zhǎng)度）測(cè)試中，該模型達(dá)到 94.6，創(chuàng)下開(kāi)源模型的最高分。

思考預(yù)算

用戶(hù)可以靈活指定模型的推理預(yù)算。下圖展示了在不同任務(wù)中，隨著推理預(yù)算變化而產(chǎn)生的性能曲線。

對(duì)于較簡(jiǎn)單的任務(wù)（如 IFEval），模型的思維鏈較短，隨著推理預(yù)算的增加，分?jǐn)?shù)會(huì)出現(xiàn)一定波動(dòng)。

而在更具挑戰(zhàn)性的任務(wù)（如 AIME 和 LiveCodeBench）中，模型的思維鏈較長(zhǎng)，分?jǐn)?shù)則會(huì)隨著推理預(yù)算的增加而提升。

模型在運(yùn)行過(guò)程，會(huì)提醒用戶(hù) token 使用情況。

如果未設(shè)置推理預(yù)算（默認(rèn)模式），Seed-OSS 將以無(wú)限長(zhǎng)度啟動(dòng)推理。

如果指定了推理預(yù)算，字節(jié)建議用戶(hù)優(yōu)先選擇 512 的整數(shù)倍數(shù)（如 512、1K、2K、4K、8K 或 16K），因?yàn)槟Ｐ鸵言谶@些區(qū)間上進(jìn)行了大量訓(xùn)練。

當(dāng)推理預(yù)算為 0 時(shí)，模型會(huì)被指示直接輸出答案；對(duì)于低于 512 的預(yù)算，字節(jié)也建議統(tǒng)一設(shè)為 0。

【返回列表】

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為“123懸賞平臺(tái)用戶(hù)上傳并發(fā)布"，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

下一篇:Temu美國(guó)訪問(wèn)量與日活急劇下降

上一篇:拒絕外賣(mài)大戰(zhàn)的喜茶，低調(diào)開(kāi)啟多渠道擴(kuò)張

免費(fèi)教學(xué)更多>>

比亞迪：仰望U9超跑一年交付149臺(tái)，自動(dòng)泊車(chē)?yán)塾?jì)啟用2385次僅4輛：彩虹涂裝版瑪莎拉蒂M(fèi)CPURA超跑首秀羅永浩進(jìn)軍新賽道：“9年磨一面”的“特別特鮮泡面”今晚登場(chǎng) 實(shí)測(cè)智譜“首個(gè)手機(jī)agent”：有新思路，但一到真實(shí)世界全是無(wú)力感拋棄Fire OS、全面擁抱Android，消息稱(chēng)亞馬遜明年推出全新平板剛剛，字節(jié)開(kāi)源Seed-OSS-36B模型，512k上下文狂秀加班！釘釘凌晨12點(diǎn)發(fā)文硬蹭自家熱點(diǎn) OpenAI計(jì)劃出租AI基礎(chǔ)設(shè)施，開(kāi)拓新財(cái)源以緩解成本壓力中國(guó)汽車(chē)工程學(xué)會(huì)“走進(jìn)廣汽”活動(dòng)成功舉辦 30萬(wàn)高端車(chē)不帶增程器？你別逗了！駱駝iEV低壓輔助電池：新能源汽車(chē)智能化的隱形基石純電陣營(yíng)“坍塌”！汽車(chē)廠家紛紛入局增程，背后有何玄機(jī)？一汽奧迪開(kāi)啟“融合直售” 純血四環(huán)再次引領(lǐng)行業(yè)變革方程豹兩周年：以熱愛(ài)為錨，與豹友共繪用戶(hù)生態(tài)新篇章深挖北汽藍(lán)谷半年成績(jī)單，背后秘訣就是“極享”道路，穩(wěn)了！ 8.99萬(wàn)元起，時(shí)尚依舊，奇瑞風(fēng)云X3系列車(chē)型正式上市智駕或超過(guò)人駕，別克高端新能源至境L7首搭Momenta R6飛輪大模型茶百道正式進(jìn)入美國(guó)市場(chǎng)，首店落地紐約王自如微博停更一個(gè)月后恢復(fù)更新 8月18日，擁有超700萬(wàn)粉絲的汽車(chē)博主“張教官的有趣人生”發(fā)布視頻，就之前對(duì)長(zhǎng)城汽車(chē)旗下魏牌的指責(zé)和質(zhì)疑公開(kāi)道歉羅永浩微博改名宣傳其播客“勝似巴菲特午餐，且免費(fèi)” 2025年13萬(wàn)-50萬(wàn)，值得買(mǎi)的7款SUV新勢(shì)力汽車(chē) 增程版五座SUV智己LS6即將開(kāi)啟預(yù)售，看看車(chē)主們都在聊啥老兵和新將，奇瑞風(fēng)云A9L和比亞迪漢DM怎么選？華為智界MPV最新諜照！配貫穿式燈帶，激光雷達(dá)，或采用純電/增程動(dòng)力五百?gòu)?qiáng)+7連漲，上汽蓄力待爆發(fā) J.D. Power研究發(fā)布：產(chǎn)品魅力指數(shù)大幅上升，自主品牌表現(xiàn)亮眼 A5L，拯救上汽奧迪銷(xiāo)量的救星？配置拉滿(mǎn)，價(jià)格炸場(chǎng)！長(zhǎng)安第三代UNI-V登陸華中，到手價(jià)9.79萬(wàn)元起！第三代蔚來(lái)ES8現(xiàn)身街頭，大過(guò)問(wèn)界M9+三激光雷達(dá)，配707馬力