近日,智譜新發(fā)布的多模態(tài)大模型GLM-4.1V-Thinking登頂 HuggingFace Trending榜單全球第一。
GLM-4.1V-Thinking是一款支持圖像、視頻、文檔等多模態(tài)輸入的通用推理型大模型,專(zhuān)為復(fù)雜認(rèn)知任務(wù)設(shè)計(jì)。它在GLM-4V架構(gòu)基礎(chǔ)上引入“思維鏈推理機(jī)制(Chain-of-Thought Reasoning)”,采用“課程采樣強(qiáng)化學(xué)習(xí)策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系統(tǒng)性提升模型跨模態(tài)因果推理能力與穩(wěn)定性。
其輕量版 GLM-4.1V-9B-Thinking 模型參數(shù)控制在 10B 級(jí)別,在兼顧部署效率的同時(shí)實(shí)現(xiàn)性能突破。該模型在 MMStar、MMMU-Pro、ChartQAPro、OSWorld 等 28 項(xiàng)權(quán)威評(píng)測(cè)中,有 23 項(xiàng)達(dá)成 10B 級(jí)模型的最佳成績(jī),其中 18 項(xiàng)更是持平或超越參數(shù)量高達(dá) 72B 的 Qwen-2.5-VL,充分展現(xiàn)了小體積模型的極限性能潛力。
GLM-4.1V-9B-Thinking 標(biāo)志著 GLM 系列視覺(jué)模型實(shí)現(xiàn)從感知走向認(rèn)知的關(guān)鍵躍遷。