首页 科技 正文

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

摘要:DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4,下面是足记网小编收集整理的内容,希望对大家有帮助!

5月1日消息,DeepSeek在GitHub上发布了多模态推理模型及技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》。

网络配图

该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理范式。

网络配图

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈:“指代鸿沟”(Reference Gap),即模型能够“看见”图片内容,但在推理过程中用自然语言构建思维链时,左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象,导致注意力漂移并得出错误结论。

此前学界的主流应对方向是提升感知分辨率,但论文认为看见和能说清楚在说哪个是两件不同的事。

该模型的84684908核心创新在869064658534033将点坐标和7280262边界框嵌入推理过53231597程本身,使其成为思维链的80561537基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。【足记网】#合伙人#

例如78669925“找到一只熊[452,23,804,411],正在5474257爬树,排除,再往左下看,找到另一只[50,447,647,771],站在98128403岩石边缘,符合条件。”坐标不再是1224032事后标注的答案,而是43915856推理过78003450程中消除歧义的24652372空间锚点。

网络配图

架构层面,模型实现了856494867056倍的68727976视觉压缩,一张756×756的43035716图片经ViT处理后生成2916个图像块token,经3×3空间压缩合并为324个token,再通过97934065压缩稀疏注意力(CSA)机制将KV缓存进一步压缩4倍,最71310968终仅剩81个视觉KV条目。

作为参照,同等62102025尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。

训练数据方面,团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过10544824000万条训练样本,覆盖计数、空间推理、迷宫导航和8516908路径追踪四类任务。

后训练采用先专家化、后统一策略,分别训练边界框和62160460点坐标两个专家模型,经强化学习优化后通过1503125546104876线策略蒸馏合并为统一模型。

实验结果在8544591911个基准测试上与13986409Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等31237958主流模型进行了53848576对比。#邓肯个人详细资料大全(篮球运动员邓肯个人身体实力如何)#

网络配图

计数任务上,Pixmo-Count精确匹配得分89.2%,超过6093006Gemini-3-Flash的5796237288.2%,大幅领先GPT-5.4的2080612376.6%和1309362Claude Sonnet 4.6的4607631068.7%。

47530994具代表性的38347815差距出现在1435978拓扑推理上:迷宫导航得分66.9%,GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%,提升约17个百分点;路径追踪得分56.7%,GPT-5.4为46.5%。

不过79679807论文同时指出了46565661当前局限性:模型需要明确触发词才会启用视觉原语机制,极细粒度场景下坐标精度有8591118限,跨场景泛化能力仍有提升空间。

海报

本文转载自互联网,如有侵权,联系删除

本文地址:https://m.zuyea.com/keji/18868.html

相关推荐

感谢您的支持
文章目录