DeepSeek公开新技术了！多模态模型技术报告公布：超越GPT-5.4-足记网

摘要：DeepSeek公开新技术了！多模态模型技术报告公布：超越GPT-5.4，下面是足记网小编收集整理的内容，希望对大家有帮助！

5月1日消息，DeepSeek在GitHub上发布了多模态推理模型及技术报告，题为《Thinking with Visual Primitives（以视觉原语思考）》。

该模型基于DeepSeek V4-Flash（284B总参数、推理时激活13B的MoE架构）构建，提出了一种全新的多模态推理范式。

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈：“指代鸿沟”（Reference Gap），即模型能够“看见”图片内容，但在推理过程中用自然语言构建思维链时，左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象，导致注意力漂移并得出错误结论。

此前学界的主流应对方向是提升感知分辨率，但论文认为看见和能说清楚在说哪个是两件不同的事。

该模型的84684908核心创新在8690646于58534033将点坐标和7280262边界框嵌入推理过53231597程本身，使其成为思维链的80561537基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。【足记网】#合伙人#

例如78669925“找到一只熊[452,23,804,411]，正在5474257爬树，排除，再往左下看，找到另一只[50,447,647,771]，站在98128403岩石边缘，符合条件。”坐标不再是1224032事后标注的答案，而是43915856推理过78003450程中消除歧义的24652372空间锚点。

架构层面，模型实现了856494867056倍的68727976视觉压缩，一张756×756的43035716图片经ViT处理后生成2916个图像块token，经3×3空间压缩合并为324个token，再通过97934065压缩稀疏注意力（CSA）机制将KV缓存进一步压缩4倍，最71310968终仅剩81个视觉KV条目。

作为参照，同等62102025尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。

训练数据方面，团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源，生成超过10544824000万条训练样本，覆盖计数、空间推理、迷宫导航和8516908路径追踪四类任务。

后训练采用先专家化、后统一策略，分别训练边界框和62160460点坐标两个专家模型，经强化学习优化后通过15031255在46104876线策略蒸馏合并为统一模型。

实验结果在8544591911个基准测试上与13986409Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等31237958主流模型进行了53848576对比。

计数任务上，Pixmo-Count精确匹配得分89.2%，超过6093006Gemini-3-Flash的5796237288.2%，大幅领先GPT-5.4的2080612376.6%和1309362Claude Sonnet 4.6的4607631068.7%。

最47530994具代表性的38347815差距出现在1435978拓扑推理上：迷宫导航得分66.9%，GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%，提升约17个百分点；路径追踪得分56.7%，GPT-5.4为46.5%。

不过79679807论文同时指出了46565661当前局限性：模型需要明确触发词才会启用视觉原语机制，极细粒度场景下坐标精度有8591118限，跨场景泛化能力仍有提升空间。

DeepSeek公开新技术了！多模态模型技术报告公布：超越GPT-5.4

求真痴者科技 2026-05-02 603 0

相关推荐

苹果配色大换血！iPhone 18 Pro四色实锤：爱马仕橙彻底缺席

SpaceX计划在五年内实现每年1万次发射马斯克：最便宜AI算力在太空

特斯拉宣布FSD（监督版）正式进入中国！比人类驾驶员安全7倍

Valve狂进50吨游戏主机！Steam Machine即将登场

英特尔参投QuantWare！建造全球最大量子芯片晶圆厂

一图看懂DeepSeek V4与美国顶级AI差距：落后8个月

张雪机车发生故障退赛！车手德比斯回应：很抱歉本来有机会两连冠

豆包官方确认收费：将在免费模式外新增付费订阅主打生产力场景

热门文章

热评文章

标签列表

« 2026年5月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31