【新智元导读】刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。 此外,MiniCPM-V 4.5同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。 这样做在一定程度上保证了模型推理效率,但也因此缺失了绝大部分的视觉信息,降低了大模型对动态世界「精细化」理解,从而牺牲了模型性能。 不难想象,具备高刷视频理解能力的模型,必定更能满足汽车座舱、具身智能等要求实时、精细识别和理解的应用场景中,提供更加智能的服务。 下面,就到了激动人心的实测环节。 首先我们来看看,8B参数的MiniCPM-V 4.5的推理能力如何。 举个栗子,现在十分着急想要下高速路的你,突然看到了这样一个交通牌。 很显然,East Perth/Welshpool出口只有700米,比1千米以外的James St & Wellington St出口短了300米。 因此,East Perth/Welshpool必定是首选。 ·第四层虽然也是「内向」的人,但却得到了AI的加持!不过,你可不要以为他能像其他队伍一样会有人(工智能)帮他分摊工作,能够轻松一些;相反,这个倒霉蛋因为效率得到了大幅提升,而被安排了3倍的工作量! 不是模型尺寸小,就叫端侧模型。评判端侧模型的关键指标是:在手机、平板、电脑、车机、机器人等终端设备上,是否能稳定、丝滑地运行。 作为多模态模型的新旗舰,MiniCPM-V 4.5之所以具备高刷视频理解能力、并取得单图、OCR、长视频理解的SOTA,主要得益于在模型结构、训练范式等领域的创新。 由于局部片段的不同视频之间存在着信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在着很大的信息压缩空间。 具体而言,视频会按照每N个视频帧一组进行分组(分组尺寸最大为6),然后3D-Resampler会对每个视频组进行压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同)。 得益于Resampler机制的灵活性,在推理阶段还可以灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为3D视频编码的2D特例),方便知识和能力迁移。 提升OCR能力,往往需要补充更丰富且有难度的数据。为了提升数据的难度和多样性,常见的做法是数据增广。例如,对图像中文字加高斯噪音。但是增广过大会让文字不可读,反而会导致模型幻觉。 通过连续控制图像中「文字信息可见度」,MiniCPM-V 4.5可在OCR和知识学习两种模式之间无缝切换,首次实现了OCR和知识学习这两种学习范式的有效融合,且不会受到过度增广和解析错误的影响。 为了让模型在两种模式下都具备优秀的多模态性能,MiniCPM-V 4.5借助RLPR技术,从通用域多模态推理数据上获得高质量的奖励信号。而且面壁还提出了混合推理的强化学习RL训练方案,同时提升模型在常规模式和深度思考模式下的性能表现。 通过在RL训练中同时激活常规和深度思考模式,模型在两种模式下的性能都得以持续提升。最终,通过轻量化的RLAIF-V训练阶段,模型既保持了推理能力又显著降低了幻觉。 从行业第一个「高刷视频理解」模型,到OCR和知识学习的第一次有效结合,再到可控混合推理等,MiniCPM-V 4.5的意义远不止一次模型的升级,更是开源端侧多模态AI的一场革命。


