智源研究院发布2024年下半年大模型评测结果：多模态模型领跑，中文能力仍待提升

author 2024-12-22 71 2条评论

默认

摘要： 智源研究院近日发布了对国内外100多个大模型的综合评测结果，涵盖语言、视觉语言、文生图、文生视频和语音语言等多种模态。评测显示，2024年下半年大模型发展重心转向综合能力提升和实际...

智源研究院近日发布了对国内外100多个大模型的综合评测结果，涵盖语言、视觉语言、文生图、文生视频和语音语言等多种模态。评测显示，2024年下半年大模型发展重心转向综合能力提升和实际应用，多模态模型发展迅速。

在语言模型方面，针对一般中文场景，模型能力趋于饱和，但在复杂场景下，国内头部模型与国际一流水平仍有差距。评测中，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在主观评测中表现出色，而OpenAI和Google的模型在客观评测中占据领先地位。

视觉语言多模态模型方面，虽然开源模型架构趋同，但性能差异明显。优秀开源模型在图文理解方面逐渐缩小与闭源模型的差距，但在长尾视觉知识和复杂图文数据分析能力方面仍有提升空间。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028在评测中表现领先。

文生图模型已具备中文文字生成能力，但在复杂场景下人物容易变形，对涉及中国文化和古诗词的理解仍有挑战。腾讯Hunyuan Image在评测中排名第一。

文生视频模型的画质和动态性有所提升，但仍存在动作变形、无法理解物理规律等问题。快手可灵1.5在评测中表现突出。

语音语言模型能力显著提升，但与专业模型仍存在差距，性能好且通用的开源模型数量较少。阿里巴巴Qwen2-Audio在评测中排名第一。

总的来说，多模态模型发展迅速，但语言模型在复杂场景下的中文能力以及各模态模型在处理复杂任务和特定文化场景方面的能力仍有待提高。智源研究院将继续完善FlagEval评测体系，为大模型技术发展提供更全面的评估。

打赏