直击WAIC 丨 商汤科技发布“日日新5o”，实时多模态交互对标GPT-4o

7月6日上午消息，2024世界人工智能大会期间，商汤科技发布“日日新5o”大模型，交互体验对标GPT-4o，通过整合跨模态信息，基于声音、文本、图像和视频等多种形式，实现全新的AI交互模式，即实时的流式多模态交互。

例如，工作人员仅是和“日日新5o”打个招呼，它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼，判断出现场就是世界人工智能大会会场，并表示在这个地方可以“好好学习”。对于可爱的小狗玩偶，“日日新5o”也能准确描述了小狗的外貌、表情以及重要穿戴。

此外，随便翻开一本书的任何一页，“日日新5o”也能自动介绍，不是简单的OCR识别文字，而是识别图文给出好理解的总结，真正做到实时交互。

能听会看更会找话题，据悉，这种交互模式可适用于实时对话和语音识别等应用，其多任务适应性强，能够在同一模型中自然处理多种任务，且根据不同上下文自适应调整行为和输出，能够实现对标GPT-4o的交互体验，是源于“日日新5.5”基础模型能力的全面提升。

直击WAIC 丨商汤科技发布“日日新5o”，实时多模态交互对标GPT-4o