新榜讯 36 氪最新消息,在科大讯飞 1024 全球开发者节上,科大讯飞首度公开呈现其多模态视觉交互技术以及超拟人数字人能力。仅凭借一张照片,该超拟人数字人便能与用户展开面对面的实时交流,口唇、表情、动作皆由大模型自主生成,且能与文本意图实现完美匹配。据悉,此次的超拟人数字人已在科大讯飞旗下的讯飞智作产品中开通内测通道。
扫描二维码
手机浏览
科大讯飞首发多模态视觉交互技术和超拟人数字人能力
分享文章链接
相似推荐

百度慧播星首发剧本模式,打造高说服力数字人
新榜讯 4 月 25 日,在 Create2025 百度 AI 开发者大会上,百度副总裁、百度电商总经理平晓黎透露,凭借脚本智能创作、多模态融合、自主思考决策、多智能体调度这四大能力,百度慧播星塑造出了超拟真、会思考、能协同的极具说服力的数字人。

阿里开源全模态模型R1-Omni 情感识别能力更优
新榜讯 昨日,阿里通义实验室重磅开源 R1-Omni 模型,此模型为业界首例将具备可验证奖励的强化学习(RLVR)运用于全能多模态大语言模型。

智谱免费多模态模型GLM-4V-Flash上线,支持图像描述生成、视觉问答等
新榜讯 12 月 9 日,智谱 AI 重磅推出首款免费多模态模型 GLM-4V-Flash。