新榜讯 7月5日讯,阿里“通义大模型”公众号发布消息,通义实验室首个音频生成模型ThinkSound正式开源,此举将突破“静音画面”所带来的想象力限制。ThinkSound开创性地将CoT应用于音频生成领域,促使AI能够逐步明晰画面事件与声音之间的关联,进而达成高保真、强同步的空间音频生成效果。这并非简单的“看图配音”,而是真正意义上的“听懂画面”。