新榜讯 美团LongCat团队重磅推出高度贴合真实生活场景、针对复杂问题的大模型智能体评测基准VitaBench(Versatile Interactive Tasks Benchmark),且该评测基准已实现全面开源。