据IT之家报道,近日,Meta团队开发了一款名为Megabyte的AI模型以抗衡Transformer,据称,Megabyte解决了Transformer模型所面临的问题,并且在速度上提升了40%。
目前Transformer在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢,难以处理长序列;此外,由于需要在每一步保留历史信息,内存消耗较大。而Megabyte模型将输入和输出序列划分为patch,而不是单个的token。
据IT之家报道,近日,Meta团队开发了一款名为Megabyte的AI模型以抗衡Transformer,据称,Megabyte解决了Transformer模型所面临的问题,并且在速度上提升了40%。
目前Transformer在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢,难以处理长序列;此外,由于需要在每一步保留历史信息,内存消耗较大。而Megabyte模型将输入和输出序列划分为patch,而不是单个的token。