一个来自MIT博士生的惊人发现:只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果
效果主要体现在文本理解任务上,最高可达30%。这在3个模型(LLama2、GPT-J和Roberta)和8个不同数据集上都得到了验证(包含认知推理、世界知识等)。除了文本理解,它也适用于强化学习。这个操作只需在模型训练完成之后进行,不需要额外的参数和数据。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章
暂无评论...