刘铁岩：如何四两拨千斤，高效地预训练NLP模型？-白红宇

刘铁岩：如何四两拨千斤，高效地预训练NLP模型？

阅读量：600 次

发布时间：2019-03-12

本文共 1095 字，大约阅读时间需要 3 分钟。

刘铁岩博士在第十九届中国计算语言学大会（CCL）上的演讲题为「四两拨千斤：实现高效的NLP模型预训练」，深入探讨了当前大规模预训练模型在自然语言处理领域的挑战与解决方案。以下是演讲的核心内容总结：

2018年，微软亚洲研究院（MSRA）在SQuAD 1.1数据集上首次使机器阅读理解达到人类水平，标志着自然语言处理领域进入了一个全新的阶段。随后，微软的机器翻译技术也达到了与人类相当的水平，证明了大规模预训练模型的巨大潜力。

尽管大规模预训练模型表现出色，但其计算开销却十分巨大。以GPT-3为例，其拥有1750亿参数，仅仅完成一次训练就需要近1200万美元的投入。这使得大多数科研机构难以负担，导致相关研究被科技巨头垄断，创新停滞的风险日益增加。

为了解决这一问题，微软亚洲研究院团队提出了多项创新性解决方案：

预训练过程的形式化建模：通过对数据处理、模型结构、损失函数和优化策略进行全面优化，显著降低了预训练的计算开销。

轻量化模型：Fast-BERT等轻量级模型通过知识蒸馏、剪枝等技术，进一步提升了推理效率。

数据清洗：针对训练数据中的“Ugly data”和罕见词例，提出了数据清洗和上下文嵌入的技术，提升了训练效率。

位置编码优化：提出了TUPE（Transformer Ultimate Positional Encoding）方法，降低了注意力层的计算开销。

任务动态调节：通过元控制器自适应生成多选题任务，动态调整训练难度，提升了模型训练效率。

训练数据的质量对模型性能至关重要。高频词例通常信息丰富且易于训练，而罕见词例往往包含重要信息却难以学习。MSRA团队提出了针对罕见词例的上下文嵌入技术，显著提升了模型性能。

Transformer模型虽然在2017年取得了突破性进展，但其绝对位置编码和层归一化结构存在一定局限性。MSRA团队通过以下优化：

位置编码调整：提出的TUPE方法减少了注意力层的计算量。

层归一化调整：将层归一化模块合并到残差模块中，提升了模型的鲁棒性。

渐进式堆叠：通过浅层模型训练后作为深层模型的初始化，降低了计算开销。

传统的掩模语言模型任务（如完形填空）难度较大，容易导致训练不稳定。MSRA团队提出通过多选题任务和元控制器的动态难度调节，显著提升了训练效率。

通过对数据、模型、任务和优化策略的全面优化，MSRA团队成功降低了大规模预训练模型的计算开销，并显著提升了模型性能。未来，NLP预训练领域还有更多潜力和挑战，期待更多技术创新和突破。

转载地址：http://xnyxz.baihongyu.com/

你可能感兴趣的文章