博客
关于我
刘铁岩:如何四两拨千斤,高效地预训练NLP模型?
阅读量:600 次
发布时间:2019-03-12

本文共 1095 字,大约阅读时间需要 3 分钟。

刘铁岩博士在第十九届中国计算语言学大会(CCL)上的演讲题为「四两拨千斤:实现高效的NLP模型预训练」,深入探讨了当前大规模预训练模型在自然语言处理领域的挑战与解决方案。以下是演讲的核心内容总结:

大规模预训练模型

2018年,微软亚洲研究院(MSRA)在SQuAD 1.1数据集上首次使机器阅读理解达到人类水平,标志着自然语言处理领域进入了一个全新的阶段。随后,微软的机器翻译技术也达到了与人类相当的水平,证明了大规模预训练模型的巨大潜力。

预训练的计算开销

尽管大规模预训练模型表现出色,但其计算开销却十分巨大。以GPT-3为例,其拥有1750亿参数,仅仅完成一次训练就需要近1200万美元的投入。这使得大多数科研机构难以负担,导致相关研究被科技巨头垄断,创新停滞的风险日益增加。

打破预训练魔咒

为了解决这一问题,微软亚洲研究院团队提出了多项创新性解决方案:

  • 预训练过程的形式化建模:通过对数据处理、模型结构、损失函数和优化策略进行全面优化,显著降低了预训练的计算开销。
  • 轻量化模型:Fast-BERT等轻量级模型通过知识蒸馏、剪枝等技术,进一步提升了推理效率。
  • 数据清洗:针对训练数据中的“Ugly data”和罕见词例,提出了数据清洗和上下文嵌入的技术,提升了训练效率。
  • 位置编码优化:提出了TUPE(Transformer Ultimate Positional Encoding)方法,降低了注意力层的计算开销。
  • 任务动态调节:通过元控制器自适应生成多选题任务,动态调整训练难度,提升了模型训练效率。
  • 数据质量的重要性

    训练数据的质量对模型性能至关重要。高频词例通常信息丰富且易于训练,而罕见词例往往包含重要信息却难以学习。MSRA团队提出了针对罕见词例的上下文嵌入技术,显著提升了模型性能。

    模型优化

    Transformer模型虽然在2017年取得了突破性进展,但其绝对位置编码和层归一化结构存在一定局限性。MSRA团队通过以下优化:

  • 位置编码调整:提出的TUPE方法减少了注意力层的计算量。
  • 层归一化调整:将层归一化模块合并到残差模块中,提升了模型的鲁棒性。
  • 渐进式堆叠:通过浅层模型训练后作为深层模型的初始化,降低了计算开销。
  • 任务优化

    传统的掩模语言模型任务(如完形填空)难度较大,容易导致训练不稳定。MSRA团队提出通过多选题任务和元控制器的动态难度调节,显著提升了训练效率。

    结语

    通过对数据、模型、任务和优化策略的全面优化,MSRA团队成功降低了大规模预训练模型的计算开销,并显著提升了模型性能。未来,NLP预训练领域还有更多潜力和挑战,期待更多技术创新和突破。

    转载地址:http://xnyxz.baihongyu.com/

    你可能感兴趣的文章
    PHP 的标准输入与输出
    查看>>
    php 笔记 (早前的,很乱)
    查看>>
    PHP 第一天
    查看>>
    Redis使用量暴增,快速定位有哪些大key在作怪
    查看>>
    php 结课作业答案,北语201803考试批次《PHP》(结课作业)1.pdf
    查看>>
    PHP 统计数据功能 有感
    查看>>
    SpringBoot处理JSON数据
    查看>>
    Redis使用基本套路
    查看>>
    php 解决项目中多个自动加载冲突问题
    查看>>
    PHP 设置调试工具XDebug PHPStorm IDE
    查看>>
    php 身份证号检测
    查看>>
    PHP 输入输出流合集
    查看>>
    PHP 过滤器(Filter)
    查看>>
    php 运算符and or && || 的详解
    查看>>
    php 返回html字符串长度限制,记一次js中和php中的字符串长度计算截取的终极问题和完美...
    查看>>
    php 阿里云oss 上传回调
    查看>>
    PHP 面向对象 final类与final方法
    查看>>
    php+JQ+EasyUI自动加载数据
    查看>>
    php+sql server根据自增序号id区间查询第几条到第几条的数据
    查看>>
    php--正则表达式
    查看>>