博客
关于我
刘铁岩:如何四两拨千斤,高效地预训练NLP模型?
阅读量:600 次
发布时间:2019-03-12

本文共 1095 字,大约阅读时间需要 3 分钟。

刘铁岩博士在第十九届中国计算语言学大会(CCL)上的演讲题为「四两拨千斤:实现高效的NLP模型预训练」,深入探讨了当前大规模预训练模型在自然语言处理领域的挑战与解决方案。以下是演讲的核心内容总结:

大规模预训练模型

2018年,微软亚洲研究院(MSRA)在SQuAD 1.1数据集上首次使机器阅读理解达到人类水平,标志着自然语言处理领域进入了一个全新的阶段。随后,微软的机器翻译技术也达到了与人类相当的水平,证明了大规模预训练模型的巨大潜力。

预训练的计算开销

尽管大规模预训练模型表现出色,但其计算开销却十分巨大。以GPT-3为例,其拥有1750亿参数,仅仅完成一次训练就需要近1200万美元的投入。这使得大多数科研机构难以负担,导致相关研究被科技巨头垄断,创新停滞的风险日益增加。

打破预训练魔咒

为了解决这一问题,微软亚洲研究院团队提出了多项创新性解决方案:

  • 预训练过程的形式化建模:通过对数据处理、模型结构、损失函数和优化策略进行全面优化,显著降低了预训练的计算开销。
  • 轻量化模型:Fast-BERT等轻量级模型通过知识蒸馏、剪枝等技术,进一步提升了推理效率。
  • 数据清洗:针对训练数据中的“Ugly data”和罕见词例,提出了数据清洗和上下文嵌入的技术,提升了训练效率。
  • 位置编码优化:提出了TUPE(Transformer Ultimate Positional Encoding)方法,降低了注意力层的计算开销。
  • 任务动态调节:通过元控制器自适应生成多选题任务,动态调整训练难度,提升了模型训练效率。
  • 数据质量的重要性

    训练数据的质量对模型性能至关重要。高频词例通常信息丰富且易于训练,而罕见词例往往包含重要信息却难以学习。MSRA团队提出了针对罕见词例的上下文嵌入技术,显著提升了模型性能。

    模型优化

    Transformer模型虽然在2017年取得了突破性进展,但其绝对位置编码和层归一化结构存在一定局限性。MSRA团队通过以下优化:

  • 位置编码调整:提出的TUPE方法减少了注意力层的计算量。
  • 层归一化调整:将层归一化模块合并到残差模块中,提升了模型的鲁棒性。
  • 渐进式堆叠:通过浅层模型训练后作为深层模型的初始化,降低了计算开销。
  • 任务优化

    传统的掩模语言模型任务(如完形填空)难度较大,容易导致训练不稳定。MSRA团队提出通过多选题任务和元控制器的动态难度调节,显著提升了训练效率。

    结语

    通过对数据、模型、任务和优化策略的全面优化,MSRA团队成功降低了大规模预训练模型的计算开销,并显著提升了模型性能。未来,NLP预训练领域还有更多潜力和挑战,期待更多技术创新和突破。

    转载地址:http://xnyxz.baihongyu.com/

    你可能感兴趣的文章
    MySQL8修改密码的方法
    查看>>
    Mysql8在Centos上安装后忘记root密码如何重新设置
    查看>>
    Mysql8在Windows上离线安装时忘记root密码
    查看>>
    MySQL8找不到my.ini配置文件以及报sql_mode=only_full_group_by解决方案
    查看>>
    mysql8的安装与卸载
    查看>>
    MySQL8,体验不一样的安装方式!
    查看>>
    MySQL: Host '127.0.0.1' is not allowed to connect to this MySQL server
    查看>>
    Mysql: 对换(替换)两条记录的同一个字段值
    查看>>
    mysql:Can‘t connect to local MySQL server through socket ‘/var/run/mysqld/mysqld.sock‘解决方法
    查看>>
    MYSQL:基础——3N范式的表结构设计
    查看>>
    MYSQL:基础——触发器
    查看>>
    Mysql:连接报错“closing inbound before receiving peer‘s close_notify”
    查看>>
    mysqlbinlog报错unknown variable ‘default-character-set=utf8mb4‘
    查看>>
    mysqldump 参数--lock-tables浅析
    查看>>
    mysqldump 导出中文乱码
    查看>>
    mysqldump 导出数据库中每张表的前n条
    查看>>
    mysqldump: Got error: 1044: Access denied for user ‘xx’@’xx’ to database ‘xx’ when using LOCK TABLES
    查看>>
    Mysqldump参数大全(参数来源于mysql5.5.19源码)
    查看>>
    mysqldump备份时忽略某些表
    查看>>
    mysqldump实现数据备份及灾难恢复
    查看>>