博客
关于我
刘铁岩:如何四两拨千斤,高效地预训练NLP模型?
阅读量:600 次
发布时间:2019-03-12

本文共 1095 字,大约阅读时间需要 3 分钟。

刘铁岩博士在第十九届中国计算语言学大会(CCL)上的演讲题为「四两拨千斤:实现高效的NLP模型预训练」,深入探讨了当前大规模预训练模型在自然语言处理领域的挑战与解决方案。以下是演讲的核心内容总结:

大规模预训练模型

2018年,微软亚洲研究院(MSRA)在SQuAD 1.1数据集上首次使机器阅读理解达到人类水平,标志着自然语言处理领域进入了一个全新的阶段。随后,微软的机器翻译技术也达到了与人类相当的水平,证明了大规模预训练模型的巨大潜力。

预训练的计算开销

尽管大规模预训练模型表现出色,但其计算开销却十分巨大。以GPT-3为例,其拥有1750亿参数,仅仅完成一次训练就需要近1200万美元的投入。这使得大多数科研机构难以负担,导致相关研究被科技巨头垄断,创新停滞的风险日益增加。

打破预训练魔咒

为了解决这一问题,微软亚洲研究院团队提出了多项创新性解决方案:

  • 预训练过程的形式化建模:通过对数据处理、模型结构、损失函数和优化策略进行全面优化,显著降低了预训练的计算开销。
  • 轻量化模型:Fast-BERT等轻量级模型通过知识蒸馏、剪枝等技术,进一步提升了推理效率。
  • 数据清洗:针对训练数据中的“Ugly data”和罕见词例,提出了数据清洗和上下文嵌入的技术,提升了训练效率。
  • 位置编码优化:提出了TUPE(Transformer Ultimate Positional Encoding)方法,降低了注意力层的计算开销。
  • 任务动态调节:通过元控制器自适应生成多选题任务,动态调整训练难度,提升了模型训练效率。
  • 数据质量的重要性

    训练数据的质量对模型性能至关重要。高频词例通常信息丰富且易于训练,而罕见词例往往包含重要信息却难以学习。MSRA团队提出了针对罕见词例的上下文嵌入技术,显著提升了模型性能。

    模型优化

    Transformer模型虽然在2017年取得了突破性进展,但其绝对位置编码和层归一化结构存在一定局限性。MSRA团队通过以下优化:

  • 位置编码调整:提出的TUPE方法减少了注意力层的计算量。
  • 层归一化调整:将层归一化模块合并到残差模块中,提升了模型的鲁棒性。
  • 渐进式堆叠:通过浅层模型训练后作为深层模型的初始化,降低了计算开销。
  • 任务优化

    传统的掩模语言模型任务(如完形填空)难度较大,容易导致训练不稳定。MSRA团队提出通过多选题任务和元控制器的动态难度调节,显著提升了训练效率。

    结语

    通过对数据、模型、任务和优化策略的全面优化,MSRA团队成功降低了大规模预训练模型的计算开销,并显著提升了模型性能。未来,NLP预训练领域还有更多潜力和挑战,期待更多技术创新和突破。

    转载地址:http://xnyxz.baihongyu.com/

    你可能感兴趣的文章
    Pipenv 与 Conda?
    查看>>
    QVGA/HVGA/WVGA/FWVGA分辨率屏含义及大小//Android虚拟机分辨率
    查看>>
    pipreqs : 无法将“pipreqs”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径 正确,然后再试一次。
    查看>>
    pipy国内镜像的网址
    查看>>
    quiver绘制python语言
    查看>>
    pip下载缓慢
    查看>>
    PIP使用SSH从BitBucket安装自定义软件包,无需输入SSH密码
    查看>>
    pip命令提示unknow or unsupported command install解决方法
    查看>>
    pip在安装模块时提示Read timed out
    查看>>
    pip更换源
    查看>>
    SpringBoot之Banner源码深度分解
    查看>>
    Pix2Pix如何工作?
    查看>>
    QuickBI助你成为分析师——搞定数据源
    查看>>
    pkl来存储python字典
    查看>>
    quick sort | 快速排序 C++ 实现
    查看>>
    pkpmbs 建设工程质量监督系统 Ajax_operaFile.aspx 文件读取漏洞复现
    查看>>
    pkpmbs 建设工程质量监督系统 文件上传漏洞复现
    查看>>
    pku 2400 Supervisor, Supervisee KM求最小权匹配+DFS回溯解集
    查看>>
    queue队列、deque双端队列和priority_queue优先队列
    查看>>