《预训练周刊》第64期:微调新范式:组合、噪音、指令、自我改进等

No.64

智源社区

预训练组

3a8cd9656ee32b1d0b72b971515c799c.png

方式2:点击本文下方的“阅读原文”,进入《预训练周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

9911b4e24ef08276391baf0c5280bbc8.jpeg

4ade0e39583bf314fd618f8253fa5e6d.jpeg

ded68797317d11db49002bf414356d88.jpeg

f344fc7a4d1cb405688e632cb8806ff1.jpeg

b60fb098e79aa185788c63f0844c7d88.jpeg

论文推荐

【CV研究】

标题:美国机器感知与学习实验室、美国中佛罗里达大学 | Adversarial Pretraining of Self-Supervised Deep Networks: Past, Present and Future(自监督深度网络的对抗性预训练:过去、现在和未来)了解详情

作者:Guo-Jun Qi, Mubarak Shah

简介:本文是自监督深度网络的对抗性预训练的综述。在本文中,作者回顾了自监督深度网络的对抗性预训练,包括卷积神经网络和视觉转换器。与可以访问标记示例的对抗训练不同,对抗预训练很复杂,因为它只能访问未标记示例。为了将对手纳入输入或特征级别的预训练模型,作者发现现有方法主要分为两组:对单个示例施加最坏情况扰动的无内存实例攻击,以及跨示例共享的基于内存的对手迭代。特别是,作者分别回顾了基于对比学习 (CL) 和掩码图像建模 (MIM) 的多个具有代表性的对抗性预训练模型,这是文献中两种流行的自监督预训练方法。作者还回顾了有关计算开销、输入/特征级对手以及上述两组之外的其他对抗性预训练方法的杂项问题。最后,作者讨论了对抗性和合作性预训练之间的关系、统一对抗性 CL 和 MIM 预训练以及对抗性预训练中准确性和鲁棒性之间的权衡的新兴趋势和未来方向。

论文下载:https://arxiv.org/pdf/2210.13463.pdf

标题:牛津、CMU、valeo公司等 | Self-Supervision on Wheels:

Advances in Self-Supervised Learning from Autonomous Driving Data(自动驾驶的自监督:从自动驾驶数据中进行自监督学习的进展)了解详情

作者:Spyros Gidaris、Katerina Fragkiadaki等

简介:本文为ECCV2022自监督自动驾驶教程。自监督学习(SSL)在过去两年中取得了许多令人兴奋的进展,许多新的SSL方法设法达到甚至超过完全监督技术的性能。自动驾驶(AD)代表了SSL方法的一个独特赛道,因为它带来了社区中最大的公共数据集合,并提供了一些最具挑战性的计算机视觉任务:目标检测、深度估计、基于图像的里程测量和定位等。本文整理和扩展了规范的SSL流程(即自监督预训练模型并在下游任务上对其进行调优),以学习真实标签难以计算的任务(例如深度),从而为计算机视觉和机器人技术带来全新的SSL方法。本教程通过AD的基本感知任务的镜头,深入介绍自监督学习的各种旧范式和新范式。具体来说,本教程将涵盖以下主题: 从自动驾驶数据中进行自监督表征学习,深度估计的自监督学习,三维检测和跟踪的自监督学习,里程数测量和定位的自监督学习。。

论文下载:https://gidariss.github.io/ssl-on-wheels-eccv2022/

【NLP研究】

标题:阿姆斯特丹大学、普林斯顿大学、Meta | Don’t Prompt, Search! Mining-based Zero-Shot Learning with Language Models(不要提示,搜索!基于挖掘的语言模型零样本学习)了解详情

作者:Mozes van de Kar, Mengzhou Xia, Danqi Chen, Mikel Artetxe

简介:本文研究在零样本场景中优于Prompt的基于挖掘的方法。像 BERT 这样的掩码语言模型,可以通过将下游任务重新定义,为文本填充来以零样本的方式执行文本分类。然而,这种方法对用于提示模型的模板高度敏感,而从业者在严格的零样本设置下设计它们时是盲目的。在本文中,作者提出了一种基于挖掘的替代方法来进行零样本学习。作者不使用Prompt语言模型,而是使用正则表达式从未标记的语料库中挖掘标记示例,可以选择通过Prompt进行过滤,并用于微调预训练模型。作者的方法比Prompt更灵活和可解释,并且在使用可比较的模板时在广泛的任务中更胜一筹。

论文下载:https://arxiv.org/pdf/2210.14803.pdf

标题:美国西北大学、Allen联合 | Learning to Perform Complex Tasks through Compositional Fine-Tuning of Language Models(通过语言模型的组合微调学习执行复杂任务)了解详情

作者:Victor S. Bursztyn, David Demeter, Doug Downey, 等

简介:本文提出组合微调、并建议用于端到端学习的改进。如何有效地编码组合任务结构,一直是人工智能的核心挑战。最近在思路提示链(chain of thought prompting)方面的工作表明,对于非常大的神经语言模型 (LMs),明确展示目标任务中涉及的推理步骤可能会比仅关注目标任务的端到端学习提高性能。然而,由于依赖于大量预训练的 LM,思维提示链有很大的局限性。在这项工作中,作者提出了组合微调 (CFT):一种基于将目标任务显式分解为组件任务的方法,然后在此类组件任务的课程中微调较小的 LM。作者将 CFT 应用于世界旅行和当地餐饮两个领域的推荐任务,以及之前研究过的推理任务(运动理解)。作者表明:即使在数据量相同的情况下,CFT 也优于端到端学习,并且随着更多组件任务通过微调进行建模,CFT 会变得更好。与思维链Prompt相比,CFT比使用LM时表现良好、而CFT仅为其大小7.4%,并且CFT且适用于在预训练期间数据不可用的任务域。

论文下载:https://arxiv.org/pdf/2210.12607.pdf

标题:北航、美团 | PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models(PATS:预训练语言模型的敏感性感知噪声学习)了解详情

作者:Yupeng Zhang, Hongzhi Zhang, Sirui Wang, Wei Wu, Zhoujun Li

简介:本文研究新的噪声训练方法来优化预训练语言模型 (PLM)的微调。广泛的 NLP 任务受益于PLM 的微调。然而,在直接微调的模型中观察到许多对下游任务贡献较小的冗余参数。作者认为预训练和下游任务之间的差距阻碍了这些冗余参数的训练,并导致整个模型的性能欠佳。在本文中,作者提出了 PATS(根据灵敏度的扰动):一种噪声训练机制,旨在考虑每个参数在下游任务中的重要性、以帮助微调 PLM。PATS 的主要思想是给敏感度较低的参数添加较大的噪声,反之亦然,以激活更多参数对下游任务的贡献,而不会对敏感的参数产生太大影响。在GLUE基准测试的八个任务上进行的大量实验表明:PATS可以持续提高PLM在下游任务上的性能,同时参数的敏感性更为集中,这在小数据集上尤为明显。

论文下载:https://arxiv.org/pdf/2210.12403.pdf

标题:IDEA 研究院、早稻田大学、清华 | Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective(通过统一多选择角度实现自然语言理解的零样本学习)了解详情

作者:Ping Yang, Junjie Wang等

简介:本文来自封神榜团队,研究了中等参数模型实现零样本能力。自预训练技术被提出以来,NLP 界一直存在着一个不可能三角、即一个模型不能同时满足:中等模型大小(10 亿以下),SOTA 的零样本性能,SOTA 的微调性能。本文打破了这一魔咒,提供了一个灵活高效的解决思路。本文提出的 UniMC 在拥有模型参数量很小(仅仅是亿级)和 SOTA 的微调能力的前提下,同时还能拥有(与 5400 亿的 PaLM 相当的) SOTA 的零样本/小样本性能。本文主要思路是将 NLU 任务转化为多项选择任务。即给定文本、问题和选项,输出每个选项的概率,而不需要将选项生成出来。本文对BERT 的自编码结构进行了修改,经过预训练掩码语言模型之后,利用选择掩码模型、选择预测和 掩码语言模型进行多选择训练,最后使用选择掩码模型和选择预测进行零样本预测。

论文下载:https://arxiv.org/pdf/2210.08590.pdf

标题:UIUC、谷歌 | Large Language Models Can Self-Improve(大语言模型可以自我改进)了解详情

作者:Jiaxin Huang, Shixiang Shane Gu等

简介:本文研究了一种大语言模型无监督微调的方式。大语言模型(LLMs)在各种任务中都取得了出色的表现,然而对LLM进行微调需要大量的监督信息。另一方面,人类可以在没有外部输入的情况下通过自我思考来提高推理能力。对此,本文证明了LLM也能够在只有未标记的数据集的情况下进行自我改进,使用预训练大模型,利用思维链提示和自洽性,为无标签的问题生成高置信度的理性增强答案,并使用这些自生成的数据作为标签输出来微调LLM。本文的方法提高了540B参数的LLM的一般推理能力,在达到了最先进的水平的同时、不需要任何真实标签。本文也进行了消融研究,并表明推理部分的微调对于自我改进至关重要。

论文下载:https://arxiv.org/pdf/2210.11610v2.pdf

【生命科学研究】

标题:哈工大SCIR | 脑认知指导的预训练语言模型了解详情

作者:丁效,陈薄文等

简介:本文研究了利用认知语言处理信号(如眼球追踪或EEG数据)指导BERT等预训练模型的问题。现有的方法通常利用认知数据对预训练模型进行微调,忽略了文本和认知信号之间的语义差距。为了填补这一空白,作者提出了CogBERT这个框架,它可以从认知数据中诱导出细粒度的认知特征,并通过自适应调整不同NLP任务的认知特征的权重将认知特征纳入BERT。实验结果表明:(1) 认知指导下的预训练模型在10个NLP任务上可以一致地比基线预训练模型表现更好。(2) 不同的认知特征对不同的NLP任务有不同的贡献。基于这一观察,作者给出为什么认知数据对自然语言理解有帮助的一个细化解释。(3) 预训练模型的不同transformer层应该编码不同的认知特征,词汇级的认知特征在transformer层底部,语义级的认知特征在transformer层顶部。(4) 注意力可视化证明了CogBERT可以与人类的凝视模式保持一致,并提高其自然语言理解能力。

论文下载:https://aclanthology.org/2022.coling-1.284/

45d86adcbfbb106ce4dbb68990eddf6d.jpeg

8e46841badeddab31e72cb503ae544c3.jpeg

331d6dc793471ef475990740bec6392d.jpeg

5c24fd8499abf64322d888c88394efb8.jpeg

ea51ead238ad1fab3889f32b5b273adc.jpeg

活动预告

标题:谷歌高级软件工程师侯乐 | 语言模型的新微调方式 了解详情

简介:由智源社区主办的「智源Live 第27期丨谷歌高级软件工程师侯乐:语言模型的新微调方式」将于11月9日(周二)09:00-10:00在线举办,谷歌Core ML团队高级软件工程师侯乐将作主旨报告。目前真实应用中常用方法为用标注数据微调现成的预训练语言模型,但是这种微调需要大量的人工标注,这些标注数据的获取非常昂贵。另一方面,无论语言模型的应用场景是什么,模型本身需要的推理能力和知识是共通的。在我们的研究中发现,通过用超大规模高质量数据对模型进行微调,能够提高语言模型的推理能力,使模型显得更有知识,并提高模型在零训练样本和少训练样本情况下的泛化能力。细节上本次报告将重点关注大规模指令微调和大型语言模型的自我改进能力这两部分。

5201b3358fa4a7280fa4145140628004.jpeg

6fd17d882fba962c0aed70ea287c2e7a.jpeg

ec97f6400fb204857f293b015b23a1c3.jpeg

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

ccdb507a30cac9ef9106749f8cdbc55f.png

来源:智源社区

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月3日
下一篇 2022年10月3日

相关推荐