《预训练周刊》第33期：预训练语言模型的高效分层域适应

作者&投稿：饶胜（若有异议请与网页底部的电邮联系）

关于周刊

本期周刊，我们选择了9篇预训练相关的论文，涉及词汇迁移、常识问答、多模态训练、层次训练、对比学习、图像分割、图文模型、蛋白质作用和免疫特征表示的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍大模型竞争和视觉算法年度回顾方面的一些最新内容。最后，在资源推荐方面，我们选择了1篇预训练资源，将介绍跨语言摘要方面的一些最新内容。

本期贡献者：申德周翟珂吴新刚

论文推荐

标题：俄罗斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer（微调Transformer：词汇迁移）

简介：本文讨论了巨大型预训练模型为下游任务微调而引发迁移学习的探索之一：词汇迁移。自然语言处理领域最新进展中Transformer已成为绝对主流。这些模型的大多数实际自然语言处理应用通常是通过迁移学习实现的。本文研究了用于微调的语料库特定标记化是否会提高模型的最终性能。作者通过一系列的词汇表优化和迁移实验，证明了这种词汇表优化和迁移策略可以提高模型的性能。作者称之为：在迁移学习领域开创了词汇迁移的这一方向。

论文地址：「链接」

标题：加州大学 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization（基于完形转换和一致性优化的小样本常识问答）

简介：本文在常识问答（CQA）方向研究预训练语言模型中的知识提取。作者将重点放在更好地利用预训练语言模型中存储的知识。虽然研究人员发现，通过让预先训练的语言模型填充精心设计的关系提取和文本分类提示的空白，可以提取嵌入在预训练的语言模型中的知识，但目前尚不清楚作者是否可以在CQA中采用这种范式，其中输入和输出的形式更加灵活。为此，作者研究了四种可以将自然问题翻译成完形填空式句子的翻译方法，以更好地从语言模型中获取常识性知识，包括基于句法的模型、无监督神经模型和两种监督神经模型。此外，为结合不同的翻译方法，作者提议鼓励使用未标记数据对不同翻译问题进行模型一致性的预测。实验证明了作者的方法在三个CQA数据集上的有效性。

论文地址：「链接」

标题：威斯康星大学、微软等 | RegionCLIP: Region-based Language-Image Pretraining（基于区域的语言图像预训练）

简介：本文研究了基于识别图像区域的语言图像预训练模型。业界使用“图像-文本对”的对比语言图像预训练 (CLIP)在零样本和迁移学习中的图像分类方面取得了令人印象深刻的结果。然而，作者表明直接应用此类模型来识别图像区域以进行对象检测会导致性能不佳，因为存在域偏移：CLIP 被训练以将图像作为一个整体与文本描述进行匹配，而没有捕获图像之间的细粒度对齐区域和文本跨度。为了缓解这个问题，作者提出了一种称为 RegionCLIP 的新方法，该方法显着扩展了 CLIP 以学习区域级视觉表示，从而实现图像区域和文本概念之间的细粒度对齐。作者的方法利用 CLIP 模型将图像区域与模板标题匹配，然后预训练作者的模型以在特征空间中对齐这些区域-文本对。当将作者的预训练模型转移到开放词汇对象检测任务时，作者的方法在 COCO 和 LVIS 数据集上的新类别分别显著优于现有技术 3.8 AP50 和 2.2 AP。

论文地址：「链接」

代码地址：https://github.com/microsoft/RegionCLIP

标题：艾伦AI研究所、慕尼黑大学 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models（预训练语言模型的高效分层域适应）

简介：本文研究了以分层树结构的域表示实现预训练语言模型的分层。生成式的语言模型，在不同的通用领域语料库上进行训练，然而这就限制了它们对更窄领域的适用性，之前的工作表明，持续的领域内训练可以提供进一步的收益。在本文中，作者介绍了一种使用计算效率高的适配器方法将域适应扩展到许多不同域的方法。作者的方法基于对文本域部分重叠的观察，作者将域表示为分层树结构，其中树中的每个节点都与一组适配器权重相关联。当与冻结的预训练语言模型相结合时，这种方法可以实现相关领域之间的参数共享，同时避免不相关领域之间的负面干扰。该方法很高效：对于 D 个域，计算成本为 O(log(D))。GPT-2 的实验结果和 C4 中 100 个最具代表性的网站中的大部分显示了域内的全面改进。作者还为保留域提供了一种推理时间算法，并表明对通过树的多条路径进行平均可以进一步提高泛化效果，同时仅增加推理的边际成本。

论文地址：「链接」

标题：谷歌、亚马逊等 | Supervised Graph Contrastive Pretraining for Text Classification（用于文本分类的有监督图对比预训练）

简介：本文介绍了用于文本分类的对比预训练技术。但是，通常可以使用来自与当前任务共享标签语义的相关任务的标记数据。作者假设有效地使用这些标记数据可以更好地概括当前任务。在本文中，作者提出了一种通过基于图的监督对比学习方法有效利用来自相关任务的标记数据的新方法。作者通过将监督信息从示例外推到令牌来制定令牌图。作者的公式产生了一个嵌入空间，其中属于同一类的高/低概率标记彼此靠近/远离。作者还提出了详细的理论见解、以作为本研究方法的驱动。基于作者采用的数据集，实验表明：作者的方法优于预训练方案 2.5 % 、并且基于示例级对比学习的公式提升约 1.8 %。此外，在零样本场景中实验表明跨域有效性平均提升3.91%。最后，作者还证明了该方法可以用作知识蒸馏设置中的噪声教师模型、约平均提升4.57% 。

论文地址：「链接」

标题：百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation（ERNIE-ViLG：双向视觉语言生成的统一生成式预训练）

简介：视觉语言预训练模型极大地提高了图像-文本生成任务的性能，但用于文本-图像生成任务的大规模预训练模型仍在研究中。本文提出了ERNIE-ViLG，一个统一的生成式预训练框架，基于Transformer模型并将图像生成和文本生成都表述为以文本/图像输入为条件的自回归生成任务。双向的图像-文本生成模型简化了跨视觉和语言的语义对接。对于文本到图像的生成过程，作者进一步提出了一种端到端的训练方法来共同学习视觉序列生成器和图像重建器。为了探索双向文本-图像生成的大规模预训练的前景，本文在1.45亿图像-中文文本对的大规模数据集上训练了一个100亿参数的模型，该模型在文本-图像和图像-文本任务上都取得了最先进的性能。

论文地址：「链接」

标题：华中科大、西安交大、微软 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model（用预训练视觉语言模型进行零样本语义分割的基线）

简介：通过视觉语言预训练的零样本图像分类已经渐趋成熟，然而在更广泛的视觉问题上如物体检测和语义分割还需研究。本文在预训练的视觉语言模型CLIP上构建零样本语义分割基线。该问题难点在于语义分割和CLIP模型在不同的视觉颗粒度上执行，语义分割在像素上处理，而CLIP在图像上执行。为了弥补处理粒度上的差异，本文没有使用普遍的基于FCN的单阶段框架，而使用一个两阶段的语义分割框架，第一阶段提取泛化掩码，第二阶段利用基于图像的CLIP模型，对第一阶段产生的掩码图像作物进行零样本分类。本文的实验结果表明，这个简单的框架在很大程度上超过了目前的先进技术。凭借其简单性和强大的性能，本文希望这个框架能够作为基线以助未来的研究。

论文地址：「链接」

标题：中山大学 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer（使用图Transformer进行结合AlphaFold2的蛋白质-DNA结合位点预测）

简介：蛋白质与DNA的相互作用在生物系统中起着至关重要的作用，确定蛋白质与DNA的结合位点是对各种生物活动，如转录和修复，进行机理理解和设计新型药物的第一步。现有的基于序列的方法只考虑了顺序相邻的上下文特征，这对捕捉空间信息是有限的。对此本文提出GraphSite，作者将结合位点预测问题转化为图节点分类任务，并采用基于Transformer的预训练模型，通过AlphaFold2预测结构，将蛋白质结构信息、AlphaFold2中Evoformer的表征和序列进化信息考虑在内实现DNA结合残基的识别。GraphSite大大改善了基于序列和结构的最新方法，并且在181种蛋白质的独立测试集上得到进一步证实，在AUPR和MCC上分别超过了最先进的基于结构的方法16.4%和11.2%。

论文地址：「链接」

标题：耶鲁 | Pipeline for retrieval of COVID-19 immune signatures（检索COVID-19免疫特征的流程）

简介：随着生物医学文献出版速度的加快，检索其中的特定的科学信息变得更有意义。在新冠流行的大背景下，有效地检索病毒免疫特征，即生物标志物，可以帮助了解不同的SARS-CoV-2感染的免疫反应机制。对此，本文构建了一个系统的流程来识别和提取结构化的COVID-19免疫特征。具体而言，作者使用基于SPECTER预训练的生物文本嵌入，配合SVM分类器来自动识别含有免疫特征的论文，并进一步对这些论文进行半自动查询流程构建，检索特征信息。此外，基于预训练嵌入的流程也可确定免疫特征的类型，比如基因表达与其他类型的分析。通过这种方法，部分自动化的文献挖掘可以帮助快速创建半结构化的知识库，用于自动分析新出现的健康威胁。

论文地址：「链接」

资源推荐

标题：孟加拉国工程技术大学、加州大学洛杉矶分校等 | CrossSum:超越 1500 多个语言对的以英语为中心的跨语言抽象文本摘要数据集

简介：作者提供了 CrossSum：一个包含 165 万个跨语言文章摘要样本、包含 45 种语言的 1500 多个语言对的大规模数据集。基于多语言 XL-Sum 数据集，并使用与语言无关的表示模型通过跨语言检索来对齐以不同语言编写的相同文章，作者提出了一种多阶段数据采样算法并微调多语言预训练模型mT5。实验结果表明在 CrossSum 上微调的模型优于摘要+翻译基线。

论文地址：「链接」

资源下载：https://github.com/csebuetnlp/CrossSum

【关于转载】本文转载于公众号“智源社区”，仅用于学术分享，有任何问题请与我们联系：report@aminer.cn

《预训练周刊》第33期:预训练语言模型的高效分层域适应
作者的方法利用 CLIP 模型将图像区域与模板标题匹配,然后预训练作者的模型以在特征空间中对齐这些区域-文本对。当将作者的预训练模型转移到开放词汇对象检测任务时,作者的方法在 COCO 和 LVIS 数据集上的新类别分别显著优于现有技术 3.8 AP50 和 2.2 AP。论文地址:「链接」代码地址:https:\/\/github.com\/micr...

赣南师范学院体育学院的所获成果
姓名成果名称类别出版单位、期刊名称(年、卷、期) 署名合作者备注 1 穆涛对男子后排进攻战术运用及地位的探讨论文《贵州工业大学学报》2008.4 独著 2 穆涛篮球教学中投篮技术动作的力学分析论文《中国科教创新导刊》2008.6 独著 3 穆涛青少年篮球教学与训练的初步探讨论文《中国科教创新导刊》2008.8...

想提高领导力,高管应该看哪些书籍
9《敏捷革命》《敏捷革命》的作者萨瑟兰博士发明了Scrum方法。与自上而下的命令式工作流程不同，Scrum是一套具有不断进化与自我修正能力的系统，让团队像机器人一样根据外界反馈进行调整。这套系统强调团队的高度透明性及密切的协同作业，通过精简内部成员之间的信息流，提高效率，实现高水平的业绩。10《华...

美国阿波罗登月是真是假?
反对者指出:以阿波罗11为例,登月点是在月球上的静海,东经23.5度,北纬0.6度,从地球发射时间是1969年7月16日格林尼治标准时间13点32分,在月球上的舱外活动时间约两个半小时,是从第109小时7分33秒到第111小时39分13秒。据计算,阳光与月面间的入射角只有6度到7度,几乎紧贴地平线。但是阿波罗11那张美国国旗插...

自闭症是怎么形成的?
1、遗传从家族和挛生子的研究中，发现自闭症人士的挛生兄弟姊妹大约有10%至20%可能有轻微的自闭倾向。2、受疾病感染妇女怀孕期间可能因德国麻疹或风疹，使胎儿的脑部发育受损而导致自闭症，此外，新陈代谢疾病亦会造成脑细胞功能失调，影响脑神经传递信息的功能，因而造成自闭症，还有，在怀孕期间窘迫性...

我国三大航空公司是指哪三家?
中国南方航空股份有限公司飞行实力出众,拥有2800多名优秀的飞行人员,是目前国内唯一一家拥有独立培养飞行员能力的航空公司,与全球知名飞行模拟器制造商CAE合资建立的飞行训练中心是国内规模最大的飞行训练中心;机务维修实力雄厚,旗下广州飞机维修工程有限公司(GAMECO)建有亚洲最大的飞机维修机库,南航与德国MTU公司合建有国...

我国为什么要到亚丁湾护航?
原因三：大国的责任和义务。如果各国军舰用强制的力量保护航道的安全，对于恢复亚丁湾正常秩序、恢复国际航运业的信心是非常有帮助的，中国军舰在这方面也一定会有帮助。原因四：锻炼中国海军。海军远涉重洋，到一个危险区域进行这样准战争任务，对官兵训练、舰艇编队的训练意义非常大，锻炼我们的海上行动能力...

想了解一下关于周润发的详细资料?
其中与吴宇森合作的《辣手神探》被美国《娱乐周刊》评为“最有影响力的动作电影第9名”和“最佳cult电影第18名”。片中周润发的角色也被评为“最伟大的电影角色第33名”。 1995年年底,在洛衫矶与好莱坞众多名导、明星的见面会上,周润发在致词中说:“作为一个电影演员,最大的乐趣当然是在更大的范围内和其他的...

魔鬼金三角在哪?
魔鬼金三角位于美国东岸的大西洋，即百慕大三角。百慕大三角，又称魔鬼三角，有时又称百慕大三角洲（据近年研究表明实际该位置并非三角形，百慕大三角是梯形的，范围远至墨西哥湾、加勒比海。）位于北大西洋的马尾藻海，是由英属百慕大群岛、美属波多黎各及美国佛罗里达州南端所形成的三角区海域，据称经常发生超...

海明威介绍
此后两年,海明威成了《星报》驻欧洲的流动记者,人住在巴黎,兼写关于日内瓦与洛桑国际会议的报道,包括希士战争的简练的戏剧性电讯。他偶尔写一点轻松的、但观察锐利的印象记,内容是瑞士滑雪、西班牙斗牛和德国战后生活。他早期新闻工作的训练,加上天生爱好简洁,已经成了一种风格,他现在写的电报——浓缩、紧凑——使...

汉滨区18739147255： 工伤不够等级该如何赔偿 - ？
咎骂立普： 一般工伤具体赔偿项目、标准医疗费1、要求:治疗工伤所需费用符合工伤保险诊疗项目目录、工伤保险药品目录、工伤保险住院服务标准.2、法律依据:《工伤保险条例》第30条第3款.3、备注:用人单位没有参加工伤保险的,不是必须到...

汉滨区18739147255： 现去澳门须办什么证件,办证要费用多少…有效期是多久？
咎骂立普： 到香港澳门旅游需要办往来港澳通行证及旅游签注往来港澳通行证可以多次使用,且自颁发之日起有效期5年, 使用期满后可延期两次,每次可续签. 即在《往来港澳通行证》上作一签注. 收费标准 : 《往来港澳通行证》100元一次个人旅游签注20元二次个人旅游签注40元 . 办理时间 : 首次申请 ,在15个工作日内签发《往来港澳通行证》及签注再次申请 ,在10个工作日内签发签注 . 第一次办理通行证必须在户口所在地凭户口本跟身份证原件办理. 提交填写完整并贴有申请人近期正面免冠彩色照片(48mmX33mm) 交验居民户口簿、居民身份证原件,并提交复印件.

汉滨区18739147255： 工伤赔偿还区分城市与农村户口吗? - ？
咎骂立普： 不区分法律依据工伤保险条例第三十七条职工因工致残被鉴定为七级至十级伤残的,享受以下待遇:(一)从工伤保险基金按伤残等级支付一次性伤残补助金,标准为:七级伤残为13个月的本人工资,八级伤残为11个月的本人工资,九级伤残为9个月的本人工资,十级伤残为7个月的本人工资;(二)劳动、聘用合同期满终止,或者职工本人提出解除劳动、聘用合同的,由工伤保险基金支付一次性工伤医疗补助金,由用人单位支付一次性伤残就业补助金.一次性工伤医疗补助金和一次性伤残就业补助金的具体标准由省、自治区、直辖市人民政府规定.第三十八条工伤职工工伤复发,确认需要治疗的,享受本条例第三十条、第三十二条和第三十三条规定的工伤待遇.

汉滨区18739147255： “哭泣的圆明园”这个标题有两层含义,分别是什么语文周报第八期16题 - ？
咎骂立普：[答案] 曾经的哭泣,在火烧圆明园的时候现在的哭泣,从这里流失的遗产变成了国家的耻辱

汉滨区18739147255： 我有职业病是皮肤病可以申请工伤赔偿吗 - ？
咎骂立普： 职业性皮肤病有:(1)接触性质皮炎.(2)光敏性皮炎.(3)电光性皮炎.(4)黑变病.(5)痤疮.(6)溃病.(7)根据《职业性皮肤病诊断标准及处理原则》可以诊断的其它职业性质皮肤病.若鉴定诊断出与工作期间有关引起的皮肤病是...

汉滨区18739147255： 请问,左手大拇指只剩下一至二公分了,应该是几级呢?还有是因工伤引起的,应该赔多少? - ？
咎骂立普： 如果是关节离断,应该是7级.一、关于工伤伤残等级.根据GB/T 16180-2006 《劳动能力鉴定—职工工伤与职业病致残等级》规定:七级16)一拇指指间关节离断;17)一拇指指间关节畸形,功能完全丧失;18)一手除拇指外,其他2~...

你可能想看的相关专题

星空见康网

《预训练周刊》第33期：预训练语言模型的高效分层域适应

你可能想看的相关专题