在广泛使用的参数高效微调(PEFT)方法中,LoRA及其变体因避免额外的推理成本而获得了相当的流行。然而,这些方法与完全微调(FT)之间通常仍存在准确性差距。在这项工作中,我们首先引入一种新颖的权重分解分析,以研究FT和LoRA之间的固有差异。为了模仿FT的学习能力,我们提出了权重分解的低秩适应(DoRA)。DoRA将预训练的权重分解为两个组成部分,幅度和方向,专门用于微调,并具体采用LoRA进行方向更新,以有效地最小化可训练参数的数量。通过使用DoRA,我们提高了LoRA的学习能力和训练稳定性,同时避免了任何额外的推理开销。在各种下游任务上,如常识推理、视觉指令调整和图像/视频-文本理解,DoRA始终优于LoRA,在对LLaMA、LLaVA和VL-BART进行微调时表现更佳。代码可在https://github.com/NVlabs/DoRA 获取。

成为VIP会员查看完整内容
20

相关内容

【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
37+阅读 · 2022年7月11日
【ICML2022】可解释的心理学理论
专知会员服务
42+阅读 · 2022年5月29日
专知会员服务
15+阅读 · 2021年9月11日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
37+阅读 · 2022年7月11日
【ICML2022】可解释的心理学理论
专知会员服务
42+阅读 · 2022年5月29日
专知会员服务
15+阅读 · 2021年9月11日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
微信扫码咨询专知VIP会员