比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向(哈佛中心上海有限公司)

AIGC动态欢迎阅读

原标题:比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向关键字:方向,矩阵,任务,定义,向量

文章来源:量子位

内容字数:0字

内容摘要:

DV lab 投稿量子位 | 公众号 QbitAI比LoRA更高效的模型微调方法来了——

以常识推理为例,在参数量减少8~16倍的情况下,两种方法能达到相同效果。

新方法名叫LoRA-Dash,由来自上海交通大学和哈佛大学的研究人员提出,主要针对特定任务微调模型往往需要大量计算资源这一痛点。

研究完成的主要工作是:

对高效微调过程中的TSD(Task-specific Directions, 特定任务方向)进行了严格定义,并详细分析了其性质。

为了进一步释放TSD在下游任务中的潜力,提出新的高效微调方法LoRA-Dash。

来看具体内容。

从头搭建特定任务方向的框架随着大型语言模型的发展,针对特定任务微调模型往往需要大量计算资源。

为了解决这一问题,参数高效微调(PEFT)策略应运而生,像LoRA等方法被广泛应用。

在LoRA中,作者们通过一系列实验发现,LoRA本质上是捕捉一些预训练中已学习到的但并不重要的方向,这些方向对应的特征在之后的下游任务中被LoRA放大。

LoRA把这些方向定义为“特定任务方向”(Task-specific Directions, TSD)。

然而,在LoR

原文链接:比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?