首页 > 生活分享 > 免费教学 > 微软发布!提示工程进化为位置工程,有效提升RAG与上下文学习

微软发布!提示工程进化为位置工程,有效提升RAG与上下文学习

发布时间:2024-04-25 22:55:39来源: 15210273549

别再光顾着优化提示工程啦!微软最近推出位置工程研究思路,只需调整token的索引位置,而不修改文本本身,就能显著提高任务性能。

提示工程通过添加、替换或删除段落和句子改变提示,调整语义信息,激发LLMs的推理能力。比如CoT通过在问题的结尾附加“Let's think step by step”这几个词,鼓励模型生成推理过程。

GPT-3.5研究测试:

GPT-4研究测试:

Claude-3研究测试(全面吊打GPT-4):

而微软这篇工作发现在tokens之间引入占位符token可改变其他token的相对位置。这些占位符token不参与注意力分数的计算,但占据了token索引位置。因此可能优化提示中不同段落之间的注意力权重。

 

▲提示工程与位置工程的比较。"Para"指的是提 示中的段落,"Sent"指的是句子。

通过在两个广泛使用的LLM场景中——检索增强生成(RAG)和上下文学习(ICL)——对位置工程进行了评估。结果表明,位置工程在两种情况下都显著优于基础模型。

又一充分激发LLMs能力的新策略出现啦,说不定也是一个产出论文的好方向!

论文标题:
Position Engineering: Boosting Large Language Models through Positional Information Manipulation

论文链接

https://arxiv.org/pdf/2404.11216.pdf

位置工程:在提示中更改位置信息

为什么改变token的位置有奇效,先来了解一下LLMs如何整合位置信息。

前置知识

令表示输入到语言模型的tokens,用表示相应的token嵌入。首先,注意力层计算(查询)、(键)和(值):

 

其中, 和 分别是token的位置索引。自注意力计算如下:

 

其中, 是一个标量,表示查询中第个toekn与值和键集中第个token之间的注意力分数。表示注意力层的维度,而表示第个查询token的输出。

然后通过引入与和相关的位嵌入向量引入绝对定位:

 

位置嵌入的第和维度的计算方法如下:

 

而近期的大模型如Llama和Mistral多采用RoPE(Relative Position Embedding),一种相对位置嵌入。它利用一个特定设计的矩阵(维度为d × d,参数化为i),对查询和键向量进行如下修改:

 

矩阵 有一个独特性质,即,这导致:

 

因此, 在公式(2)中, 模型只关注相对位置, 而不是绝对位置和。

位置工程

本文所提到的位置工程仅对公式(1)中使用的位置信息进行调整。目标是找到一个位置编辑函数,改变并融入模型中的token位置信息,提升LLM的表现:

 

其中ττ。确保(1)两个不同的token不会被赋予相同的新的位置索引;(2) 语言建模中的因果关系保持不变,只有索引更大的查询向量可以访问索引相等或更小的键和值向量,反之则不行。

具体来说在需要改变位置关系的token之间插入位置占位符,定义为θθθ,比如在RAG任务重θ表示在指令和文档段之间插入θ个占位符token,而θ则表示在文档段和问题之间插入占位符token。

占位符token不参与注意力分数计算,但分配了位置索引。当按照公式(2)中的描述计算,并且第或个 token被识别为占位符时,常规计算会被跳过,被设置为 0。

如图下图b所示,将占位符token插入句子1和2之间影响了它们之间的相对位置信息,进而影响两个句子中tokens之间的注意力分数计算。

 

实验

作者在LLMs两大流行任务检索增强生成(RAG)和上下文学习(ICL)上评估了位置工程的有效性,主要测试模型为是Llama-13B-chat。

1. RAG的位置工程

RAG方法首先涉及与用户查询相关的文档检索。随后,检索到的内容被提供给生成模型,以形成响应。

数据集

作者使用了四个开放域问答数据集:NQ open、EntityQuestions、TrivialQA和WebQuestions。从每个数据集的原始训练集中随机选取了300个问答对构建位置工程训练集。同时,从它们的原始测试集中随机选取了2,000对作为测试集;若某个数据集没有测试集,则使用其评估集替代。

检索模型:采用了经过MS-MARCO数据集微调的Contriever模型。检索源来自维基百科,每个文档段落限制为100个词。检索了k个文档段落,其中k分别取值为1、3、5,并将这些段落连接起来后输入到LLMs中。

评估指标:采用了最佳精确匹配准确率,即判断输出中是否包含正确答案。

免费教学更多>>

谷歌广告高阶打法与优化,谷歌广告体系课程,带你抓住流量红利 百台老相机赠送(22):红梅120折叠相机,送给剑川古城竹君府 当年2万元的三星安卓手机,如今沦为40元“电子垃圾” 小鹏P7i鹏翼版也降价了,不到30万,大家看看和小米SU7谁更好? AI如何“占领”人类生活? 格力电器年营收2040亿:净利290亿分红131亿 高瓴减持 天风证券:给予海尔智家买入评级 DIY从入门到放弃:CPU频率不是越高越好? 开车导航将完结啦,一大“技术”出世,道路情况能了如指掌 一瞬间击中了你的网易云热评文案 老树开新芽,腾讯常青之路怎么走? 电商价格战升级!京东对友商亮剑,买贵双倍赔! 注意!5 月 1 日起微信支付宝收付款规定有变! 2024年保值率最高的5款手机,配置直接一步到位,用五年没问题 国行iPhone究竟算不算是阉割版?被取消掉的功能对你真的有用吗? 中兴通讯公布国际专利申请:“天线模组及通讯设备” 为什么我们会说,苹果不会成为下一个诺基亚? 华为为什么不躺着去赚钱? 【大黄山365】春日黄山,寻迹非遗,魅力无限|春游江淮 江淮瑞风又成功了,瑞风RF8 PHEV车型解 菱品牌的首款轿车,五菱星光 稳健输出,刷新认知,全新红旗H5零距离 2024款别克君越上市,搭载2.0T发动机,售价20.99万元起 长安汽车:一季度净利润11.58亿元,下跌83.39%,释放什么信号? 50万品质跌至22万多,捷豹“横扫千军”,2.0T300Ps,C级车天花板 2025款奔驰S级亮相,最大更新是全新头枕、自动变道? 新一代蒙迪欧科技旗舰版首度亮相 大众ID.3 Pro S官图发布 配ID.7同款大屏 国内现款优惠3.8万元起 元气满满的一台纯电SUV,比亚迪元UP 全新日产奇骏X-Trail混合动力七座SUV:并非真省油