Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky
[Google Research]大语言模型是有效的成对排序提示文本排序器
动机:尽管大型语言模型(LLM)在许多自然语言任务中表现出了令人印象深刻的性能,但是在重要的文本排名问题上,使用LLM的成功有限。现有的结果通常明显低于经过良好训练的基线排名器。因此,本文提出一种新的技术,称为Pairwise Ranking Prompting (PRP),以改善LLM在文本排名问题上的性能。 方法:提出一种新技术,称为Pairwise Ranking Prompting(PRP),使用查询和一对候选文档作为提示,让LLM执行排名任务。PRP基于简单的提示设计,并自然地支持生成和评分LLM API。本文提出了几种PRP的变体,以解决效率问题。 优势:PRP的结果是文献中首次使用中等大小的开源LLM在标准基准数据集上实现最先进的排名性能。在TREC-DL2020上,基于具有20B参数的Flan-UL2模型的PRP超过了文献中以前最好的方法,该方法基于黑箱商业GPT-4,模型大小估计为50倍,NDCG@1超过5%。在TREC-DL2019上,PRP只对NDCG@5和NDCG@10指标的GPT-4解决方案稍逊一筹,但可以超过其他现有的解决方案,如具有175B参数的InstructGPT,几乎所有排名指标超过10%。提出一种新技术,称为Pairwise Ranking Prompting(PRP),使用查询和一对候选文档作为提示,让大型语言模型执行排名任务,结果显示,PRP可以在标准基准数据集上实现最先进的排名性能。
https://arxiv.org/abs/2306.17563