比赛概述

比赛名称：LMSYS - Chatbot Arena Human Preference Predictions

比赛类型：自然语言处理、大模型

比赛任务：判断大模型生成的效果

官网地址： https://www.kaggle.com/competitions/lmsys-chatbot-arena/

比赛背景

大型语言模型 (LLM) 正在迅速进入我们的生活，但确保其响应引起用户共鸣对于成功交互至关重要。此次竞赛提供了一个独特的机会，可以利用真实世界的数据应对这一挑战，并帮助我们弥合LLM能力和人类偏好之间的差距。

我们利用了从 Chatbot Arena 收集的大型数据集，用户与两位匿名LLM聊天并选择他们喜欢的答案。您在本次比赛中的任务是预测用户在这些正面交锋中更喜欢哪种反应。这一挑战与人类反馈强化学习（RLHF）中的“奖励模型”或“偏好模型”的概念相一致。

先前的研究已经发现直接提示现有LLM进行偏好预测的局限性。这些限制通常源于偏见，例如偏向首先提出的回应（立场偏见）、过于冗长（冗长偏见）或表现出自我推销（自我增强偏见）。

我们鼓励您探索各种机器学习技术来构建可以有效预测用户偏好的模型。您的工作将有助于开发能够根据个人用户偏好定制响应的LLM，最终导致更加用户友好且被广泛接受的人工智能对话系统。

比赛任务

这项竞赛要求您预测在由大型语言模型 (LLM) 驱动的聊天机器人之间的正面交锋中用户会更喜欢哪些响应。您将获得来自 Chatbot Arena 的对话数据集，其中不同的LLM对用户提示的答案。通过开发成功的机器学习模型，您将帮助改善聊天机器人与人类的交互方式，并确保它们更好地符合人类的偏好。

评价指标

根据预测概率和真值之间的对数损失对提交进行评估（使用“eps=auto”）。

提交格式如下：

id	winner_model_a	winner_model_b	winner_tie
136060	0.33	0.33	0.33
211333	0.33	0.33	0.33
1233961	0.33	0.33	0.33

数据集介绍

这个竞赛数据集包含了来自 ChatBot Arena 的用户互动数据。在每次用户互动中，一位评委向两个不同的大型语言模型提供一个或多个提示，然后指示哪个模型给出了更满意的响应。竞赛的目标是预测评委的偏好，并确定给定提示/响应对被选为获胜者的可能性。

请注意，这是一个代码竞赛。在对你的提交进行评分时，此示例测试数据将被完整的测试集替换。训练数据中有 55,000 行，在测试集中你可以预期大约有 25,000 行。

train.csv

id
行的唯一标识符。
model_[a/b]
model_[a/b] 的标识。包含在 train.csv 中但不包含在 test.csv 中。
prompt
输入的提示（给两个模型）。
response_[a/b]
model_[a/b] 对给定提示的响应。
winnermodel[a/b/tie]
标记评委选择的二元列。地面真实目标列。

test.csv

id
prompt
response_[a/b]

sample_submission.csv

正确格式的提交文件。

id
winnermodel[a/b/tie]

这是从测试集中预测出的。

LMSYS.pdf

成果展示

思路介绍

见PPT文件。

LMSYS 下载

Kaggle 银牌-LMSYS 大模型回复偏好预测竞赛-基于 QLoRA 微调 llama-3.1-8B、Gemma-2-9b

于2025年2月26日由青崖发布

比赛概述

比赛背景

比赛任务

评价指标

数据集介绍

train.csv

test.csv

sample_submission.csv

成果展示

思路介绍

0 条评论

发表回复取消回复

竞赛

A1-面向海光、飞腾整机的PostGreSQL与MySQL协同调优策略

竞赛

A3-DPU与SRv6驱动的高效算力网络构建方案

竞赛

D3-基于IEEE浮点数的快速指数函数及其数字电路实现

Kaggle 银牌-LMSYS 大模型回复偏好预测竞赛-基于 QLoRA 微调 llama-3.1-8B、Gemma-2-9b

于2025年2月26日由青崖发布

比赛概述

比赛背景

比赛任务

评价指标

数据集介绍

train.csv

test.csv

sample_submission.csv

成果展示

思路介绍

0 条评论

发表回复 取消回复

相关文章

竞赛

A1-面向海光、飞腾整机的PostGreSQL与MySQL协同调优策略

竞赛

A3-DPU与SRv6驱动的高效算力网络构建方案

竞赛

D3-基于IEEE浮点数的快速指数函数及其数字电路实现

发表回复取消回复