OnlySports_Benchmark

Hugging Face2024-09-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Chrisneverdie/OnlySports_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

OnlySports Benchmark 是一种新颖的评估方法，旨在评估语言模型在体育知识生成方面的能力。它是 OnlySports 项目的一部分，该项目旨在推进体育领域特定语言建模。该基准包括 1,000 个多样化的体育相关提示，涵盖了流行体育、主要联赛、著名运动员和比赛策略。它通过使用最先进的语言模型作为评估者，评估准确性/事实性和连续性/相关性。评估过程包括生成响应（80 个令牌限制）并使用 GPT-4 和 Claude 3.5 Sonnet 进行评估，评分平均后得出最终评级。README 还概述了基准的结构、评估标准和使用说明。

创建时间：

2024-09-07

原始信息汇总

OnlySports Benchmark

概述

OnlySports Benchmark 是一种新颖的评估方法，旨在评估语言模型在体育知识生成方面的能力。它是 OnlySports 项目的一部分，旨在推进体育领域特定语言建模。

关键特性

包含 1,000 个多样化的体育相关提示
涵盖流行体育项目、主要联赛、著名运动员和比赛策略
评估准确性/事实性和连续性/相关性
使用最先进的语言模型进行评估

基准结构

提示生成
- 50 个多样化的体育相关标签
- 每个标签 20 个不完整句子
- 总计 1,000 个提示
评估标准
- 准确性和事实性 (OS-acc): 1-5 评分
- 连续性和相关性 (OS-rel): 1-5 评分
评估过程
- 模型生成响应（80 个词符限制）
- 响应由 GPT-4 和 Claude 3.5 Sonnet 评估
- 分数平均后得出最终评分

使用方法

加载基准提示
使用您的模型生成响应
使用 api_eval.ipynb 评估响应

评估细则

准确性和事实性 (OS-acc)

大部分不准确，存在重大事实错误
部分准确，信息混杂正确与错误
大部分准确，存在轻微事实错误
高度准确，几乎无错误
完全准确且事实无误

连续性和相关性 (OS-rel)

继续性差，显著偏离提示上下文
继续性弱，保持部分元素但引入无关内容
继续性适当，总体遵循提示但有轻微偏差
继续性强，紧密遵循提示且无明显不一致
继续性优秀，无缝扩展提示的叙述和上下文

结果

详细结果请参阅我们的论文中的附录。

引用

如果您在研究中使用 OnlySports Benchmark，请引用我们的论文。

联系

更多信息或关于 OnlySports Benchmark 的咨询，请访问我们的 GitHub 仓库。

搜集汇总

数据集介绍

构建方式

OnlySports_Benchmark数据集的构建基于体育领域的特定需求，旨在评估语言模型在体育知识生成方面的能力。该数据集通过50个多样化的体育相关标签，每个标签生成20个不完整的句子，最终形成1000个提示。这些提示涵盖了流行运动、主要联赛、知名运动员以及比赛策略等多个方面，确保了数据的广泛性和代表性。

特点

OnlySports_Benchmark数据集的特点在于其全面性和专业性。它不仅包含了1000个多样化的体育相关提示，还特别设计了两个评估标准：准确性与事实性（OS-acc）以及连续性与相关性（OS-rel）。这些标准通过1-5的评分尺度，由先进的GPT-4和Claude 3.5 Sonnet模型进行评估，确保了评估结果的客观性和准确性。

使用方法

使用OnlySports_Benchmark数据集时，首先需要加载基准提示，然后利用模型生成响应。生成的响应将被限制在80个令牌以内，并通过api_eval.ipynb进行评估。评估过程包括对响应的准确性与事实性、连续性与相关性进行评分，最终得出模型的综合表现。这一过程不仅简单易行，而且能够有效评估模型在体育领域的知识生成能力。

背景与挑战

背景概述

OnlySports_Benchmark数据集是专为评估语言模型在体育知识生成领域的能力而设计的新型评估工具。该数据集隶属于OnlySports项目，旨在推动体育领域特定语言建模的发展。数据集由Chrisneverdie团队于2024年创建，涵盖了1000个多样化的体育相关提示，涉及热门运动、主要联赛、知名运动员及比赛策略等内容。通过使用GPT-4和Claude 3.5 Sonnet等先进语言模型作为评估工具，OnlySports_Benchmark不仅评估生成内容的准确性和事实性，还关注其连贯性和相关性。这一数据集为体育领域的自然语言处理研究提供了重要的基准测试工具，推动了领域内模型的优化与创新。

当前挑战

OnlySports_Benchmark数据集在构建和应用过程中面临多重挑战。首先，体育领域的知识具有高度的动态性和时效性，如何确保生成内容的准确性和事实性是一个核心难题。其次，数据集的提示设计需要覆盖广泛的体育主题，同时保持多样性和代表性，这对提示生成策略提出了较高要求。此外，评估标准的制定也颇具挑战，如何在准确性和连贯性之间取得平衡，并设计出可量化的评分体系，是数据集构建中的关键问题。最后，依赖先进语言模型作为评估工具可能引入模型偏见，如何确保评估结果的公正性和可靠性也是需要持续优化的方向。

常用场景

经典使用场景

OnlySports_Benchmark数据集主要用于评估语言模型在体育领域的知识生成能力。通过提供1000个多样化的体育相关提示，该数据集能够全面测试模型在生成体育内容时的准确性和连贯性。这些提示涵盖了热门体育项目、主要联赛、知名运动员以及比赛策略等多个方面，为研究人员提供了一个标准化的评估平台。

解决学术问题

该数据集解决了语言模型在特定领域（如体育）中生成内容时的准确性和连贯性问题。通过引入OS-acc和OS-rel两个评分标准，研究人员能够量化模型在生成体育相关内容时的表现。这不仅有助于提升模型在特定领域的表现，还为领域特定语言模型的开发提供了重要的评估工具。

衍生相关工作

基于OnlySports_Benchmark，研究人员开发了OnlySportsLM模型和OnlySports分类器，进一步推动了体育领域语言模型的研究。这些衍生工作不仅扩展了数据集的应用范围，还为体育领域的自然语言处理任务提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

OnlySports_Benchmark

OnlySports Benchmark

概述

关键特性

基准结构

使用方法

评估细则

准确性和事实性 (OS-acc)

连续性和相关性 (OS-rel)

结果

相关资源

引用

联系