five

OnlySports_Benchmark|体育知识生成数据集|语言模型评估数据集

收藏
huggingface2024-09-12 更新2024-12-12 收录
体育知识生成
语言模型评估
下载链接:
https://huggingface.co/datasets/Chrisneverdie/OnlySports_Benchmark
下载链接
链接失效反馈
资源简介:
OnlySports Benchmark 是一种新颖的评估方法,旨在评估语言模型在体育知识生成方面的能力。它是 OnlySports 项目的一部分,该项目旨在推进体育领域特定语言建模。该基准包括 1,000 个多样化的体育相关提示,涵盖了流行体育、主要联赛、著名运动员和比赛策略。它通过使用最先进的语言模型作为评估者,评估准确性/事实性和连续性/相关性。评估过程包括生成响应(80 个令牌限制)并使用 GPT-4 和 Claude 3.5 Sonnet 进行评估,评分平均后得出最终评级。README 还概述了基准的结构、评估标准和使用说明。
创建时间:
2024-09-07
原始信息汇总

OnlySports Benchmark

概述

OnlySports Benchmark 是一种新颖的评估方法,旨在评估语言模型在体育知识生成方面的能力。它是 OnlySports 项目的一部分,旨在推进体育领域特定语言建模。

关键特性

  • 包含 1,000 个多样化的体育相关提示
  • 涵盖流行体育项目、主要联赛、著名运动员和比赛策略
  • 评估准确性/事实性和连续性/相关性
  • 使用最先进的语言模型进行评估

基准结构

  1. 提示生成

    • 50 个多样化的体育相关标签
    • 每个标签 20 个不完整句子
    • 总计 1,000 个提示
  2. 评估标准

    • 准确性和事实性 (OS-acc): 1-5 评分
    • 连续性和相关性 (OS-rel): 1-5 评分
  3. 评估过程

    • 模型生成响应(80 个词符限制)
    • 响应由 GPT-4 和 Claude 3.5 Sonnet 评估
    • 分数平均后得出最终评分

使用方法

  1. 加载基准提示
  2. 使用您的模型生成响应
  3. 使用 api_eval.ipynb 评估响应

评估细则

准确性和事实性 (OS-acc)

  1. 大部分不准确,存在重大事实错误
  2. 部分准确,信息混杂正确与错误
  3. 大部分准确,存在轻微事实错误
  4. 高度准确,几乎无错误
  5. 完全准确且事实无误

连续性和相关性 (OS-rel)

  1. 继续性差,显著偏离提示上下文
  2. 继续性弱,保持部分元素但引入无关内容
  3. 继续性适当,总体遵循提示但有轻微偏差
  4. 继续性强,紧密遵循提示且无明显不一致
  5. 继续性优秀,无缝扩展提示的叙述和上下文

结果

详细结果请参阅我们的 论文 中的附录。

相关资源

引用

如果您在研究中使用 OnlySports Benchmark,请引用我们的 论文

联系

更多信息或关于 OnlySports Benchmark 的咨询,请访问我们的 GitHub 仓库

AI搜集汇总
数据集介绍
main_image_url
构建方式
OnlySports_Benchmark数据集的构建基于体育领域的特定需求,旨在评估语言模型在体育知识生成方面的能力。该数据集通过50个多样化的体育相关标签,每个标签生成20个不完整的句子,最终形成1000个提示。这些提示涵盖了流行运动、主要联赛、知名运动员以及比赛策略等多个方面,确保了数据的广泛性和代表性。
特点
OnlySports_Benchmark数据集的特点在于其全面性和专业性。它不仅包含了1000个多样化的体育相关提示,还特别设计了两个评估标准:准确性与事实性(OS-acc)以及连续性与相关性(OS-rel)。这些标准通过1-5的评分尺度,由先进的GPT-4和Claude 3.5 Sonnet模型进行评估,确保了评估结果的客观性和准确性。
使用方法
使用OnlySports_Benchmark数据集时,首先需要加载基准提示,然后利用模型生成响应。生成的响应将被限制在80个令牌以内,并通过api_eval.ipynb进行评估。评估过程包括对响应的准确性与事实性、连续性与相关性进行评分,最终得出模型的综合表现。这一过程不仅简单易行,而且能够有效评估模型在体育领域的知识生成能力。
背景与挑战
背景概述
OnlySports_Benchmark数据集是专为评估语言模型在体育知识生成领域的能力而设计的新型评估工具。该数据集隶属于OnlySports项目,旨在推动体育领域特定语言建模的发展。数据集由Chrisneverdie团队于2024年创建,涵盖了1000个多样化的体育相关提示,涉及热门运动、主要联赛、知名运动员及比赛策略等内容。通过使用GPT-4和Claude 3.5 Sonnet等先进语言模型作为评估工具,OnlySports_Benchmark不仅评估生成内容的准确性和事实性,还关注其连贯性和相关性。这一数据集为体育领域的自然语言处理研究提供了重要的基准测试工具,推动了领域内模型的优化与创新。
当前挑战
OnlySports_Benchmark数据集在构建和应用过程中面临多重挑战。首先,体育领域的知识具有高度的动态性和时效性,如何确保生成内容的准确性和事实性是一个核心难题。其次,数据集的提示设计需要覆盖广泛的体育主题,同时保持多样性和代表性,这对提示生成策略提出了较高要求。此外,评估标准的制定也颇具挑战,如何在准确性和连贯性之间取得平衡,并设计出可量化的评分体系,是数据集构建中的关键问题。最后,依赖先进语言模型作为评估工具可能引入模型偏见,如何确保评估结果的公正性和可靠性也是需要持续优化的方向。
常用场景
经典使用场景
OnlySports_Benchmark数据集主要用于评估语言模型在体育领域的知识生成能力。通过提供1000个多样化的体育相关提示,该数据集能够全面测试模型在生成体育内容时的准确性和连贯性。这些提示涵盖了热门体育项目、主要联赛、知名运动员以及比赛策略等多个方面,为研究人员提供了一个标准化的评估平台。
解决学术问题
该数据集解决了语言模型在特定领域(如体育)中生成内容时的准确性和连贯性问题。通过引入OS-acc和OS-rel两个评分标准,研究人员能够量化模型在生成体育相关内容时的表现。这不仅有助于提升模型在特定领域的表现,还为领域特定语言模型的开发提供了重要的评估工具。
衍生相关工作
基于OnlySports_Benchmark,研究人员开发了OnlySportsLM模型和OnlySports分类器,进一步推动了体育领域语言模型的研究。这些衍生工作不仅扩展了数据集的应用范围,还为体育领域的自然语言处理任务提供了新的解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。

huggingface 收录