OnlySports_Benchmark|体育知识生成数据集|语言模型评估数据集
收藏OnlySports Benchmark
概述
OnlySports Benchmark 是一种新颖的评估方法,旨在评估语言模型在体育知识生成方面的能力。它是 OnlySports 项目的一部分,旨在推进体育领域特定语言建模。
关键特性
- 包含 1,000 个多样化的体育相关提示
- 涵盖流行体育项目、主要联赛、著名运动员和比赛策略
- 评估准确性/事实性和连续性/相关性
- 使用最先进的语言模型进行评估
基准结构
-
提示生成
- 50 个多样化的体育相关标签
- 每个标签 20 个不完整句子
- 总计 1,000 个提示
-
评估标准
- 准确性和事实性 (OS-acc): 1-5 评分
- 连续性和相关性 (OS-rel): 1-5 评分
-
评估过程
- 模型生成响应(80 个词符限制)
- 响应由 GPT-4 和 Claude 3.5 Sonnet 评估
- 分数平均后得出最终评分
使用方法
- 加载基准提示
- 使用您的模型生成响应
- 使用 api_eval.ipynb 评估响应
评估细则
准确性和事实性 (OS-acc)
- 大部分不准确,存在重大事实错误
- 部分准确,信息混杂正确与错误
- 大部分准确,存在轻微事实错误
- 高度准确,几乎无错误
- 完全准确且事实无误
连续性和相关性 (OS-rel)
- 继续性差,显著偏离提示上下文
- 继续性弱,保持部分元素但引入无关内容
- 继续性适当,总体遵循提示但有轻微偏差
- 继续性强,紧密遵循提示且无明显不一致
- 继续性优秀,无缝扩展提示的叙述和上下文
结果
详细结果请参阅我们的 论文 中的附录。
相关资源
引用
如果您在研究中使用 OnlySports Benchmark,请引用我们的 论文。
联系
更多信息或关于 OnlySports Benchmark 的咨询,请访问我们的 GitHub 仓库。

poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
glaive-function-calling-openai
该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。
huggingface 收录