five

Chinese SimpleQA|语言模型评估数据集|中文问答数据集

收藏
github2024-11-19 更新2024-11-28 收录
语言模型评估
中文问答
下载链接:
https://github.com/OpenStellarTeam/ChineseSimpleQA
下载链接
链接失效反馈
资源简介:
Chinese SimpleQA 是一个全面的中文基准测试,用于评估语言模型回答简短问题的真实性能力。该数据集主要具有五个属性:中文、多样化、高质量、静态和易于评估。具体来说,我们的基准涵盖了6个主要主题,包括99个多样化的子主题。
创建时间:
2024-11-11
原始信息汇总

Chinese SimpleQA 数据集概述

数据集简介

Chinese SimpleQA 是一个综合性的中文基准测试数据集,用于评估语言模型回答简短问题的真实性能力。该数据集主要具有以下五个特性:

  • 中文:专注于中文语言,全面评估现有大型语言模型(LLMs)在中文方面的真实性能力。
  • 多样性:涵盖6个主要主题,包括“中国文化”、“人文”、“工程、技术和应用科学”、“生活、艺术和文化”、“社会”和“自然科学”,共计99个细分子主题。
  • 高质量:通过全面且严格的质量控制流程,确保数据集的质量和准确性。
  • 静态:所有参考答案不会随时间变化,保持数据集的常青特性。
  • 易于评估:问题和答案都非常简短,可以通过现有的LLMs(如OpenAI API)快速运行评分程序。

数据集内容

  • 主题覆盖:涵盖6个主要主题,包含99个细分子主题。
  • 问题数量:包含3000个高质量问题,涉及从人文到科学工程的广泛领域。

数据集发布

  • 发布时间:2024年11月12日
  • 发布平台:已在Hugging Face上发布,地址为Hugging Face

数据集使用

评估方法

数据集提供三种评估方法:

  1. 基于simple-evals的评估: bash python -m simple-evals.demo

  2. 自编写的简单单次评估脚本

    • 设置OpenAI API密钥: python os.environ["OPENAI_API_KEY"] = "replace your key here"

    • 运行评估脚本: bash python scripts/chinese_simpleqa_easy.py

    • 获取完整排行榜: bash python scripts/get_leaderboard.py

  3. 集成到OpenCompass的评估

    • 克隆OpenCompass: bash git clone git@github.com:open-compass/opencompass.git cd opencompass

    • 下载Chinese SimpleQA数据并放置在指定路径:

      ~/opencompass/data/ └── chinese_simpleqa ├── chinese_simpleqa.jsonl

    • 配置并启动评估: bash python run.py configs/eval_chinese_simpleqa.py

引用

如使用该数据集,请引用相关论文:

@misc{he2024chinesesimpleqachinesefactuality, title={Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models}, author={Yancheng He and Shilong Li and Jiaheng Liu and Yingshui Tan and Weixun Wang and Hui Huang and Xingyuan Bu and Hangyu Guo and Chengwei Hu and Boren Zheng and Zhuoran Lin and Xuepeng Liu and Dekai Sun and Shirong Lin and Zhicheng Zheng and Xiaoyong Zhu and Wenbo Su and Bo Zheng}, year={2024}, eprint={2411.07140}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.07140}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese SimpleQA数据集的构建基于对语言模型事实性能力的全面评估需求。该数据集涵盖了6个主要主题,包括人文、工程技术、自然科学等,并细分为99个多样化的子主题。通过严格的质量控制流程,确保了数据集的高质量和准确性。所有参考答案均为静态,以保持数据集的恒久性。
特点
Chinese SimpleQA数据集具有显著的特点,包括专注于中文语言、涵盖广泛且多样化的主题、高质量的内容控制、静态的参考答案以及易于评估的特性。这些特点使得该数据集成为评估语言模型在中文领域事实性能力的重要工具。
使用方法
使用Chinese SimpleQA数据集可以通过多种方式进行。首先,可以通过OpenAI API进行简单的评估。其次,可以使用提供的单个评估脚本进行自定义评估。此外,数据集还集成了OpenCompass,允许用户通过配置脚本进行更复杂的模型评估,并生成全面的排行榜。
背景与挑战
背景概述
Chinese SimpleQA数据集由OpenStellarTeam于2024年发布,旨在评估语言模型在回答简短问题时的真实性能力。该数据集是首个全面的中文基准测试,涵盖了从人文到自然科学等六大主题,共计99个细分子主题。主要研究人员包括Yancheng He、Shilong Li等,他们关注于解决生成模型中的幻觉问题,并希望通过此数据集推动中文社区对模型事实正确性的研究。Chinese SimpleQA的发布填补了现有数据集在覆盖范围和质量上的不足,为中文语言模型的评估提供了重要工具。
当前挑战
Chinese SimpleQA数据集在构建过程中面临多项挑战。首先,确保数据集的高质量和多样性是一个主要挑战,这需要严格的质控流程。其次,保持数据集的静态性以防止随时间变化的知识失效,也是一个技术难题。此外,如何有效地评估模型的真实性能力,特别是在多模型比较和快速评分方面,是该数据集需要解决的另一个重要问题。最后,数据集的广泛应用和持续更新,以适应不断发展的语言模型技术,也是一项长期挑战。
常用场景
经典使用场景
Chinese SimpleQA 数据集的经典使用场景主要集中在评估语言模型在回答简短问题时的真实性能力。该数据集涵盖了从人文到自然科学的六大主题,共包含99个细分子主题,为研究人员提供了一个全面且多样化的测试平台。通过使用Chinese SimpleQA,研究者可以系统地评估和比较不同语言模型在处理中文简短问题时的表现,从而推动模型在事实准确性方面的改进。
实际应用
在实际应用中,Chinese SimpleQA 数据集被广泛用于开发和优化面向中文用户的智能问答系统。例如,在教育、法律咨询、医疗健康等领域,基于该数据集训练的模型能够提供更为准确和可靠的信息服务。此外,企业也可以利用该数据集来评估和提升其内部知识库系统的准确性,确保信息传递的可靠性,从而增强用户体验和信任度。
衍生相关工作
基于 Chinese SimpleQA 数据集,研究者们开展了一系列相关工作,包括但不限于开发新的评估方法、改进模型的训练算法以及探索不同语言模型在事实性任务中的表现差异。例如,有研究团队利用该数据集提出了新的评估框架,以更全面地衡量模型的真实性能力。此外,还有研究致力于通过该数据集发现和解决模型在处理特定类型问题时的固有偏差,从而推动了语言模型技术的整体进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

btc

该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。

huggingface 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录