Chinese SimpleQA|语言模型评估数据集|中文问答数据集
收藏Chinese SimpleQA 数据集概述
数据集简介
Chinese SimpleQA 是一个综合性的中文基准测试数据集,用于评估语言模型回答简短问题的真实性能力。该数据集主要具有以下五个特性:
- 中文:专注于中文语言,全面评估现有大型语言模型(LLMs)在中文方面的真实性能力。
- 多样性:涵盖6个主要主题,包括“中国文化”、“人文”、“工程、技术和应用科学”、“生活、艺术和文化”、“社会”和“自然科学”,共计99个细分子主题。
- 高质量:通过全面且严格的质量控制流程,确保数据集的质量和准确性。
- 静态:所有参考答案不会随时间变化,保持数据集的常青特性。
- 易于评估:问题和答案都非常简短,可以通过现有的LLMs(如OpenAI API)快速运行评分程序。
数据集内容
- 主题覆盖:涵盖6个主要主题,包含99个细分子主题。
- 问题数量:包含3000个高质量问题,涉及从人文到科学工程的广泛领域。
数据集发布
- 发布时间:2024年11月12日
- 发布平台:已在Hugging Face上发布,地址为Hugging Face。
数据集使用
评估方法
数据集提供三种评估方法:
-
基于simple-evals的评估: bash python -m simple-evals.demo
-
自编写的简单单次评估脚本:
-
设置OpenAI API密钥: python os.environ["OPENAI_API_KEY"] = "replace your key here"
-
运行评估脚本: bash python scripts/chinese_simpleqa_easy.py
-
获取完整排行榜: bash python scripts/get_leaderboard.py
-
-
集成到OpenCompass的评估:
-
克隆OpenCompass: bash git clone git@github.com:open-compass/opencompass.git cd opencompass
-
下载Chinese SimpleQA数据并放置在指定路径:
~/opencompass/data/ └── chinese_simpleqa ├── chinese_simpleqa.jsonl
-
配置并启动评估: bash python run.py configs/eval_chinese_simpleqa.py
-
引用
如使用该数据集,请引用相关论文:
@misc{he2024chinesesimpleqachinesefactuality, title={Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models}, author={Yancheng He and Shilong Li and Jiaheng Liu and Yingshui Tan and Weixun Wang and Hui Huang and Xingyuan Bu and Hangyu Guo and Chengwei Hu and Boren Zheng and Zhuoran Lin and Xuepeng Liu and Dekai Sun and Shirong Lin and Zhicheng Zheng and Xiaoyong Zhu and Wenbo Su and Bo Zheng}, year={2024}, eprint={2411.07140}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.07140}, }

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
btc
该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。
huggingface 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录