Chinese SimpleQA|语言模型评估数据集|中文问答数据集
收藏Chinese SimpleQA 数据集概述
数据集简介
Chinese SimpleQA 是一个综合性的中文基准测试数据集,用于评估语言模型回答简短问题的真实性能力。该数据集主要具有以下五个特性:
- 中文:专注于中文语言,全面评估现有大型语言模型(LLMs)在中文方面的真实性能力。
- 多样性:涵盖6个主要主题,包括“中国文化”、“人文”、“工程、技术和应用科学”、“生活、艺术和文化”、“社会”和“自然科学”,共计99个细分子主题。
- 高质量:通过全面且严格的质量控制流程,确保数据集的质量和准确性。
- 静态:所有参考答案不会随时间变化,保持数据集的常青特性。
- 易于评估:问题和答案都非常简短,可以通过现有的LLMs(如OpenAI API)快速运行评分程序。
数据集内容
- 主题覆盖:涵盖6个主要主题,包含99个细分子主题。
- 问题数量:包含3000个高质量问题,涉及从人文到科学工程的广泛领域。
数据集发布
- 发布时间:2024年11月12日
- 发布平台:已在Hugging Face上发布,地址为Hugging Face。
数据集使用
评估方法
数据集提供三种评估方法:
-
基于simple-evals的评估: bash python -m simple-evals.demo
-
自编写的简单单次评估脚本:
-
设置OpenAI API密钥: python os.environ["OPENAI_API_KEY"] = "replace your key here"
-
运行评估脚本: bash python scripts/chinese_simpleqa_easy.py
-
获取完整排行榜: bash python scripts/get_leaderboard.py
-
-
集成到OpenCompass的评估:
-
克隆OpenCompass: bash git clone git@github.com:open-compass/opencompass.git cd opencompass
-
下载Chinese SimpleQA数据并放置在指定路径:
~/opencompass/data/ └── chinese_simpleqa ├── chinese_simpleqa.jsonl
-
配置并启动评估: bash python run.py configs/eval_chinese_simpleqa.py
-
引用
如使用该数据集,请引用相关论文:
@misc{he2024chinesesimpleqachinesefactuality, title={Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models}, author={Yancheng He and Shilong Li and Jiaheng Liu and Yingshui Tan and Weixun Wang and Hui Huang and Xingyuan Bu and Hangyu Guo and Chengwei Hu and Boren Zheng and Zhuoran Lin and Xuepeng Liu and Dekai Sun and Shirong Lin and Zhicheng Zheng and Xiaoyong Zhu and Wenbo Su and Bo Zheng}, year={2024}, eprint={2411.07140}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.07140}, }

中国区域地面气象要素驱动数据集 v2.0(1951-2020)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。
国家青藏高原科学数据中心 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
DataTable
个人收集的一些游戏的数据表
github 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录