Chinese SimpleQA|语言模型评估数据集|中文问答数据集
收藏Chinese SimpleQA 数据集概述
数据集简介
Chinese SimpleQA 是一个综合性的中文基准测试数据集,用于评估语言模型回答简短问题的真实性能力。该数据集主要具有以下五个特性:
- 中文:专注于中文语言,全面评估现有大型语言模型(LLMs)在中文方面的真实性能力。
- 多样性:涵盖6个主要主题,包括“中国文化”、“人文”、“工程、技术和应用科学”、“生活、艺术和文化”、“社会”和“自然科学”,共计99个细分子主题。
- 高质量:通过全面且严格的质量控制流程,确保数据集的质量和准确性。
- 静态:所有参考答案不会随时间变化,保持数据集的常青特性。
- 易于评估:问题和答案都非常简短,可以通过现有的LLMs(如OpenAI API)快速运行评分程序。
数据集内容
- 主题覆盖:涵盖6个主要主题,包含99个细分子主题。
- 问题数量:包含3000个高质量问题,涉及从人文到科学工程的广泛领域。
数据集发布
- 发布时间:2024年11月12日
- 发布平台:已在Hugging Face上发布,地址为Hugging Face。
数据集使用
评估方法
数据集提供三种评估方法:
-
基于simple-evals的评估: bash python -m simple-evals.demo
-
自编写的简单单次评估脚本:
-
设置OpenAI API密钥: python os.environ["OPENAI_API_KEY"] = "replace your key here"
-
运行评估脚本: bash python scripts/chinese_simpleqa_easy.py
-
获取完整排行榜: bash python scripts/get_leaderboard.py
-
-
集成到OpenCompass的评估:
-
克隆OpenCompass: bash git clone git@github.com:open-compass/opencompass.git cd opencompass
-
下载Chinese SimpleQA数据并放置在指定路径:
~/opencompass/data/ └── chinese_simpleqa ├── chinese_simpleqa.jsonl
-
配置并启动评估: bash python run.py configs/eval_chinese_simpleqa.py
-
引用
如使用该数据集,请引用相关论文:
@misc{he2024chinesesimpleqachinesefactuality, title={Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models}, author={Yancheng He and Shilong Li and Jiaheng Liu and Yingshui Tan and Weixun Wang and Hui Huang and Xingyuan Bu and Hangyu Guo and Chengwei Hu and Boren Zheng and Zhuoran Lin and Xuepeng Liu and Dekai Sun and Shirong Lin and Zhicheng Zheng and Xiaoyong Zhu and Wenbo Su and Bo Zheng}, year={2024}, eprint={2411.07140}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.07140}, }

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录