LLMEVAL-2|知识评估数据集|语言模型数据集
收藏LLMEVAL-2 中文大语言模型评测第二期
项目简介
- LLMEVAL-2是专业领域评测,重点考察不同专业本科生和研究生在日常学习和生活中希望借助大模型得到帮助的任务。
- 评测基于LLMEVAL-1的经验,改进题目设计以更好地反映模型的知识覆盖率。
数据集
- 学科范围:12个学科领域。
- 题目类型:
- 客观题:每个学科25-30道,题型为单项选择题与填空题。
- 主观题:每个学科10-15道,题型为问答题。
- 总题量:合计480题(12学科×40题)。
- 示例:
- 客观题示例:工业制取氯气的原理方程式。
- 主观题示例:如何学好有机化学的建议。
评分标准
题目类型 | 评价维度 | 分值 | 评价标准描述 |
---|---|---|---|
客观题 | 正确性 | 3分 | 回答内容是否正确 |
解释正确性 | 2分 | 解释是否生成错误内容 | |
主观题 | 准确性 | 5分 | 回答内容是否有错 |
信息量 | 3分 | 回答信息是否充足 | |
流畅性 | 3分 | 回答格式语法是否正确 | |
逻辑性 | 3分 | 回答逻辑是否严谨 |
排行榜
- 评测模型:20个大语言模型。
- 排名依据:综合客观题和主观题得分。
- 总分计算公式: $$ 总分=frac 1 n sum_{i=1}^n frac{score_{ai}}{score_{fi}} imes 100 $$
- 排名前五模型:
- GPT4
- GPT3.5
- 讯飞星火
- Baichuan-13B-Chat
- minimax-abab5
完整报告
https://github.com/llmeval/llmeval-2/blob/master/LLMEVAL-2.pdf
引用
bibtex @misc{LLMEval2, author = {Ming Zhang and Yue Zhang and Shichun Liu and Haipeng Yuan and Junzhe Wang and Yurui Dong and Jingyi Deng and Tao Gui and Qi Zhang and Xuanjing Huang}, title = {{LLMEval-2}}, year = {2023}, month = {July}, url = {https://github.com/llmeval/llmeval-2}, }
联系方式
- 评测参与:http://llmeval.com/
- 机构评测:需认证并申请评测权限。
- Email:mingzhang23@m.fudan.edu.cn
- Wechat:zanyingluan

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Apple Stock Price Data
Historical stock price data for AAPL (apple)
kaggle 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录