LiveBench|语言模型数据集|基准测试数据集
收藏LiveBench 数据集概述
数据集介绍
LiveBench 是一个专为大型语言模型(LLMs)设计的基准测试,旨在避免测试集污染并实现客观评估。该数据集具有以下特点:
- 定期更新:每月发布新问题,问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介。
- 客观评分:每个问题都有可验证的、客观的正确答案,允许自动准确评分,无需使用 LLM 作为评判。
- 多样性:目前包含 17 个不同任务,涵盖 6 个类别,并将定期发布新的、更难的任务。
数据集内容
LiveBench 数据集包含多个任务,涵盖以下类别:
- 推理
- 编程
- 数学
- 数据分析
- 语言
- 综合评估
数据集使用
用户可以通过在 GitHub 上提交 issue 或发送电子邮件至 livebench.ai@gmail.com 来评估他们的模型。
数据集来源
LiveBench 由以下机构和人员共同开发:
- Abacus.AI: Colin White, Samuel Dooley, Manley Roberts, Arka Pal
- NYU: Ben Feuer, Ravid Shwartz-Ziv, Chinmay Hegde, Yann LeCun, Micah Goldblum
- Nvidia: Siddhartha Jain
- UMD: Tom Goldstein
- USC: Willie Neiswanger
数据集引用
如需引用 LiveBench 数据集,请使用以下 BibTeX 格式: bibtex @article{livebench, author = {White, Colin and Dooley, Samuel and Roberts, Manley and Pal, Arka and Feuer, Ben and Jain, Siddhartha and Shwartz-Ziv, Ravid and Jain, Neel and Saifullah, Khalid and Naidu, Siddartha and Hegde, Chinmay and LeCun, Yann and Goldstein, Tom and Neiswanger, Willie and Goldblum, Micah}, title = {LiveBench: A Challenging, Contamination-Free LLM Benchmark}, url = {arXiv preprint arXiv:2406.19314}, year = {2024}, }

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
ISIC 2019
ISIC 2019数据集包含25,331张皮肤病变图像,用于皮肤癌检测挑战。这些图像分为三个类别:良性、恶性黑色素瘤和基底细胞癌。数据集还包括每张图像的元数据,如病变类型、患者年龄和性别等。
challenge2019.isic-archive.com 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录