yourbench_y1|语言模型评估数据集|多领域文本分析数据集
收藏🌟 YourBench Y1: A Diverse Domain Benchmark Dataset
数据集描述
YourBench Y1 是一个精心策划的文档数据集,涵盖8个不同的领域,专门设计用于评估语言模型在2024年7月之后生成的内容上的表现。该数据集提供了一个独特的基准,用于测试模型在多样化的专业和技术领域中的性能。
关键特性
- 📊 8个平衡的领域,每个领域包含5个文档(共40个文档)
- 📝 每个文档包含完整内容和GPT-4-0824生成的摘要(提示:“总结此内容”)
- 📈 平均内容长度:约10,756个token(GPT-2 tokenizer)
- 📋 一致的摘要长度:约130个token(GPT-2 tokenizer)
- 🎯 专注于2024年7月之后的内容
- 🔍 高质量、专业编写的内容
领域
数据集包括以下领域的文档:
- 企业(5个文档)
- 金融(5个文档)
- 政府(5个文档)
- 健康(5个文档)
- 法律(5个文档)
- 杂项(5个文档)
- 新闻(5个文档)
- 研究(5个文档)
数据集结构
每个文档包含以下字段:
python { id: str, # 唯一标识符 title: str, # 文档标题 category: str, # 领域类别 content: str, # 完整文档文本 summary: str # 人工编写的摘要 }
数据集分析
1. Token-Level Analysis
2. Vocabulary Analysis
- 词汇增长:显示独特词汇随着总词汇的累积情况,揭示内容复杂性
- 词汇丰富度:展示内容和摘要中的词汇密度分布
- 内容显示更高的词汇丰富度(平均:0.48),而摘要(平均:0.41)
- 摘要保持一致的词汇丰富度,尽管长度有所变化
3. Sentence-Level Analysis
- 句子复杂度:内容显示句子长度的更高方差,而摘要
- 摘要一致性:摘要保持更均匀的句子长度
- 内容中的平均句子长度:21.3个词
- 摘要中的平均句子长度:18.7个词
4. 内容长度分布(GPT-2 Tokens)
- 平均值:10,756个token
- 中位数:4,107个token
- 范围:355到65,455个token
- 标准差:15,868个token
- 分布显示右偏模式,大多数文档在1.5K-13.5K个token之间
5. 摘要长度分布(GPT-2 Tokens)
- 平均值:130个token
- 中位数:129个token
- 范围:93到166个token
- 标准差:17个token
- 显示围绕130个token的紧密正态分布
6. 压缩比分析
- 平均压缩比:0.066(≈15:1压缩)
- 中位数:0.032(≈31:1压缩)
- 范围:0.002到0.330
- 显示不同文档长度之间的有效信息提取
7. 文本复杂度指标
- 词汇丰富度在内容和摘要之间显著变化
- 摘要保持一致的信息密度
- 平均句子长度显示不同文档类型的适当变化
8. Embedding Space Analysis
9. Cross-Domain Analysis
10. Document Similarity Analysis
加载和使用数据集
您可以使用Hugging Face datasets库加载数据集:
python from datasets import load_dataset
加载数据集
dataset = load_dataset("sumuks/yourbench_y1")
访问训练集
train_data = dataset[train]
示例:打印第一个文档
print(train_data[0])
引用
如果您在研究中使用此数据集,请引用:
bibtex @misc{yourbench2024, title={YourBench Y1: A Diverse Domain Benchmark Dataset}, author={YourBench Team}, year={2024}, howpublished={Hugging Face Datasets}, url={https://huggingface.co/datasets/sumuks/yourbench_y1} }
许可证
此数据集在Creative Commons Attribution 4.0 International License下发布。
限制和偏见
- 数据集相对较小(40个文档),可能无法捕捉每个领域内的所有变化。这旨在作为一个概念验证。
- 内容仅以英语提供
- 尽管努力确保质量,但文档选择中可能存在一些固有偏见
- 数据集专注于专业和正式内容,可能不代表随意或非正式的写作风格
致谢
我们感谢所有帮助收集、策划和验证此数据集的贡献者。特别感谢领域专家,他们帮助确保每个类别中内容的质量和相关性。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录