yourbench_y1
收藏🌟 YourBench Y1: A Diverse Domain Benchmark Dataset
数据集描述
YourBench Y1 是一个精心策划的文档数据集,涵盖8个不同的领域,专门设计用于评估语言模型在2024年7月之后生成的内容上的表现。该数据集提供了一个独特的基准,用于测试模型在多样化的专业和技术领域中的性能。
关键特性
- 📊 8个平衡的领域,每个领域包含5个文档(共40个文档)
- 📝 每个文档包含完整内容和GPT-4-0824生成的摘要(提示:“总结此内容”)
- 📈 平均内容长度:约10,756个token(GPT-2 tokenizer)
- 📋 一致的摘要长度:约130个token(GPT-2 tokenizer)
- 🎯 专注于2024年7月之后的内容
- 🔍 高质量、专业编写的内容
领域
数据集包括以下领域的文档:
- 企业(5个文档)
- 金融(5个文档)
- 政府(5个文档)
- 健康(5个文档)
- 法律(5个文档)
- 杂项(5个文档)
- 新闻(5个文档)
- 研究(5个文档)
数据集结构
每个文档包含以下字段:
python { id: str, # 唯一标识符 title: str, # 文档标题 category: str, # 领域类别 content: str, # 完整文档文本 summary: str # 人工编写的摘要 }
数据集分析
1. Token-Level Analysis
2. Vocabulary Analysis
- 词汇增长:显示独特词汇随着总词汇的累积情况,揭示内容复杂性
- 词汇丰富度:展示内容和摘要中的词汇密度分布
- 内容显示更高的词汇丰富度(平均:0.48),而摘要(平均:0.41)
- 摘要保持一致的词汇丰富度,尽管长度有所变化
3. Sentence-Level Analysis
- 句子复杂度:内容显示句子长度的更高方差,而摘要
- 摘要一致性:摘要保持更均匀的句子长度
- 内容中的平均句子长度:21.3个词
- 摘要中的平均句子长度:18.7个词
4. 内容长度分布(GPT-2 Tokens)
- 平均值:10,756个token
- 中位数:4,107个token
- 范围:355到65,455个token
- 标准差:15,868个token
- 分布显示右偏模式,大多数文档在1.5K-13.5K个token之间
5. 摘要长度分布(GPT-2 Tokens)
- 平均值:130个token
- 中位数:129个token
- 范围:93到166个token
- 标准差:17个token
- 显示围绕130个token的紧密正态分布
6. 压缩比分析
- 平均压缩比:0.066(≈15:1压缩)
- 中位数:0.032(≈31:1压缩)
- 范围:0.002到0.330
- 显示不同文档长度之间的有效信息提取
7. 文本复杂度指标
- 词汇丰富度在内容和摘要之间显著变化
- 摘要保持一致的信息密度
- 平均句子长度显示不同文档类型的适当变化
8. Embedding Space Analysis
9. Cross-Domain Analysis
10. Document Similarity Analysis
加载和使用数据集
您可以使用Hugging Face datasets库加载数据集:
python from datasets import load_dataset
加载数据集
dataset = load_dataset("sumuks/yourbench_y1")
访问训练集
train_data = dataset[train]
示例:打印第一个文档
print(train_data[0])
引用
如果您在研究中使用此数据集,请引用:
bibtex @misc{yourbench2024, title={YourBench Y1: A Diverse Domain Benchmark Dataset}, author={YourBench Team}, year={2024}, howpublished={Hugging Face Datasets}, url={https://huggingface.co/datasets/sumuks/yourbench_y1} }
许可证
此数据集在Creative Commons Attribution 4.0 International License下发布。
限制和偏见
- 数据集相对较小(40个文档),可能无法捕捉每个领域内的所有变化。这旨在作为一个概念验证。
- 内容仅以英语提供
- 尽管努力确保质量,但文档选择中可能存在一些固有偏见
- 数据集专注于专业和正式内容,可能不代表随意或非正式的写作风格
致谢
我们感谢所有帮助收集、策划和验证此数据集的贡献者。特别感谢领域专家,他们帮助确保每个类别中内容的质量和相关性。




