billion-word-benchmark/lm1b
收藏数据集卡片:One Billion Word Language Model Benchmark
数据集描述
数据集摘要
One Billion Word Language Model Benchmark 是一个用于衡量统计语言模型进展的基准语料库。训练数据包含近十亿个单词。
支持的任务和排行榜
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
语言
- 英语 (en)
数据集结构
数据实例
plain_text
- 下载的数据文件大小: 1.79 GB
- 生成的数据集大小: 4.28 GB
- 总磁盘使用量: 6.07 GB
训练集的一个示例如下:
json { "text": "While athletes in different professions dealt with doping scandals and other controversies , Woods continued to do what he did best : dominate the field of professional golf and rake in endorsements ." }
数据字段
所有分割的数据字段相同:
plain_text
text: 一个string特征。
数据分割
| 名称 | 训练集 | 测试集 |
|---|---|---|
| plain_text | 30301028 | 306688 |
数据集创建
注释
该数据集不包含注释。
附加信息
引用信息
bibtex @misc{chelba2014billion, title={One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling}, author={Ciprian Chelba and Tomas Mikolov and Mike Schuster and Qi Ge and Thorsten Brants and Phillipp Koehn and Tony Robinson}, year={2014}, eprint={1312.3005}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献者
感谢 @patrickvonplaten, @lewtun, @jplu, @thomwolf 添加此数据集。




