bookcorpus/bookcorpus|文本生成数据集|语言模型数据集
收藏数据集概述
基本信息
- 数据集名称: BookCorpus
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语种
- 数据集大小: 10M<n<100M
- 源数据: 原始数据
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
- PapersWithCode ID: bookcorpus
数据集结构
- 特征:
text
: 字符串类型
- 配置名称: plain_text
- 分割:
train
: 4853859824 字节, 74004228 样本
- 下载大小: 1179510242 字节
- 数据集大小: 4853859824 字节
数据实例
- 示例: json { "text": "But I traded all my life for some lovin and some gold" }
数据字段
- plain_text:
text
: 字符串类型
数据分割
- train: 74004228 样本
数据集创建
- 数据收集与规范化:
- 数据来源: smashwords.com
- 收集方式: 通过抓取软件下载
- 数据筛选: 免费且字数超过20,000的书籍
个人和敏感信息
- 作者通知情况: 作者未被通知数据收集
- 版权声明: 许多书籍包含版权限制,禁止重新分发
使用数据集的注意事项
- 数据集的潜在影响: 包含重复书籍和采样偏差
- 数据集的局限性: 未进行伦理审查,存在版权问题
附加信息
- 数据表: 已创建并发布在Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus
- 引用信息: bibtex @InProceedings{Zhu_2015_ICCV, title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books}, author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja}, booktitle = {The IEEE International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} }

OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录