pg19
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/pg19?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
PG-19主要用于语言建模基准测试,它包含从Project Gutenberg图书库中提取的1919年之前出版的一系列书籍,以及书籍标题和出版日期等元数据。数据集规模超过Billion Word基准的两倍,文档平均长度是WikiText长程语言建模基准的20倍。书籍被划分为训练集、验证集和测试集,元数据存储在包含book_id、short_book_title和publication_date的metadata.csv文件中。PG-19不限制词汇量大小,而是以开放词汇基准的形式发布数据,仅对文本进行了少量处理,例如删除样板许可文本,并将Ofcom指定的冒犯性歧视词映射到占位符。该数据集支持长程语言模型的基准测试,也可用于预训练其他需要长程推理的自然语言处理任务。PG-19采用Apache 2.0许可。
提供机构:
AIWizards
创建时间:
2024-07-19



