WikiSplit Dataset
收藏WikiSplit Dataset 概述
数据集描述
WikiSplit 数据集由 Google 自动从公开的 Wikipedia 修订历史中构建,包含一百万个英语句子,每个句子被分割成两个句子,这两个句子共同保留了原始句子的意义。该数据集适用于训练句子分割或合并的模型,尽管存在一些固有噪声。
数据集构建与使用
详细的数据集构建方法和用于模型训练的使用情况,请参阅相关论文:Learning to Split and Rephrase From Wikipedia Edit History。
引用信息
若在工作中使用或讨论此数据集,请引用以下论文:
@InProceedings{BothaEtAl2018, title = {Learning To Split and Rephrase From Wikipedia Edit History}, author = {Botha, Jan A and Faruqui, Manaal and Alex, John and Baldridge, Jason and Das, Dipanjan}, booktitle = {Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing}, pages = {to appear}, note = {arXiv preprint arXiv:1808.09468}, year = {2018} }
数据格式
数据集以文本文件形式发布,格式为制表符分隔值(TSV),具体格式如下:
| 列 | 含义 |
|---|---|
| 1 | 未分割的单个句子 |
| 2 | 分割后的句子,由字符串 <::::> 分隔 |
句子已在标点处进行了分词。
数据集统计
| 部分 | 实例数 | 词数 | 词汇量 |
|---|---|---|---|
| train.tsv | 989,944 | 33,084,465 | 632,588 |
| tune.tsv | 5,000 | 167,456 | 25,871 |
| validation.tsv | 5,000 | 166,628 | 25,251 |
| test.tsv | 5,000 | 167,853 | 25,386 |
*词数和词汇量统计基于未分割的句子。
性能评估
在 WebSplit 1.0 基准测试中,使用 WikiSplit 数据集进行模型训练,结果显示模型泛化能力得到提升,且在 WebSplit 1.0 测试集上的输出显著改善。具体性能对比请参阅论文。
许可证
WikiSplit 数据集是公开的 Wikipedia 修订历史内容的直接复制,因此根据 CC BY-SA 4.0 许可。任何第三方内容或数据均按“原样”提供,不附带任何明示或暗示的保证。




