Skatinger/wikipedia-persons-masked
收藏Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Skatinger/wikipedia-persons-masked
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是huggingface维基百科数据集的一个子集,包含约70,000行数据,每行数据都是关于维基百科上的一个人物。每行数据包含原始维基百科文本的句子,以及每个句子的改写版本。对于这两个版本,文本中的实体都被掩码处理。
提供机构:
Skatinger
原始信息汇总
数据集概述
数据集描述
- 数据来源:本数据集是huggingface维基百科数据集的一个子集,包含约70,000行数据,每行数据关于维基百科上的一个人物。
- 数据内容:每行包含原始维基百科文本的句子以及每个句子的改写版本。两种版本均包含关于实体的完整文本,但实体在文本中被屏蔽。
数据集特征
- id:原始数据集中的标识符
- url:维基百科页面的链接
- title:维基百科页面的标题
- text:原始维基百科文本
- sentences:文本分割成的句子
- paraphrased_sentences:文本分割成的句子,每个句子被改写
- masked_text_original:原始文本中实体被屏蔽的版本
- masked_entities_original:在
masked_text_original中被屏蔽的实体数组 - masked_text_paraphrased:改写文本中实体被屏蔽的版本
- masked_entities_paraphrased:在
masked_text_paraphrased中被屏蔽的实体数组
数据集属性
- 语言:英语 (
en) - 许可证:学术自由许可证3.0 (
afl-3.0) - 多语言性:单语种
- 数据集大小:10,000 < n < 100,000
- 任务类别:填空 (
fill-mask) - 任务ID:槽填充 (
slot-filling)



