five

Skatinger/wikipedia-persons-masked

收藏
Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Skatinger/wikipedia-persons-masked
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是huggingface维基百科数据集的一个子集,包含约70,000行数据,每行数据都是关于维基百科上的一个人物。每行数据包含原始维基百科文本的句子,以及每个句子的改写版本。对于这两个版本,文本中的实体都被掩码处理。
提供机构:
Skatinger
原始信息汇总

数据集概述

数据集描述

  • 数据来源:本数据集是huggingface维基百科数据集的一个子集,包含约70,000行数据,每行数据关于维基百科上的一个人物。
  • 数据内容:每行包含原始维基百科文本的句子以及每个句子的改写版本。两种版本均包含关于实体的完整文本,但实体在文本中被屏蔽。

数据集特征

  • id:原始数据集中的标识符
  • url:维基百科页面的链接
  • title:维基百科页面的标题
  • text:原始维基百科文本
  • sentences:文本分割成的句子
  • paraphrased_sentences:文本分割成的句子,每个句子被改写
  • masked_text_original:原始文本中实体被屏蔽的版本
  • masked_entities_original:在masked_text_original中被屏蔽的实体数组
  • masked_text_paraphrased:改写文本中实体被屏蔽的版本
  • masked_entities_paraphrased:在masked_text_paraphrased中被屏蔽的实体数组

数据集属性

  • 语言:英语 (en)
  • 许可证:学术自由许可证3.0 (afl-3.0)
  • 多语言性:单语种
  • 数据集大小:10,000 < n < 100,000
  • 任务类别:填空 (fill-mask)
  • 任务ID:槽填充 (slot-filling)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作