five

rcds/wikipedia-persons-masked

收藏
Hugging Face2022-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rcds/wikipedia-persons-masked
下载链接
链接失效反馈
官方服务:
资源简介:
wikipedia persons masked数据集是一个经过筛选的维基百科数据集,仅包含约7万个描述人物的页面。每个页面的文本中,描述的人物名称被<mask>标记替换,提供了每个掩码的正确答案。此数据集支持fill-mask任务,并可用于问答等其他任务。数据集仅包含英文内容,大小在10M到100M之间。
提供机构:
rcds
原始信息汇总

数据集概述

数据集名称

  • 名称: wikipedia persons masked
  • 描述: 一个经过筛选的维基百科数据集版本,仅包含人物页面。

数据集属性

  • 语言: 英语
  • 许可证: cc-by-4.0
  • 多语言性: 多语言(实际仅英语)
  • 大小: 10M<n<100M
  • 任务类别: fill-mask

数据集内容

  • 概述: 包含约7万个维基百科页面,每个页面描述一个人物。每个页面的文本中的人物描述被<mask>标记替换,并提供每个标记的实际内容。
  • 支持任务: 主要支持fill-mask任务,也可用于问答等其他任务。

数据集结构

  • 文件: 一个大型数据集文件(dataset.jsonl.xz),包含所有数据。
  • 数据字段:
    • id: 原始数据集中的ID
    • url: 维基百科页面的链接
    • title: 维基百科页面的标题
    • text: 原始维基百科文本
    • sentences: 文本分割成的句子
    • paraphrased_sentences: 文本分割成的句子,每个句子经过改写
    • masked_text_original: 原始文本中实体被<mask>替换的部分
    • masked_entities_original: masked_text_original中被替换的实体数组
    • masked_text_paraphrased: 改写文本中实体被<mask>替换的部分
    • masked_entities_paraphrased: masked_text_paraphrased中被替换的实体数组

数据集创建

  • 来源: 使用huggingface的维基百科数据集,通过wikidata查询人物信息,使用nltk punkt分割文本,tunner007的pegasus进行句子改写,dslim的bert-base-NER进行实体识别并替换为<mask>标记。

许可证信息

  • 许可证: cc-by-4.0

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作