rcds/wikipedia-persons-masked
收藏Hugging Face2022-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rcds/wikipedia-persons-masked
下载链接
链接失效反馈官方服务:
资源简介:
wikipedia persons masked数据集是一个经过筛选的维基百科数据集,仅包含约7万个描述人物的页面。每个页面的文本中,描述的人物名称被<mask>标记替换,提供了每个掩码的正确答案。此数据集支持fill-mask任务,并可用于问答等其他任务。数据集仅包含英文内容,大小在10M到100M之间。
提供机构:
rcds
原始信息汇总
数据集概述
数据集名称
- 名称: wikipedia persons masked
- 描述: 一个经过筛选的维基百科数据集版本,仅包含人物页面。
数据集属性
- 语言: 英语
- 许可证: cc-by-4.0
- 多语言性: 多语言(实际仅英语)
- 大小: 10M<n<100M
- 任务类别: fill-mask
数据集内容
- 概述: 包含约7万个维基百科页面,每个页面描述一个人物。每个页面的文本中的人物描述被<mask>标记替换,并提供每个标记的实际内容。
- 支持任务: 主要支持fill-mask任务,也可用于问答等其他任务。
数据集结构
- 文件: 一个大型数据集文件(dataset.jsonl.xz),包含所有数据。
- 数据字段:
- id: 原始数据集中的ID
- url: 维基百科页面的链接
- title: 维基百科页面的标题
- text: 原始维基百科文本
- sentences: 文本分割成的句子
- paraphrased_sentences: 文本分割成的句子,每个句子经过改写
- masked_text_original: 原始文本中实体被<mask>替换的部分
- masked_entities_original: masked_text_original中被替换的实体数组
- masked_text_paraphrased: 改写文本中实体被<mask>替换的部分
- masked_entities_paraphrased: masked_text_paraphrased中被替换的实体数组
数据集创建
- 来源: 使用huggingface的维基百科数据集,通过wikidata查询人物信息,使用nltk punkt分割文本,tunner007的pegasus进行句子改写,dslim的bert-base-NER进行实体识别并替换为<mask>标记。
许可证信息
- 许可证: cc-by-4.0
贡献者
- 贡献者: @skatinger



