rcds/wikipedia-for-mask-filling
收藏Hugging Face2023-03-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rcds/wikipedia-for-mask-filling
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个预处理的维基百科页面数据集,专门用于填充掩码任务。数据集包含约70,000个维基百科页面,每个页面描述一个人物,并将描述中的人物名称用<mask>标记替换。每个数据行包含一个维基百科页面的一部分,文本块的大小由参数限制,每个掩码的预期名称也提供了。数据集支持填充掩码任务,也可用于其他任务如问答。数据集仅包含英文内容,数据字段包括文本块和每个掩码的名称。数据集的创建使用了特定的分词器,并确保分词时不会将单词分割。
This is a preprocessed Wikipedia page dataset specifically designed for masked filling tasks. The dataset contains approximately 70,000 Wikipedia pages, each describing a single individual, where the person's name in the description is replaced with the <mask> token. Each data row contains a segment of a Wikipedia page, with the size of each text chunk constrained by specified parameters, and the expected name corresponding to each mask is also provided. This dataset supports masked filling tasks, and can also be applied to other downstream tasks such as question answering. The dataset only contains English content, with its data fields including text chunks and the name for each mask. The dataset was created using a dedicated tokenizer, which ensures that no word is split during the tokenization process.
提供机构:
rcds
原始信息汇总
数据集概述
- 名称: wikipedia pages chunked for fill-mask
- 预处理版本: preprocessed version of rcds/wikipedia-persons-masked
- 语言: 英语
- 许可证: cc-by-4.0
- 多语言性: 单语
- 任务类别: fill-mask
- 数据集大小: 10M<n<100M
- 源数据集: 原始数据
- 数据集结构: 包含不同版本的完整数据集,包括原始和改写版本,以及按4096和512个令牌分块的版本。
数据集详细信息
数据集摘要
- 内容: 包含约7万个维基百科页面,每个页面描述一个人物。文本中描述的人物被<mask>标记替换,每个掩码的真实值已提供。
- 结构: 每行包含维基页面的一个部分,由大小参数指定,限制每个文本块的最大令牌数。
支持的任务和排行榜
- 主要任务: fill-mask
- 其他用途: 也可用于问答任务,例如“<mask>是谁?”
数据集结构
- 数据字段:
- texts: 文本块
- masks: 块中每个掩码的名称
- 数据分割: 无分割,仅默认训练集。
数据集创建
- 创建方法: 使用allenai/longformer-base-4096的令牌器创建每块4096个令牌的版本,使用xml-roberta-large令牌器创建每块512个令牌的版本。
- 改进建议: 页面最后一个块可能非常短,可以合并前一个部分以增加最后一个块的令牌数。
使用示例
python from datasets import load_dataset
dataset = load_dataset(rcds/wikipedia-persons-masked, split=train, type=original, size=512)
贡献者
- 贡献者: @skatinger



