bs-modeling-metadata/OSCAR_Entity_13_000
收藏Hugging Face2021-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bs-modeling-metadata/OSCAR_Entity_13_000
下载链接
链接失效反馈官方服务:
资源简介:
数据集以json lines文件形式存在,包含10,657个示例。每个示例由文本(从OSCAR未打乱的英语数据集的前13,000行中提取)和元数据字段(实体)组成。示例的结构包括文本和元数据,元数据中包含实体的键、类型、字符起始和结束索引以及实体的值。
提供机构:
bs-modeling-metadata
原始信息汇总
数据集概述
数据集格式与大小
- 数据集为JSON Lines格式,包含10,657个示例。
示例结构
- 文本内容:提取自OSCAR unshuffled English数据集的前13,000行文本。
- 元数据(实体):
- 字段:
key:固定为"entity"。type:固定为"local"。char_start_idx:实体在文本中的起始字符索引。char_end_idx:实体在文本中的结束字符索引。value:实体的具体值。
- 示例: json { "key": "entity", "type": "local", "char_start_idx": 80, "char_end_idx": 88, "value": "Midlands" }
- 字段:



