ruanchaves/stan_large
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/stan_large
下载链接
链接失效反馈官方服务:
资源简介:
STAN Large数据集是一个用于标签分割任务的数据集,包含12,594个独特的英语标签及其相关的推文。该数据集由专家精心策划,并对人工注释进行了额外的质量控制。数据集的结构包括标签、分割结果以及其他可接受的分割方案。数据集的创建过程涉及标签分割和标识符分割,且所有数据集都包含相同的基本字段。
提供机构:
ruanchaves
原始信息汇总
数据集概述
数据集名称
- 名称: STAN Large
数据集属性
- 语言: 英语
- 许可证: AGPL-3.0
- 多语言性: 单语种
- 来源: 原始数据
- 任务类别: 结构预测
- 标签: 词分割
数据集详情
数据集摘要
- 描述: STAN Large 是一个包含12,594个独特英语标签及其相关推文的数据集,由专家精心策划。该数据集旨在提供更高质量的人工标注,以减少先前数据集中发现的6.8%的标注错误。
语言
- 语言: 英语
数据集结构
数据实例
-
示例:
{ "index": 15, "hashtag": "PokemonPlatinum", "segmentation": "Pokemon Platinum", "alternatives": { "segmentation": [ "Pokemon platinum" ] } }
数据字段
index: 数值索引。hashtag: 原始标签。segmentation: 标签的金标准分割。alternatives: 其他也被接受为金标准分割的分割方式。
数据集创建
- 数据字段: 所有标签分割和标识分割数据集都包含基本字段:
hashtag和segmentation或identifier和segmentation。 - 差异:
hashtag和segmentation或identifier和segmentation之间的唯一区别是空格字符。拼写检查、缩写扩展或字符大写更正体现在其他字段中。
附加信息
- 贡献者: 该数据集由 @ruanchaves 添加,用于开发 hashformers 库。



