ruanchaves/hashset_manual
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/hashset_manual
下载链接
链接失效反馈官方服务:
资源简介:
HashSet Manual是一个新的数据集,包含1.9k手动标注和3.3M松散监督的推文,用于测试标签分割模型的效率。数据集支持印地语和英语,主要用于命名实体识别和结构预测任务。每个数据实例包含标签、分割、命名实体标注、是否包含印地语和英语混合标记、是否包含非英语标记等信息。
提供机构:
ruanchaves
原始信息汇总
数据集概述
- 名称: HashSet Manual
- 语言: 主要为印地语和英语
- 许可证: 未知
- 多语言性: 多语言
- 数据集大小: 未知
- 源数据集: 原始数据
- 任务类别: 结构预测
- 任务ID: 命名实体识别
- 标签: 词分割
数据集详细信息
数据集总结
- 内容: 包含1.9k手动标注的推特标签,用于测试标签分割模型的效率。
- 比较: 与STAN和BOUN等基准数据集比较,分析结果以证明HashSet可作为标签分割任务的良好基准。
数据集结构
数据实例
- 字段:
index: 索引hashtag: 原始标签segmentation: 标签的黄金分割spans: 命名实体范围source: 数据来源gold_position: 黄金分割在rank中的位置mix: 是否包含英语和印地语混合other: 是否包含非英语字符ner: 是否包含命名实体annotator_id: 标注者IDannotation_id: 标注IDcreated_at: 创建时间戳updated_at: 更新时间戳lead_time: 领导时间字段rank: 候选者的排名candidates: 由基线词分割器选择的候选者
数据集创建
- 字段一致性: 所有标签分割和标识分割数据集共享基本字段:
hashtag和segmentation或identifier和segmentation。 - 分割规则: 在字母数字字符和任何特殊字符序列之间始终有空格。
- 命名实体和其他分类任务的标注: 在
spans字段中提供。



