biglam/atypical_animacy
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/atypical_animacy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于检测非典型生命性的数据集,基于19世纪英国图书馆数字化的书籍中的英文句子。数据集包含598个句子,每个句子都标注了目标表达的animacy(生命性)和humanness(人性化)属性。数据集主要用于文本分类任务,特别是情感分类和意图分类。数据集的创建过程包括手动注释,注释者来自多个学术机构。数据集的结构包括句子、上下文、目标表达、animacy、humanness等字段,并且只有一个训练集拆分。
提供机构:
biglam
原始信息汇总
数据集概述
数据集名称
- 名称: Atypical Animacy
数据集描述
- 语言: 英语 (
en) - 许可证: CC0-1.0
- 多语言性: 单语种
- 大小: 小于1000条记录 (
n<1K) - 来源: 原始数据集
- 任务类别: 文本分类
- 任务ID: 情感分类, 意图分类
数据集结构
- 特征:
- id: 字符串
- sentence: 字符串
- context: 字符串
- target: 字符串
- animacy: 浮点数 (float32)
- humanness: 浮点数 (float32)
- offsets: 整数列表 (int32)
- date: 字符串
- 数据分割:
- 训练集: 594个样本, 数据大小442217字节
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 机器生成
- 来源数据: 由英国图书馆数字化书籍手动注释生成
- 注释过程: 分为两个阶段,第一阶段通过掩码方式让注释者选择最可能的实体类型,第二阶段根据特定标准评估目标实体的活性和人性
- 注释者: Giorgia Tolfo, Ruth Ahnert, Kaspar Beelen, Mariona Coll Ardanuy, Jon Lawrence, Katherine McDonough, Federico Nanni, Daniel CS Wilson
使用考虑
- 个人和敏感信息: 数据集不包含个人信息,部分内容可能敏感
附加信息
- 数据集管理者: Kaspar Beelen, Mariona Coll Ardanuy, Federico Nanni, Giorgia Tolfo
- 许可证信息: CC0 1.0 Universal Public Domain
- 引用信息: 见提供的README文件内容中的引用部分



