five

biglam/atypical_animacy

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/atypical_animacy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于检测非典型生命性的数据集,基于19世纪英国图书馆数字化的书籍中的英文句子。数据集包含598个句子,每个句子都标注了目标表达的animacy(生命性)和humanness(人性化)属性。数据集主要用于文本分类任务,特别是情感分类和意图分类。数据集的创建过程包括手动注释,注释者来自多个学术机构。数据集的结构包括句子、上下文、目标表达、animacy、humanness等字段,并且只有一个训练集拆分。
提供机构:
biglam
原始信息汇总

数据集概述

数据集名称

  • 名称: Atypical Animacy

数据集描述

  • 语言: 英语 (en)
  • 许可证: CC0-1.0
  • 多语言性: 单语种
  • 大小: 小于1000条记录 (n<1K)
  • 来源: 原始数据集
  • 任务类别: 文本分类
  • 任务ID: 情感分类, 意图分类

数据集结构

  • 特征:
    • id: 字符串
    • sentence: 字符串
    • context: 字符串
    • target: 字符串
    • animacy: 浮点数 (float32)
    • humanness: 浮点数 (float32)
    • offsets: 整数列表 (int32)
    • date: 字符串
  • 数据分割:
    • 训练集: 594个样本, 数据大小442217字节

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 机器生成
  • 来源数据: 由英国图书馆数字化书籍手动注释生成
  • 注释过程: 分为两个阶段,第一阶段通过掩码方式让注释者选择最可能的实体类型,第二阶段根据特定标准评估目标实体的活性和人性
  • 注释者: Giorgia Tolfo, Ruth Ahnert, Kaspar Beelen, Mariona Coll Ardanuy, Jon Lawrence, Katherine McDonough, Federico Nanni, Daniel CS Wilson

使用考虑

  • 个人和敏感信息: 数据集不包含个人信息,部分内容可能敏感

附加信息

  • 数据集管理者: Kaspar Beelen, Mariona Coll Ardanuy, Federico Nanni, Giorgia Tolfo
  • 许可证信息: CC0 1.0 Universal Public Domain
  • 引用信息: 见提供的README文件内容中的引用部分
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作