five

biglam/cultural_heritage_metadata_accuracy

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/cultural_heritage_metadata_accuracy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自意大利国家文化聚合器Cultura Italia的超过10万条文化项目的文本描述,每条描述根据其是否符合Istituto Centrale per il Catalogo e la Documentazione (ICCD)提供的标准编目指南被标记为高质量或低质量。数据集主要用于支持机器学习文本分类方法的训练和测试,以自动评估数字文化遗产库中文本描述的质量。
提供机构:
biglam
原始信息汇总

数据集概述

数据集名称

  • 名称: Annotated dataset to assess the accuracy of the textual description of cultural heritage records

数据集描述

  • 描述: 该数据集包含超过100,000条来自Cultura Italia的文化项目的文本描述。每条描述被标记为高质或低质,依据是是否遵循Istituto Centrale per il Catalogo e la Documentazione (ICCD)的标准编目指南。

语言

  • 语言: 意大利语

许可证

  • 许可证: cc-by-4.0

多语言性

  • 多语言性: 单语种

大小分类

  • 大小: 10K<n<100K

源数据集

  • 源数据集: 原始数据

任务类别

  • 任务类别: 文本分类

任务ID

  • 任务ID: acceptability-classification

数据集结构

  • 特征:
    • metadata_text: 字符串类型,包含从Cultura Italia获取的元数据文本。
    • label: 分类标签,包括High_QualityLow_Quality
    • source: 字符串类型,记录元数据来源。
  • 数据分割:
    • train: 包含100,821个示例,总字节数为29,309,108。

数据集创建

  • 注释创建者: 机器生成和专家生成
  • 语言创建者: 专家生成
  • 注释过程: 大部分数据集是手动注释的,约30,000条描述由于长度(少于3个令牌)或来自2012年以前的未整理集合而被自动标记为低质。

使用数据集的考虑

  • 社会影响: 未详细说明
  • 偏见讨论: 未详细说明
  • 其他已知限制: 未详细说明

附加信息

  • 数据集管理员: Matteo Lorenzini, Marco Rospocher, Sara Tonelli
  • 贡献者: @davanstrien
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作