biglam/cultural_heritage_metadata_accuracy

Name: biglam/cultural_heritage_metadata_accuracy
Creator: biglam
Published: 2024-01-08 15:40:03
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/biglam/cultural_heritage_metadata_accuracy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自意大利国家文化聚合器Cultura Italia的超过10万条文化项目的文本描述，每条描述根据其是否符合Istituto Centrale per il Catalogo e la Documentazione (ICCD)提供的标准编目指南被标记为高质量或低质量。数据集主要用于支持机器学习文本分类方法的训练和测试，以自动评估数字文化遗产库中文本描述的质量。

提供机构：

biglam

原始信息汇总

数据集概述

数据集名称

名称: Annotated dataset to assess the accuracy of the textual description of cultural heritage records

数据集描述

描述: 该数据集包含超过100,000条来自Cultura Italia的文化项目的文本描述。每条描述被标记为高质或低质，依据是是否遵循Istituto Centrale per il Catalogo e la Documentazione (ICCD)的标准编目指南。

语言

语言: 意大利语

许可证

许可证: cc-by-4.0

多语言性

多语言性: 单语种

大小分类

大小: 10K<n<100K

源数据集

源数据集: 原始数据

任务类别

任务类别: 文本分类

任务ID

任务ID: acceptability-classification

数据集结构

特征:
- metadata_text: 字符串类型，包含从Cultura Italia获取的元数据文本。
- label: 分类标签，包括High_Quality和Low_Quality。
- source: 字符串类型，记录元数据来源。
数据分割:
- train: 包含100,821个示例，总字节数为29,309,108。

数据集创建

注释创建者: 机器生成和专家生成
语言创建者: 专家生成
注释过程: 大部分数据集是手动注释的，约30,000条描述由于长度（少于3个令牌）或来自2012年以前的未整理集合而被自动标记为低质。

使用数据集的考虑

社会影响: 未详细说明
偏见讨论: 未详细说明
其他已知限制: 未详细说明

附加信息

数据集管理员: Matteo Lorenzini, Marco Rospocher, Sara Tonelli
贡献者: @davanstrien

5,000+

优质数据集

54 个

任务类型

进入经典数据集