biglam/cultural_heritage_metadata_accuracy
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/cultural_heritage_metadata_accuracy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自意大利国家文化聚合器Cultura Italia的超过10万条文化项目的文本描述,每条描述根据其是否符合Istituto Centrale per il Catalogo e la Documentazione (ICCD)提供的标准编目指南被标记为高质量或低质量。数据集主要用于支持机器学习文本分类方法的训练和测试,以自动评估数字文化遗产库中文本描述的质量。
提供机构:
biglam
原始信息汇总
数据集概述
数据集名称
- 名称: Annotated dataset to assess the accuracy of the textual description of cultural heritage records
数据集描述
- 描述: 该数据集包含超过100,000条来自Cultura Italia的文化项目的文本描述。每条描述被标记为高质或低质,依据是是否遵循Istituto Centrale per il Catalogo e la Documentazione (ICCD)的标准编目指南。
语言
- 语言: 意大利语
许可证
- 许可证: cc-by-4.0
多语言性
- 多语言性: 单语种
大小分类
- 大小: 10K<n<100K
源数据集
- 源数据集: 原始数据
任务类别
- 任务类别: 文本分类
任务ID
- 任务ID: acceptability-classification
数据集结构
- 特征:
metadata_text: 字符串类型,包含从Cultura Italia获取的元数据文本。label: 分类标签,包括High_Quality和Low_Quality。source: 字符串类型,记录元数据来源。
- 数据分割:
train: 包含100,821个示例,总字节数为29,309,108。
数据集创建
- 注释创建者: 机器生成和专家生成
- 语言创建者: 专家生成
- 注释过程: 大部分数据集是手动注释的,约30,000条描述由于长度(少于3个令牌)或来自2012年以前的未整理集合而被自动标记为低质。
使用数据集的考虑
- 社会影响: 未详细说明
- 偏见讨论: 未详细说明
- 其他已知限制: 未详细说明
附加信息
- 数据集管理员: Matteo Lorenzini, Marco Rospocher, Sara Tonelli
- 贡献者: @davanstrien



