five

sa-data|艺术史研究数据集|自然语言处理数据集

收藏
huggingface2025-03-13 更新2025-03-14 收录
艺术史研究
自然语言处理
下载链接:
https://huggingface.co/datasets/phalanx80/sa-data
下载链接
链接失效反馈
资源简介:
SA-数据集是一个结构化的数据集,包含了《艺术史》杂志的数字化文章和丰富的元数据以及语义表示。这个数据集旨在支持学术研究和自然语言处理应用。它包括1050篇文章,发布时间从1969年到2023年。每篇文章都有描述性元数据(如标题、作者、发布年份、语言)和定量元数据(如单词数和字符数)。此外,数据集还提供了自动提取的实体(如艺术家、地点和主题)、自动生成的摘要和用于语义检索的向量嵌入。
创建时间:
2025-03-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
SA-Data数据集的构建采用数字化与语义增强的方式,对《Storia dell'Arte》杂志的文章进行结构化处理,赋予详尽的元数据描述及语义表示。该数据集整合了1969年至2023年间发表的1050篇文章,每篇文章均被赋予标题、作者、发表年份、语言等描述性元数据,并辅以词数、字符数等量化信息。通过自动化的NLP系统,数据集进一步提取了关键实体如艺术家、地点和主题,并自动生成摘要,以及构建了用于语义检索的向量嵌入表示。
使用方法
用户可以通过Hugging Face的datasets库直接加载SA-Data数据集。数据集以CSV格式提供,包含了文章的唯一标识符、标题、作者、发表年份等信息。对于文本内容,数据集提供了TXT和PDF格式的访问路径,用户可以根据需要下载完整的文章。此外,数据集中的向量嵌入可用于构建高效的内容检索系统。
背景与挑战
背景概述
SA-Data数据集,亦称为艺术史数据集,是在学术研究领域具有重要地位的一项成果。该数据集由意大利罗马大学Sapienza的Paolo De Gasperis和Antonella Sbrilli共同创建,旨在为艺术史研究及自然语言处理应用提供支持。自1969年起至2023年,数据集涵盖了《Storia dell'Arte》期刊的1050篇文章,每篇文章均配备了详细的描述性元数据和量化元数据,并利用先进的技术手段提取了相关实体和自动生成了摘要。其研究背景主要聚焦于艺术史文献的数字化和语义化表示,为相关领域的学者和研究人员提供了宝贵的资源。
当前挑战
数据集构建过程中面临的挑战主要包括对大量历史文献的数字化处理、高精度实体识别、自动摘要生成以及向量嵌入表示的构建。此外,所解决的领域问题,即艺术史文献的语义检索和信息提取,也面临着如何有效整合多语言信息、提高跨语言检索的准确性和效率等挑战。
常用场景
经典使用场景
在数字人文领域,SA-Data数据集的经典使用场景在于为艺术史研究提供结构化的文本资源和丰富的元数据。该数据集支持研究者对艺术史文献的深入分析,包括但不限于文献内容的语义检索、文本挖掘和主题建模等。通过内嵌的向量表示,实现了基于语义的文本检索,使得研究者能够高效地找到相关文献资源。
解决学术问题
SA-Data数据集解决了艺术史研究中文献资料分散、检索困难的问题。它提供了详细的元数据和实体识别信息,帮助学者快速定位研究资料,提高学术研究的效率。此外,通过自动生成的摘要和关键词,数据集进一步促进了学术文献的可发现性和可访问性。
实际应用
实际应用中,SA-Data数据集可用于构建艺术史领域的知识图谱,支持在线教育平台的内容开发,以及提供语义搜索服务,使艺术爱好者能够更便捷地探索艺术史资料。其丰富的文本和元数据也为自然语言处理领域的研究提供了宝贵的资源,例如用于训练文本分类和命名实体识别模型。
数据集最近研究
最新研究方向
SA-Data数据集近期在艺术史研究领域中,推动了文本分类与语义检索任务的发展。其独特的结构化元数据与自动生成的摘要,为艺术家识别、地点提及以及主题分析提供了重要资源,使得研究者在探索艺术作品的语义关系和知识发现方面取得了新的进展。此外,该数据集提供的向量嵌入技术,为构建艺术史领域的智能检索系统提供了技术支持,对于促进艺术史学科的信息化与智能化具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

ApolloScape Dataset

ApolloScape数据集是用于自动驾驶研究的开源数据集,包括轨迹预测、3D激光雷达物体检测与跟踪、场景解析、车道分割、自定位、3D车辆实例、立体视觉和修复等多个方面,旨在促进自动驾驶技术的创新和发展。

github 收录

WHO Drug

WHO Drug数据集包含了世界卫生组织(WHO)发布的药物信息,包括药物的通用名称、国际非专利名称(INN)、化学名称、分子式、分子量、CAS登记号等详细信息。该数据集旨在为全球的药物研究和监管提供标准化的药物信息。

www.who.int 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录