five

robotics-arxiv-sustainability-classification

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/sustainable-robotics/robotics-arxiv-sustainability-classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集汇集了来自arXiv的机器人学论文的可持续性注释,涵盖2015年至2026年初的48,000多篇论文。数据集基于arXiv的'cs.RO'类别论文,通过大型语言模型(Deepseek v3)分析每篇论文的全文,提取与联合国可持续发展目标(SDGs)相关的信息。数据集包含论文的基本信息(如ID、标题、作者、出版日期)以及可持续性相关分类字段,包括论文是否提及社会影响、生态影响、可持续性影响或联合国SDGs,以及论文所对齐和受激励的具体SDGs列表。该数据集旨在为可持续机器人学研究提供初步分析基础,但需注意其分类结果基于LLM的理解,并非专家评估的最终结论。

This dataset aggregates sustainability annotations for robotics papers sourced from arXiv, comprising over 48,000 papers published between 2015 and early 2026. Built upon papers in the arXiv "cs.RO" category, the dataset analyzes the full text of each paper via the Large Language Model (LLM) Deepseek v3 to extract information relevant to the United Nations Sustainable Development Goals (SDGs). The dataset includes basic paper metadata (e.g., ID, title, authors, publication date) and sustainability-related classification fields, such as whether the paper mentions social impacts, ecological impacts, sustainability impacts, or UN SDGs, as well as the specific list of SDGs that the paper aligns with or is motivated by. This dataset aims to provide a preliminary analytical foundation for sustainable robotics research, but it should be noted that its classification results are based on LLM understanding and are not the final conclusions evaluated by experts.
创建时间:
2026-03-11
原始信息汇总

数据集概述:Sustainability Classified ArXiv Robotics Research Dataset

基本信息

  • 数据集名称:Sustainability Classified ArXiv Robotics Research Dataset
  • 任务类别:文本分类
  • 主要语言:英语
  • 标签:气候、科学、机器人技术、arXiv、论文、可持续性
  • 数据规模:10K < n < 100K
  • 许可证:Apache-2.0

数据来源与范围

  • 数据提取自arXiv数据库中cs.RO类别的论文。
  • 涵盖时间范围:从2015年至2026年初。
  • 论文数量:超过48,000篇。

数据集结构

每条记录基于一篇输入论文对象,包含以下字段:

基础字段

  • id:论文在arXiv上的URL地址。
  • title:论文标题。
  • authors:作者姓名列表。
  • published:出版日期(ISO格式:YYYY-MM-DD)。

可持续性分类字段

  • sdg_analysis:输入论文中sdg_analysis字段的原始文本。
  • aligned_with_sdgs:从sdg_analysis第1部分提取的可持续发展目标列表。
  • motivated_by_sdgs:从sdg_analysis第2部分提取的可持续发展目标列表。
  • mentions_social_impact:布尔标志,指示论文是否在sdg_analysis中提及社会影响。
  • mentions_ecological_impact:布尔标志,指示论文是否在sdg_analysis中提及生态影响。
  • mentions_sustainability_impact:布尔标志,指示论文是否在sdg_analysis中提及可持续性影响。
  • mentions_un_sdgs:布尔标志,指示论文是否在sdg_analysis中提及联合国可持续发展目标。

生成方法

  • 每篇论文的全文通过自定义提示传递给大型语言模型进行信息提取。
  • 使用的模型:Deepseek v3。
  • 提取的信息经过解析并结构化,形成最终的数据集格式。

分类依据

  • 分类基于论文中sdg_analysis字段是否包含与可持续性相关的内容。
  • 参考框架:联合国可持续发展目标。

相关资源

使用说明

  • 该数据集并非由可持续性领域的专家创建,可能存在不完美之处。
  • 它基于大型语言模型对文本的理解,是对论文中可持续性相关内容的近似评估。
  • 旨在作为进一步分析和研究的起点,而非对论文的最终分类。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作