five

SDG Classification Benchmark

收藏
github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/SDGClassification/benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
SDG分类基准是一个开放和公共的基准数据集,用于评估和比较SDG分类模型。它由经过人类专家仔细标注和验证的文本片段(2-3句话)组成。

SDG Classification Benchmark is an open and public benchmark dataset for evaluating and comparing SDG classification models. It consists of text snippets (2-3 sentences) that have been carefully annotated and validated by human experts.
创建时间:
2024-02-18
原始信息汇总

数据集概述

数据集介绍

SDG分类基准数据集是一个公开的基准数据集,用于评估和比较SDG分类模型。该数据集包含经过人工专家团队仔细标注和验证的文本片段(2-3句话)。

数据集结构

数据集包含以下四列:

  • id: 每个文本的唯一标识符(MD5哈希)
  • text: 文本片段(2-3句话)
  • sdg: 文本对应的SDG编号
  • label: 如果文本中包含SDG内容则为True,否则为False

数据样本

以下是数据集的一个样本片段:

 id                                               text  sdg  label

03e9759 Not only does this have potentially negative e... 7 False 04f6c7f If too much water is stored behind the reservo... 7 False b87a4f8 Energy efficiency targets are now in place at ... 7 True 12e3f54 Data over the last 30 years suggests that, had... 7 True 135ea60 Large areas of about 500 000 km2 between Mumba... 7 False

数据集覆盖范围

数据集目前覆盖SDG 1至SDG 14,未来将扩展到其他SDG。

SDG 文本数量 包含SDG的文本 不包含SDG的文本
SDG 1: No poverty 77 27 50
SDG 2: Zero hunger 69 45 24
SDG 3: Good health and well-being 76 28 48
SDG 4: Quality education 82 43 39
SDG 5: Gender equality 69 35 34
SDG 6: Clean water and sanitation 85 48 37
SDG 7: Affordable and clean energy 100 50 50
SDG 8: Decent work and economic growth 74 38 36
SDG 9: Industry, innovation and infrastructure 57 28 29
SDG 10: Reduced inequalities 61 32 29
SDG 11: Sustainable cities and communities 69 27 42
SDG 12: Responsible consumption and production 80 43 37
SDG 13: Climate action 65 33 32
SDG 14: Life below water 84 35 49

数据集限制

  • 二元评估:仅评估文本是否直接涉及某个SDG,采用二元分类(True或False)。
  • 非详尽覆盖:数据集尝试涵盖每个SDG的广泛内容,但无法保证详尽覆盖所有相关问题。
  • 忽略情感:文本的情感和态度被忽略,即使内容是负面讨论,只要涉及SDG仍标记为True。
  • 非解释性:仅当文本直接涉及SDG及其目标时才进行标记,忽略间接相关性。

模型评估

评估结果

以下是一些模型在该基准数据集上的评估结果(准确率百分比):

模型 平均准确率 SDG 1 SDG 2 SDG 3 SDG 4 SDG 5 SDG 6 SDG 7 SDG 8 SDG 9 SDG 10 SDG 11 SDG 12 SDG 13 SDG 14
AFD SDG Prospector 89 95 87 91 95 81 92 95 89 86 87 90 84 89 83
Aurora SDG 80 79 83 80 79 93 81 85 81 70 70 81 76 86 81
Global Goals Directory 82 90 80 90 78 74 87 91 84 81 80 78 74 78 84
JRC SDG Mapper 78 82 71 84 70 75 73 86 77 77 70 75 79 83 82
Meta Llama 2 70B 84 90 83 93 90 93 87 93 78 74 79 68 80 91 84
Meta Llama 3 70B 86 77 90 86 85 91 92 91 80 84 92 84 84 92 81
Mixtral 8x7B 86 84 86 83 89 87 88 94 80 75 95 81 82 92 81
OSDG v1 72 87 56 70 80 64 84 82 77 56 72 71 71 66 77
OpenAI GPT-3.5 Turbo 81 65 93 82 80 87 91 90 76 68 87 71 79 91 76
OpenAI GPT-4 Turbo 85 75 93 86 84 88 92 92 77 79 92 77 85 94 80
OpenAI GPT-4o 88 79 94 82 84 94 93 93 80 84 93 88 86 94 82
text2sdg 84 91 74 82 88 93 85 91 85 82 79 80 75 91 82
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由1,251个短文本片段组成,每个片段包含2至3句话,涵盖了所有17个可持续发展目标(SDGs)。这些文本片段经过专家团队的精心标注和验证,确保了数据的高质量。为了确保标注的一致性,每个文本片段都由多名专家独立标注,并在出现分歧时通过讨论达成共识。此外,部分文本在标注过程中进行了轻微的修改以消除歧义,从而构建了一个高度可靠的基准数据集。
特点
该数据集的主要特点在于其全面性和精确性。首先,它涵盖了所有17个SDGs,确保了评估模型的广泛适用性。其次,数据集的标注过程经过多轮专家验证,确保了标签的准确性和一致性。此外,数据集的设计考虑了不同SDG的文本数量和分布,尽管存在不平衡,但仍提供了足够的多样性以评估模型的性能。最后,数据集的二元分类设计简化了评估过程,专注于文本是否直接涉及特定SDG。
使用方法
使用该数据集进行模型评估时,用户可以通过Python包'sdgclassification-benchmark'轻松实现。首先,安装该包并通过pip命令进行安装。随后,用户可以定义自己的'predict_sdgs'方法,该方法接收文本并返回相关的SDG列表。通过调用'Benchmark'类的'run'方法,用户可以运行基准测试并获取模型的准确性、精确度、召回率和F1分数等关键指标。此外,数据集还支持其他编程语言的使用,用户可以通过CSV读取器访问数据并进行模型预测与真实标签的比较。
背景与挑战
背景概述
SDG Classification Benchmark数据集是由SDG Classification Expert Group的Benchmarking Working Group创建的,旨在评估和比较可持续性发展目标(SDGs)分类模型的性能。该数据集包含1,251个短文本片段,涵盖所有17个SDGs,并由专家团队精心标注和验证。其核心研究问题在于通过公开的基准数据集,帮助研究人员和开发者更好地理解现有SDG分类工具的优缺点,从而推动更准确、可靠和可信的模型开发。该数据集的创建不仅提升了SDG分类领域的研究水平,还为全球可持续发展目标的实现提供了技术支持。
当前挑战
SDG Classification Benchmark数据集在构建过程中面临多项挑战。首先,确保文本标注的准确性和一致性是一个复杂的过程,需要多位专家的独立标注和后续的讨论与共识达成。其次,数据集的覆盖范围虽广泛,但无法保证对每个SDG相关问题的全面覆盖,这可能导致模型在特定领域的表现评估不全面。此外,数据集采用二元分类方法,忽略了文本中SDG引用的强度和情感,这可能影响模型对复杂文本的分类精度。最后,尽管数据集旨在评估模型的通用性能,但模型在特定领域或语言环境中的表现可能无法完全反映,这需要进一步的领域适应性研究。
常用场景
经典使用场景
SDG Classification Benchmark数据集的经典使用场景在于评估和比较不同可持续发展目标(SDGs)分类模型的性能。通过提供1,251个经过专家标注和验证的短文本片段,该数据集允许研究者和开发者测试其模型的准确性、精确度和召回率。例如,研究者可以使用Python包sdgclassification-benchmark,通过自定义的predict_sdgs方法对模型进行基准测试,从而获得详细的性能评估报告。
衍生相关工作
基于SDG Classification Benchmark数据集,已经衍生出多个相关工作,包括但不限于对不同语言模型(如OpenAI GPT系列和Meta Llama模型)的评估和比较。这些工作不仅展示了数据集在模型评估中的重要性,还推动了SDG分类领域的技术进步和标准化。
数据集最近研究
最新研究方向
在可持续发展目标(SDGs)分类领域,SDG Classification Benchmark数据集的最新研究方向主要集中在提升文本分类模型的准确性和可靠性。该数据集通过包含1,251个短文本片段,涵盖所有17个SDGs,为研究人员提供了一个全面的基准。前沿研究不仅关注模型的整体性能,如准确率、精确率和召回率,还特别强调了在不同SDG目标下的分类表现。此外,研究者们正致力于通过引入更复杂的模型架构和多模态数据处理技术,以提高对文本中SDG相关性的识别能力。这些努力不仅有助于更精确地评估现有模型的性能,也为未来开发更高效、更智能的SDG分类工具奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作