SDG Classification Benchmark

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/SDGClassification/benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

SDG分类基准是一个开放和公共的基准数据集，用于评估和比较SDG分类模型。它由经过人类专家仔细标注和验证的文本片段（2-3句话）组成。

SDG Classification Benchmark is an open and public benchmark dataset for evaluating and comparing SDG classification models. It consists of text snippets (2-3 sentences) that have been carefully annotated and validated by human experts.

创建时间：

2024-02-18

原始信息汇总

数据集概述

数据集介绍

SDG分类基准数据集是一个公开的基准数据集，用于评估和比较SDG分类模型。该数据集包含经过人工专家团队仔细标注和验证的文本片段（2-3句话）。

数据集结构

数据集包含以下四列：

id: 每个文本的唯一标识符（MD5哈希）
text: 文本片段（2-3句话）
sdg: 文本对应的SDG编号
label: 如果文本中包含SDG内容则为True，否则为False

数据样本

以下是数据集的一个样本片段：

 id                                               text  sdg  label

03e9759 Not only does this have potentially negative e... 7 False 04f6c7f If too much water is stored behind the reservo... 7 False b87a4f8 Energy efficiency targets are now in place at ... 7 True 12e3f54 Data over the last 30 years suggests that, had... 7 True 135ea60 Large areas of about 500 000 km2 between Mumba... 7 False

数据集覆盖范围

数据集目前覆盖SDG 1至SDG 14，未来将扩展到其他SDG。

SDG	文本数量	包含SDG的文本	不包含SDG的文本
SDG 1: No poverty	77	27	50
SDG 2: Zero hunger	69	45	24
SDG 3: Good health and well-being	76	28	48
SDG 4: Quality education	82	43	39
SDG 5: Gender equality	69	35	34
SDG 6: Clean water and sanitation	85	48	37
SDG 7: Affordable and clean energy	100	50	50
SDG 8: Decent work and economic growth	74	38	36
SDG 9: Industry, innovation and infrastructure	57	28	29
SDG 10: Reduced inequalities	61	32	29
SDG 11: Sustainable cities and communities	69	27	42
SDG 12: Responsible consumption and production	80	43	37
SDG 13: Climate action	65	33	32
SDG 14: Life below water	84	35	49

数据集限制

二元评估：仅评估文本是否直接涉及某个SDG，采用二元分类（True或False）。
非详尽覆盖：数据集尝试涵盖每个SDG的广泛内容，但无法保证详尽覆盖所有相关问题。
忽略情感：文本的情感和态度被忽略，即使内容是负面讨论，只要涉及SDG仍标记为True。
非解释性：仅当文本直接涉及SDG及其目标时才进行标记，忽略间接相关性。

模型评估

评估结果

以下是一些模型在该基准数据集上的评估结果（准确率百分比）：

模型	平均准确率	SDG 1	SDG 2	SDG 3	SDG 4	SDG 5	SDG 6	SDG 7	SDG 8	SDG 9	SDG 10	SDG 11	SDG 12	SDG 13	SDG 14
AFD SDG Prospector	89	95	87	91	95	81	92	95	89	86	87	90	84	89	83
Aurora SDG	80	79	83	80	79	93	81	85	81	70	70	81	76	86	81
Global Goals Directory	82	90	80	90	78	74	87	91	84	81	80	78	74	78	84
JRC SDG Mapper	78	82	71	84	70	75	73	86	77	77	70	75	79	83	82
Meta Llama 2 70B	84	90	83	93	90	93	87	93	78	74	79	68	80	91	84
Meta Llama 3 70B	86	77	90	86	85	91	92	91	80	84	92	84	84	92	81
Mixtral 8x7B	86	84	86	83	89	87	88	94	80	75	95	81	82	92	81
OSDG v1	72	87	56	70	80	64	84	82	77	56	72	71	71	66	77
OpenAI GPT-3.5 Turbo	81	65	93	82	80	87	91	90	76	68	87	71	79	91	76
OpenAI GPT-4 Turbo	85	75	93	86	84	88	92	92	77	79	92	77	85	94	80
OpenAI GPT-4o	88	79	94	82	84	94	93	93	80	84	93	88	86	94	82
text2sdg	84	91	74	82	88	93	85	91	85	82	79	80	75	91	82

搜集汇总

数据集介绍

构建方式

该数据集由1,251个短文本片段组成，每个片段包含2至3句话，涵盖了所有17个可持续发展目标（SDGs）。这些文本片段经过专家团队的精心标注和验证，确保了数据的高质量。为了确保标注的一致性，每个文本片段都由多名专家独立标注，并在出现分歧时通过讨论达成共识。此外，部分文本在标注过程中进行了轻微的修改以消除歧义，从而构建了一个高度可靠的基准数据集。

特点

该数据集的主要特点在于其全面性和精确性。首先，它涵盖了所有17个SDGs，确保了评估模型的广泛适用性。其次，数据集的标注过程经过多轮专家验证，确保了标签的准确性和一致性。此外，数据集的设计考虑了不同SDG的文本数量和分布，尽管存在不平衡，但仍提供了足够的多样性以评估模型的性能。最后，数据集的二元分类设计简化了评估过程，专注于文本是否直接涉及特定SDG。

使用方法

使用该数据集进行模型评估时，用户可以通过Python包'sdgclassification-benchmark'轻松实现。首先，安装该包并通过pip命令进行安装。随后，用户可以定义自己的'predict_sdgs'方法，该方法接收文本并返回相关的SDG列表。通过调用'Benchmark'类的'run'方法，用户可以运行基准测试并获取模型的准确性、精确度、召回率和F1分数等关键指标。此外，数据集还支持其他编程语言的使用，用户可以通过CSV读取器访问数据并进行模型预测与真实标签的比较。

背景与挑战

背景概述

SDG Classification Benchmark数据集是由SDG Classification Expert Group的Benchmarking Working Group创建的，旨在评估和比较可持续性发展目标（SDGs）分类模型的性能。该数据集包含1,251个短文本片段，涵盖所有17个SDGs，并由专家团队精心标注和验证。其核心研究问题在于通过公开的基准数据集，帮助研究人员和开发者更好地理解现有SDG分类工具的优缺点，从而推动更准确、可靠和可信的模型开发。该数据集的创建不仅提升了SDG分类领域的研究水平，还为全球可持续发展目标的实现提供了技术支持。

当前挑战

SDG Classification Benchmark数据集在构建过程中面临多项挑战。首先，确保文本标注的准确性和一致性是一个复杂的过程，需要多位专家的独立标注和后续的讨论与共识达成。其次，数据集的覆盖范围虽广泛，但无法保证对每个SDG相关问题的全面覆盖，这可能导致模型在特定领域的表现评估不全面。此外，数据集采用二元分类方法，忽略了文本中SDG引用的强度和情感，这可能影响模型对复杂文本的分类精度。最后，尽管数据集旨在评估模型的通用性能，但模型在特定领域或语言环境中的表现可能无法完全反映，这需要进一步的领域适应性研究。

常用场景

经典使用场景

SDG Classification Benchmark数据集的经典使用场景在于评估和比较不同可持续发展目标（SDGs）分类模型的性能。通过提供1,251个经过专家标注和验证的短文本片段，该数据集允许研究者和开发者测试其模型的准确性、精确度和召回率。例如，研究者可以使用Python包sdgclassification-benchmark，通过自定义的predict_sdgs方法对模型进行基准测试，从而获得详细的性能评估报告。

衍生相关工作

基于SDG Classification Benchmark数据集，已经衍生出多个相关工作，包括但不限于对不同语言模型（如OpenAI GPT系列和Meta Llama模型）的评估和比较。这些工作不仅展示了数据集在模型评估中的重要性，还推动了SDG分类领域的技术进步和标准化。

数据集最近研究