SDG Classification Benchmark
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/SDGClassification/benchmark
下载链接
链接失效反馈官方服务:
资源简介:
SDG分类基准是一个开放和公共的基准数据集,用于评估和比较SDG分类模型。它由经过人类专家仔细标注和验证的文本片段(2-3句话)组成。
SDG Classification Benchmark is an open and public benchmark dataset for evaluating and comparing SDG classification models. It consists of text snippets (2-3 sentences) that have been carefully annotated and validated by human experts.
创建时间:
2024-02-18
原始信息汇总
数据集概述
数据集介绍
SDG分类基准数据集是一个公开的基准数据集,用于评估和比较SDG分类模型。该数据集包含经过人工专家团队仔细标注和验证的文本片段(2-3句话)。
数据集结构
数据集包含以下四列:
id: 每个文本的唯一标识符(MD5哈希)text: 文本片段(2-3句话)sdg: 文本对应的SDG编号label: 如果文本中包含SDG内容则为True,否则为False
数据样本
以下是数据集的一个样本片段:
id text sdg label
03e9759 Not only does this have potentially negative e... 7 False 04f6c7f If too much water is stored behind the reservo... 7 False b87a4f8 Energy efficiency targets are now in place at ... 7 True 12e3f54 Data over the last 30 years suggests that, had... 7 True 135ea60 Large areas of about 500 000 km2 between Mumba... 7 False
数据集覆盖范围
数据集目前覆盖SDG 1至SDG 14,未来将扩展到其他SDG。
| SDG | 文本数量 | 包含SDG的文本 | 不包含SDG的文本 |
|---|---|---|---|
| SDG 1: No poverty | 77 | 27 | 50 |
| SDG 2: Zero hunger | 69 | 45 | 24 |
| SDG 3: Good health and well-being | 76 | 28 | 48 |
| SDG 4: Quality education | 82 | 43 | 39 |
| SDG 5: Gender equality | 69 | 35 | 34 |
| SDG 6: Clean water and sanitation | 85 | 48 | 37 |
| SDG 7: Affordable and clean energy | 100 | 50 | 50 |
| SDG 8: Decent work and economic growth | 74 | 38 | 36 |
| SDG 9: Industry, innovation and infrastructure | 57 | 28 | 29 |
| SDG 10: Reduced inequalities | 61 | 32 | 29 |
| SDG 11: Sustainable cities and communities | 69 | 27 | 42 |
| SDG 12: Responsible consumption and production | 80 | 43 | 37 |
| SDG 13: Climate action | 65 | 33 | 32 |
| SDG 14: Life below water | 84 | 35 | 49 |
数据集限制
- 二元评估:仅评估文本是否直接涉及某个SDG,采用二元分类(True或False)。
- 非详尽覆盖:数据集尝试涵盖每个SDG的广泛内容,但无法保证详尽覆盖所有相关问题。
- 忽略情感:文本的情感和态度被忽略,即使内容是负面讨论,只要涉及SDG仍标记为True。
- 非解释性:仅当文本直接涉及SDG及其目标时才进行标记,忽略间接相关性。
模型评估
评估结果
以下是一些模型在该基准数据集上的评估结果(准确率百分比):
| 模型 | 平均准确率 | SDG 1 | SDG 2 | SDG 3 | SDG 4 | SDG 5 | SDG 6 | SDG 7 | SDG 8 | SDG 9 | SDG 10 | SDG 11 | SDG 12 | SDG 13 | SDG 14 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AFD SDG Prospector | 89 | 95 | 87 | 91 | 95 | 81 | 92 | 95 | 89 | 86 | 87 | 90 | 84 | 89 | 83 |
| Aurora SDG | 80 | 79 | 83 | 80 | 79 | 93 | 81 | 85 | 81 | 70 | 70 | 81 | 76 | 86 | 81 |
| Global Goals Directory | 82 | 90 | 80 | 90 | 78 | 74 | 87 | 91 | 84 | 81 | 80 | 78 | 74 | 78 | 84 |
| JRC SDG Mapper | 78 | 82 | 71 | 84 | 70 | 75 | 73 | 86 | 77 | 77 | 70 | 75 | 79 | 83 | 82 |
| Meta Llama 2 70B | 84 | 90 | 83 | 93 | 90 | 93 | 87 | 93 | 78 | 74 | 79 | 68 | 80 | 91 | 84 |
| Meta Llama 3 70B | 86 | 77 | 90 | 86 | 85 | 91 | 92 | 91 | 80 | 84 | 92 | 84 | 84 | 92 | 81 |
| Mixtral 8x7B | 86 | 84 | 86 | 83 | 89 | 87 | 88 | 94 | 80 | 75 | 95 | 81 | 82 | 92 | 81 |
| OSDG v1 | 72 | 87 | 56 | 70 | 80 | 64 | 84 | 82 | 77 | 56 | 72 | 71 | 71 | 66 | 77 |
| OpenAI GPT-3.5 Turbo | 81 | 65 | 93 | 82 | 80 | 87 | 91 | 90 | 76 | 68 | 87 | 71 | 79 | 91 | 76 |
| OpenAI GPT-4 Turbo | 85 | 75 | 93 | 86 | 84 | 88 | 92 | 92 | 77 | 79 | 92 | 77 | 85 | 94 | 80 |
| OpenAI GPT-4o | 88 | 79 | 94 | 82 | 84 | 94 | 93 | 93 | 80 | 84 | 93 | 88 | 86 | 94 | 82 |
| text2sdg | 84 | 91 | 74 | 82 | 88 | 93 | 85 | 91 | 85 | 82 | 79 | 80 | 75 | 91 | 82 |
搜集汇总
数据集介绍

构建方式
该数据集由1,251个短文本片段组成,每个片段包含2至3句话,涵盖了所有17个可持续发展目标(SDGs)。这些文本片段经过专家团队的精心标注和验证,确保了数据的高质量。为了确保标注的一致性,每个文本片段都由多名专家独立标注,并在出现分歧时通过讨论达成共识。此外,部分文本在标注过程中进行了轻微的修改以消除歧义,从而构建了一个高度可靠的基准数据集。
特点
该数据集的主要特点在于其全面性和精确性。首先,它涵盖了所有17个SDGs,确保了评估模型的广泛适用性。其次,数据集的标注过程经过多轮专家验证,确保了标签的准确性和一致性。此外,数据集的设计考虑了不同SDG的文本数量和分布,尽管存在不平衡,但仍提供了足够的多样性以评估模型的性能。最后,数据集的二元分类设计简化了评估过程,专注于文本是否直接涉及特定SDG。
使用方法
使用该数据集进行模型评估时,用户可以通过Python包'sdgclassification-benchmark'轻松实现。首先,安装该包并通过pip命令进行安装。随后,用户可以定义自己的'predict_sdgs'方法,该方法接收文本并返回相关的SDG列表。通过调用'Benchmark'类的'run'方法,用户可以运行基准测试并获取模型的准确性、精确度、召回率和F1分数等关键指标。此外,数据集还支持其他编程语言的使用,用户可以通过CSV读取器访问数据并进行模型预测与真实标签的比较。
背景与挑战
背景概述
SDG Classification Benchmark数据集是由SDG Classification Expert Group的Benchmarking Working Group创建的,旨在评估和比较可持续性发展目标(SDGs)分类模型的性能。该数据集包含1,251个短文本片段,涵盖所有17个SDGs,并由专家团队精心标注和验证。其核心研究问题在于通过公开的基准数据集,帮助研究人员和开发者更好地理解现有SDG分类工具的优缺点,从而推动更准确、可靠和可信的模型开发。该数据集的创建不仅提升了SDG分类领域的研究水平,还为全球可持续发展目标的实现提供了技术支持。
当前挑战
SDG Classification Benchmark数据集在构建过程中面临多项挑战。首先,确保文本标注的准确性和一致性是一个复杂的过程,需要多位专家的独立标注和后续的讨论与共识达成。其次,数据集的覆盖范围虽广泛,但无法保证对每个SDG相关问题的全面覆盖,这可能导致模型在特定领域的表现评估不全面。此外,数据集采用二元分类方法,忽略了文本中SDG引用的强度和情感,这可能影响模型对复杂文本的分类精度。最后,尽管数据集旨在评估模型的通用性能,但模型在特定领域或语言环境中的表现可能无法完全反映,这需要进一步的领域适应性研究。
常用场景
经典使用场景
SDG Classification Benchmark数据集的经典使用场景在于评估和比较不同可持续发展目标(SDGs)分类模型的性能。通过提供1,251个经过专家标注和验证的短文本片段,该数据集允许研究者和开发者测试其模型的准确性、精确度和召回率。例如,研究者可以使用Python包sdgclassification-benchmark,通过自定义的predict_sdgs方法对模型进行基准测试,从而获得详细的性能评估报告。
衍生相关工作
基于SDG Classification Benchmark数据集,已经衍生出多个相关工作,包括但不限于对不同语言模型(如OpenAI GPT系列和Meta Llama模型)的评估和比较。这些工作不仅展示了数据集在模型评估中的重要性,还推动了SDG分类领域的技术进步和标准化。
数据集最近研究
最新研究方向
在可持续发展目标(SDGs)分类领域,SDG Classification Benchmark数据集的最新研究方向主要集中在提升文本分类模型的准确性和可靠性。该数据集通过包含1,251个短文本片段,涵盖所有17个SDGs,为研究人员提供了一个全面的基准。前沿研究不仅关注模型的整体性能,如准确率、精确率和召回率,还特别强调了在不同SDG目标下的分类表现。此外,研究者们正致力于通过引入更复杂的模型架构和多模态数据处理技术,以提高对文本中SDG相关性的识别能力。这些努力不仅有助于更精确地评估现有模型的性能,也为未来开发更高效、更智能的SDG分类工具奠定了基础。
以上内容由遇见数据集搜集并总结生成



