WorldScenario_20K

Hugging Face2024-12-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/takarajordan/WorldScenario_20K

下载链接

链接失效反馈

官方服务：

资源简介：

WorldScenario 20K是一个包含20,000个合成生成的多利益相关者场景的数据集，旨在模拟现实世界的决策过程。每个场景探索一个独特的环境、社会或经济问题，并包含背景信息、领域事实、利益相关者、互动对话、政策选项和评估等核心组件。数据集的主要应用包括训练AI模型、场景模拟和教育工具。数据集分为训练、验证和测试集，格式为JSONL。数据集的多样性分析显示了场景、对话、政策和理由的相似性和多样性指标。

创建时间：

2024-12-11

原始信息汇总

WorldScenario 20K

数据集概述

WorldScenario 20K 是一个包含20,000个合成生成的多利益相关者场景的数据集，旨在模拟现实世界的决策过程。每个场景探索一个独特的环境、社会或经济问题。

核心组件

背景信息：场景的简要概述，包括其位置、关键问题和受影响的生态系统。
领域事实：关于场景的具体细节，如气候挑战、经济权衡、文化考虑和生物多样性影响。
利益相关者：一组多样化的角色，每个角色都有明确的利益和约束，如政府官员、社区领袖、环保活动家和企业代表。
互动对话：利益相关者之间的模拟交流，捕捉冲突观点、谈判和协作讨论。
政策选项：一系列可操作的解决方案，详细列出优缺点以反映决策中的权衡。
理由和评估：场景复杂性的总结以及每个政策决策的更广泛影响。

主要应用

训练AI模型：增强推理、决策和多视角分析能力。
场景模拟：探索利益相关者动态并在各种情境中测试政策响应。
教育工具：教授学生或从业者关于可持续发展、治理和冲突解决的知识。

数据集使用

数据集分为三个部分：

训练集：75%
验证集：15%
测试集：15%

数据集格式为JSONL，每行包含一个新场景。

数据集指标

大小指标

总令牌数：1250万（基于OpenAI o200k_base分词器）

多样性分析

总体场景相似性

均值：0.461
中位数：0.457
标准差：0.102
最小值：-0.029
最大值：0.974

组件级多样性

对话

总数：20,108
唯一数：20,108
相似性指标：
- 大于95%相似：374对
- 大于98%相似：8对
- 大于99%相似：0对

政策

总数：55,245
唯一数：22,618
相似性指标：
- 大于95%相似：6,495,884对
- 大于98%相似：3,904,876对
- 大于99%相似：3,052,960对

最常见的政策类型：

建立海洋保护区（571次）
实施可持续捕捞实践（403次）
紧急疏散和救援工作（336次）
建立海洋保护区（316次）
实施可持续农业实践（310次）

理由

总数：20,113
唯一数：19,554
相似性指标：
- 大于95%相似：26,624对
- 大于98%相似：9,190对
- 大于99%相似：5,508对

搜集汇总

数据集介绍

构建方式

WorldScenario_20K数据集通过合成生成的方式构建，包含20,000个多利益相关者的场景，旨在模拟现实世界的决策过程。每个场景涵盖了独特的环境、社会或经济问题，并详细描述了背景信息、领域事实、利益相关者、互动对话、政策选项以及决策的合理性和评估。这种构建方式确保了数据集的多样性和复杂性，为多视角分析和决策支持提供了丰富的资源。

特点

WorldScenario_20K数据集的显著特点在于其高度的多样性和复杂性。每个场景不仅包含详细的背景信息和领域事实，还涉及多元利益相关者的互动对话和政策选项。数据集的多样性通过对话和政策的独特性得以体现，其中对话部分几乎完全独特，而政策部分也具有较高的独特性。此外，数据集的场景相似性分析显示，场景间的相似度较低，进一步增强了其多样性。

使用方法

WorldScenario_20K数据集适用于多种任务，包括文本分类、问答、文本生成、文本到文本生成、零样本分类、摘要生成和标记分类。数据集被划分为训练集（75%）、验证集（15%）和测试集（15%），并以JSONL格式存储，每行包含一个新场景。用户可以通过加载和解析JSONL文件来访问和使用数据集，结合不同的任务需求进行模型训练和评估，从而提升AI模型的推理、决策和多视角分析能力。

背景与挑战

背景概述

WorldScenario 20K数据集是由研究人员精心构建的一个包含20,000个合成多利益相关者场景的独特数据集，旨在模拟现实世界中的决策过程。该数据集深入探讨了环境、社会和经济等多个领域的复杂问题，每个场景均包含详细的背景信息、领域事实、利益相关者角色、交互对话、政策选项以及决策的合理性和评估。WorldScenario 20K的创建不仅为AI模型的训练提供了丰富的资源，还为场景模拟和教育工具的开发奠定了基础，特别是在可持续发展和治理领域。

当前挑战

WorldScenario 20K数据集在构建过程中面临了多重挑战。首先，合成生成20,000个多样化的场景需要高度复杂的模拟技术，以确保每个场景的独特性和现实性。其次，确保利益相关者对话和政策选项的多样性和真实性也是一个重大挑战，特别是在捕捉不同观点和冲突方面。此外，数据集的多样性分析显示，尽管整体场景相似度较低，但某些对话和政策选项的相似度较高，这可能影响模型在处理复杂决策时的表现。最后，如何有效地将这些复杂的场景转化为可用于训练和验证的格式，也是构建过程中的一大难题。

常用场景

经典使用场景

WorldScenario_20K数据集的经典使用场景主要集中在训练和验证多利益相关者决策模型。通过模拟真实世界的决策过程，该数据集能够帮助AI模型提升在复杂环境下的推理、决策和多视角分析能力。具体应用包括在环境、社会和经济问题上的政策制定模拟，以及在不同利益相关者之间的对话和协商中进行策略优化。

解决学术问题

WorldScenario_20K数据集解决了在复杂多变的环境中进行有效决策的学术难题。通过提供多利益相关者的交互对话和政策选项，该数据集为研究者提供了一个模拟真实决策过程的平台，有助于深入理解决策中的权衡和复杂性。这对于推动可持续发展和冲突解决领域的研究具有重要意义。

衍生相关工作

WorldScenario_20K数据集的发布催生了一系列相关研究工作，特别是在多利益相关者决策模型和政策模拟领域。研究者们利用该数据集开发了新的AI模型，以提高在复杂环境下的决策能力。此外，该数据集还激发了对可持续发展和冲突解决策略的深入探讨，推动了相关领域的理论和实践进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集