OASIS Dataset|社交媒体模拟数据集|复杂社会现象数据集

github2024-11-30 更新2024-12-01 收录

社交媒体模拟

复杂社会现象

下载链接：

https://github.com/camel-ai/oasis

下载链接

链接失效反馈

资源简介：

OASIS数据集是一个可扩展的开源社交媒体模拟器，集成了大型语言模型和基于规则的代理，以逼真地模拟Twitter和Reddit等平台上多达一百万用户的行为。它旨在促进对复杂社会现象的研究，如信息传播、群体极化和羊群行为，提供了一个多功能工具，用于探索数字环境中多样化的社会动态和用户互动。

创建时间：

2024-11-13

原始信息汇总

OASIS: Open Agent Social Interaction Simulations with One Million Agents

概述

OASIS 是一个可扩展的开源社交媒体模拟器，它将大型语言模型与基于规则的代理相结合，以逼真地模拟 Twitter 和 Reddit 等平台上多达一百万用户的行为。该模拟器旨在促进对复杂社会现象（如信息传播、群体极化和从众行为）的研究，提供了一个多功能工具，用于探索数字环境中多样化的社会动态和用户互动。

主要特点

可扩展性：OASIS 支持多达一百万代理的模拟，使研究人员能够在与真实世界平台相当的规模上研究社交媒体动态。
动态环境：适应社交媒体网络和内容的实时变化，为真实的模拟体验提供灵活性。
多样化的行动空间：代理可以执行 21 种行动，如关注、评论和转发，允许丰富的多方面互动。
集成推荐系统：包含基于兴趣和热门分数的推荐算法，模拟用户如何在社交媒体平台上发现内容和互动。

数据集

数据集可在 Hugging Face 上获取。

引用

@misc{yang2024oasisopenagentsocial, title={OASIS: Open Agent Social Interaction Simulations with One Million Agents}, author={Ziyi Yang and Zaibin Zhang and Zirui Zheng and Yuxian Jiang and Ziyue Gan and Zhiyu Wang and Zijian Ling and Jinsong Chen and Martz Ma and Bowen Dong and Prateek Gupta and Shuyue Hu and Zhenfei Yin and Guohao Li and Xu Jia and Lijun Wang and Bernard Ghanem and Huchuan Lu and Chaochao Lu and Wanli Ouyang and Yu Qiao and Philip Torr and Jing Shao}, year={2024}, eprint={2411.11581}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.11581}, }

AI搜集汇总

数据集介绍

构建方式

OASIS数据集通过整合大规模语言模型与基于规则的代理，构建了一个可扩展的开放式社交媒体模拟器。该数据集模拟了多达一百万用户在平台如Twitter和Reddit上的行为，通过动态环境适应、多样化的行动空间以及集成推荐系统，实现了对复杂社会现象如信息传播、群体极化和羊群行为的深入研究。数据集的构建过程中，采用了高度可扩展的架构，确保了模拟的真实性和复杂性。

特点

OASIS数据集的主要特点包括其高度的可扩展性，能够支持多达一百万代理的模拟，使其在规模上可与真实世界的社交媒体平台相媲美。此外，数据集还具备动态环境适应能力，能够实时反映社交网络和内容的变化，增强了模拟的真实性。代理可以执行21种不同的行动，如关注、评论和转发，提供了丰富多样的交互场景。集成推荐系统则进一步模拟了用户如何发现内容和在社交媒体平台上的互动。

使用方法

使用OASIS数据集时，用户首先需要克隆GitHub仓库并设置虚拟环境，然后安装必要的软件包。为了运行模拟，用户需设置OpenAI API密钥，并可根据需要调整配置文件。数据集提供了详细的脚本示例，用户可以通过运行这些脚本来启动Reddit或Twitter的模拟。对于大规模实验，建议使用Slurm工作负载管理器集群，并按照提供的指南下载和部署开源模型。用户还可以根据实验需求修改配置文件，以适应不同的模拟场景和数据集。

背景与挑战

背景概述

OASIS数据集，全称为Open Agent Social Interaction Simulations with One Million Agents，由CAMEL-AI团队于2024年创建。该数据集旨在通过模拟多达一百万个代理在社交平台上的行为，研究复杂的社会现象，如信息传播、群体极化和从众行为。OASIS结合了大型语言模型与基于规则的代理，以真实地模拟Twitter和Reddit等平台上的用户行为。其核心研究问题在于探索数字环境中多样化的社会动态和用户交互，对社会科学和人工智能交叉领域的研究具有重要影响。

当前挑战

OASIS数据集在构建过程中面临多重挑战。首先，模拟大规模用户行为需要高度的计算资源和复杂的算法设计，以确保模拟的准确性和效率。其次，数据集需处理动态变化的社交网络和内容，这要求系统能够实时适应并反映这些变化。此外，OASIS还需解决用户行为的多样性和复杂性问题，通过21种不同的动作空间来丰富代理的交互行为。最后，集成推荐系统以模拟用户如何发现和互动内容，也是该数据集面临的一大技术挑战。

常用场景

经典使用场景

OASIS数据集的经典使用场景在于模拟大规模社交网络中的用户行为，特别是信息传播、群体极化和从众行为等复杂社会现象。通过集成大型语言模型和基于规则的代理，OASIS能够模拟多达一百万用户的真实行为，从而为研究者提供一个强大的工具，用于探索和分析社交平台上的多样化社会动态和用户交互。

解决学术问题

OASIS数据集解决了多个重要的学术研究问题，特别是在社会媒体动态模拟和复杂社会现象分析领域。它通过大规模代理模拟，帮助研究者理解和预测信息在社交网络中的传播路径、群体极化的形成机制以及从众行为的驱动因素。这些研究不仅深化了对社会行为的理解，还为制定有效的干预策略提供了科学依据。

衍生相关工作

OASIS数据集的发布催生了一系列相关研究工作，特别是在社会媒体模拟和人工智能伦理领域。研究者们利用OASIS进行深入分析，提出了多种改进的推荐算法和行为模型，进一步提升了模拟的准确性和实用性。此外，OASIS还激发了对人工智能在社会模拟中应用的伦理讨论，推动了相关政策和规范的制定，确保技术发展与社会福祉的平衡。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

DeepPCB

DeepPCB是由上海交通大学图像处理与模式识别研究所创建的首个公开PCB缺陷检测数据集，包含1,500对标注了6种常见PCB缺陷位置的图像。数据集通过模板匹配技术确保图像对齐，减少预处理工作量。每对图像包括一个640x640像素的无缺陷模板和一个有缺陷的测试图像。数据集旨在解决PCB制造中的自动缺陷检测问题，提高检测效率和准确性。

arXiv 收录

NSL-KDD

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本，解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件，以及包含数据集列名的文件。

github 收录