MultiSocial

Name: MultiSocial
Creator: 肯彭兰切智能技术研究所
Published: 2024-06-18 20:26:09
License: 暂无描述

arXiv2024-06-18 更新2024-06-20 收录

下载链接：

https://anonymous.4open.science/r/multisocial

下载链接

链接失效反馈

官方服务：

资源简介：

MultiSocial是由肯彭兰切智能技术研究所创建的多语言、多平台数据集，旨在解决社交媒体文本中机器生成文本的检测问题。该数据集包含22种语言，涵盖5个社交媒体平台，总计472,097条文本，其中约58,000条为人类编写，其余由7种多语言大型语言模型生成。数据集的创建过程涉及文本的选择、预处理、生成和后处理，详细信息在附录B中提供。MultiSocial的应用领域主要集中在社交媒体文本的机器生成检测，特别是在零样本和微调形式的检测方法比较中显示出重要价值。

MultiSocial is a multilingual, multi-platform dataset developed by the Kepenglanche Intelligent Technology Research Institute, designed to address the challenge of machine-generated text detection in social media texts. This dataset encompasses 22 languages across 5 social media platforms, with a total of 472,097 text samples. Approximately 58,000 of these samples are human-written, while the remainder are generated by 7 multilingual large language models (LLMs). The creation process of this dataset involves text selection, preprocessing, generation, and post-processing, with detailed information provided in Appendix B. The main application domain of MultiSocial is machine-generated text detection for social media, and it exhibits significant value, especially in comparative studies of detection methods under zero-shot and fine-tuning scenarios.

提供机构：

肯彭兰切智能技术研究所

创建时间：

2024-06-18

搜集汇总

数据集介绍

构建方式

MultiSocial数据集通过整合来自五个不同社交平台（Telegram、Twitter、Gab、Discord和WhatsApp）的真实人类撰写文本，并使用七种最先进的语言模型（LLMs）生成相应的机器生成文本，构建而成。数据集涵盖了22种语言，包括高资源和低资源语言，确保了语言的多样性和跨语言研究的可行性。为了生成机器文本，研究团队采用了三步 paraphrasing 方法，确保生成的文本与原始人类文本在风格和内容上具有一定的相似性，同时避免过度相似。数据集最终包含472,097条文本，其中约58,000条为人类撰写，其余为机器生成。

特点

MultiSocial数据集的显著特点在于其多语言、多平台和多生成器的特性。它涵盖了22种语言，跨越5个社交平台，并使用了7种不同的LLMs生成文本，确保了数据集的多样性和广泛适用性。此外，数据集中的文本具有社交平台特有的非正式语言风格，包括俚语、语法错误、表情符号和标签等，这些特征使得该数据集在研究机器生成文本检测方面具有独特的价值。

使用方法

MultiSocial数据集可用于评估和比较现有的机器生成文本检测方法，包括零样本检测、预训练模型和微调模型。研究者可以通过该数据集进行跨语言、跨平台的检测性能评估，探索不同语言和平台对检测效果的影响。此外，数据集还可用于训练和验证新的检测模型，尤其是在社交平台文本的检测任务中，帮助提升模型的泛化能力和鲁棒性。

背景与挑战

背景概述

MultiSocial数据集由斯洛伐克的Kempelen智能技术研究所的研究团队创建，旨在填补多语言社交媒体文本机器生成检测领域的空白。该数据集涵盖了22种语言，跨越5个社交媒体平台，包含472,097条文本，其中约58,000条为人类编写，其余由7种多语言大型语言模型生成。MultiSocial的创建旨在评估现有检测方法在零样本和微调情况下的性能，特别关注社交媒体文本的短小、非正式语言风格以及跨语言和跨平台的检测能力。该数据集的发布对机器生成文本检测领域具有重要意义，尤其是在社交媒体内容日益自动化和难以区分的背景下，为研究提供了宝贵的资源。

当前挑战

MultiSocial数据集面临的主要挑战包括：1) 社交媒体文本的非正式性和多样性，如使用俚语、语法错误、表情符号和标签，这些特征增加了检测的复杂性；2) 现有研究主要集中在英语和较长文本上，而社交媒体文本通常较短，缺乏足够的上下文信息，导致现有方法的适应性不足；3) 多语言和跨平台的检测能力要求模型具备广泛的泛化能力，而不同语言和平台的文本风格差异进一步增加了检测的难度；4) 数据集构建过程中，如何确保生成的机器文本与人类文本在语言风格和内容上难以区分，同时保持数据集的多样性和平衡性，也是一个重要的挑战。

常用场景

经典使用场景

MultiSocial数据集的经典使用场景在于其作为多语言、多平台社交文本的机器生成文本检测基准。该数据集涵盖了22种语言和5个社交平台（如Telegram、Twitter、Discord等），并包含了由7种不同的大型语言模型生成的文本。研究者可以利用该数据集进行零样本学习、微调模型以及跨语言、跨平台的检测方法评估，从而推动机器生成文本检测技术的发展。

衍生相关工作

MultiSocial数据集的发布催生了一系列相关研究工作，特别是在多语言和多平台机器生成文本检测领域。例如，研究者基于该数据集开发了多种检测方法，包括统计方法、预训练模型和微调模型，并进行了跨语言和跨平台的性能评估。此外，该数据集还启发了对不同语言资源丰富度和平台特性的深入研究，推动了多语言文本生成模型的鲁棒性分析。未来，基于MultiSocial的研究可能会进一步扩展到其他领域，如多模态内容检测和生成模型的对抗性攻击防御。

数据集最近研究