five

MultiSocial|社交媒体分析数据集|机器生成文本检测数据集

收藏
arXiv2024-06-18 更新2024-06-20 收录
社交媒体分析
机器生成文本检测
下载链接:
https://anonymous.4open.science/r/multisocial
下载链接
链接失效反馈
资源简介:
MultiSocial是由肯彭兰切智能技术研究所创建的多语言、多平台数据集,旨在解决社交媒体文本中机器生成文本的检测问题。该数据集包含22种语言,涵盖5个社交媒体平台,总计472,097条文本,其中约58,000条为人类编写,其余由7种多语言大型语言模型生成。数据集的创建过程涉及文本的选择、预处理、生成和后处理,详细信息在附录B中提供。MultiSocial的应用领域主要集中在社交媒体文本的机器生成检测,特别是在零样本和微调形式的检测方法比较中显示出重要价值。
提供机构:
肯彭兰切智能技术研究所
创建时间:
2024-06-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiSocial数据集通过整合来自五个不同社交平台(Telegram、Twitter、Gab、Discord和WhatsApp)的真实人类撰写文本,并使用七种最先进的语言模型(LLMs)生成相应的机器生成文本,构建而成。数据集涵盖了22种语言,包括高资源和低资源语言,确保了语言的多样性和跨语言研究的可行性。为了生成机器文本,研究团队采用了三步 paraphrasing 方法,确保生成的文本与原始人类文本在风格和内容上具有一定的相似性,同时避免过度相似。数据集最终包含472,097条文本,其中约58,000条为人类撰写,其余为机器生成。
特点
MultiSocial数据集的显著特点在于其多语言、多平台和多生成器的特性。它涵盖了22种语言,跨越5个社交平台,并使用了7种不同的LLMs生成文本,确保了数据集的多样性和广泛适用性。此外,数据集中的文本具有社交平台特有的非正式语言风格,包括俚语、语法错误、表情符号和标签等,这些特征使得该数据集在研究机器生成文本检测方面具有独特的价值。
使用方法
MultiSocial数据集可用于评估和比较现有的机器生成文本检测方法,包括零样本检测、预训练模型和微调模型。研究者可以通过该数据集进行跨语言、跨平台的检测性能评估,探索不同语言和平台对检测效果的影响。此外,数据集还可用于训练和验证新的检测模型,尤其是在社交平台文本的检测任务中,帮助提升模型的泛化能力和鲁棒性。
背景与挑战
背景概述
MultiSocial数据集由斯洛伐克的Kempelen智能技术研究所的研究团队创建,旨在填补多语言社交媒体文本机器生成检测领域的空白。该数据集涵盖了22种语言,跨越5个社交媒体平台,包含472,097条文本,其中约58,000条为人类编写,其余由7种多语言大型语言模型生成。MultiSocial的创建旨在评估现有检测方法在零样本和微调情况下的性能,特别关注社交媒体文本的短小、非正式语言风格以及跨语言和跨平台的检测能力。该数据集的发布对机器生成文本检测领域具有重要意义,尤其是在社交媒体内容日益自动化和难以区分的背景下,为研究提供了宝贵的资源。
当前挑战
MultiSocial数据集面临的主要挑战包括:1) 社交媒体文本的非正式性和多样性,如使用俚语、语法错误、表情符号和标签,这些特征增加了检测的复杂性;2) 现有研究主要集中在英语和较长文本上,而社交媒体文本通常较短,缺乏足够的上下文信息,导致现有方法的适应性不足;3) 多语言和跨平台的检测能力要求模型具备广泛的泛化能力,而不同语言和平台的文本风格差异进一步增加了检测的难度;4) 数据集构建过程中,如何确保生成的机器文本与人类文本在语言风格和内容上难以区分,同时保持数据集的多样性和平衡性,也是一个重要的挑战。
常用场景
经典使用场景
MultiSocial数据集的经典使用场景在于其作为多语言、多平台社交文本的机器生成文本检测基准。该数据集涵盖了22种语言和5个社交平台(如Telegram、Twitter、Discord等),并包含了由7种不同的大型语言模型生成的文本。研究者可以利用该数据集进行零样本学习、微调模型以及跨语言、跨平台的检测方法评估,从而推动机器生成文本检测技术的发展。
衍生相关工作
MultiSocial数据集的发布催生了一系列相关研究工作,特别是在多语言和多平台机器生成文本检测领域。例如,研究者基于该数据集开发了多种检测方法,包括统计方法、预训练模型和微调模型,并进行了跨语言和跨平台的性能评估。此外,该数据集还启发了对不同语言资源丰富度和平台特性的深入研究,推动了多语言文本生成模型的鲁棒性分析。未来,基于MultiSocial的研究可能会进一步扩展到其他领域,如多模态内容检测和生成模型的对抗性攻击防御。
数据集最近研究
最新研究方向
近年来,随着大型语言模型(LLMs)在多语言文本生成领域的快速发展,机器生成文本的检测成为研究热点。MultiSocial数据集作为首个多语言、多平台的社会媒体文本检测基准,填补了现有研究在非英语语言和短文本检测方面的空白。该数据集涵盖22种语言和5个社交平台,提供了丰富的多语言、多平台数据,推动了机器生成文本检测技术在跨语言和跨平台场景下的应用。研究者通过对比现有检测方法,发现微调后的检测器在社交媒体文本上的表现尤为突出,尤其是在跨语言和跨平台的迁移能力上展现出显著优势。此外,该数据集的发布为未来研究提供了新的方向,特别是在多语言检测器的优化和跨平台迁移能力的提升方面。
相关研究论文
  • 1
    MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts肯彭兰切智能技术研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录