ZachW/StumbBlock
收藏Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/ZachW/StumbBlock
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于论文《Stumbling Blocks: Stress Testing the Robustness of Machine-Generated Text Detectors Under Attacks》的研究,主要测试机器生成文本检测器在攻击下的鲁棒性。数据集包含未受攻击的.csv文件,用户可以在这些文件上执行攻击或重新实现论文中的排行榜。此外,还提供了一些受攻击的数据集供参考,但鼓励用户自行进行攻击以确保扰动的随机性。数据集的语言为英语,大小在10K到100K之间,标签包括新闻、机器生成文本检测和压力测试。
This dataset is created by the research team at the Paul G. Allen School of Computer Science and Engineering, University of Washington, for the paper Stumbling Blocks: Stress Testing the Robustness of Machine-Generated Text Detectors Under Attacks. It primarily contains machine-generated news text used to detect the robustness of these texts under various attacks. The dataset includes unattacked original CSV files and some attacked scenario data, encouraging users to conduct attacks locally to validate the results. The dataset is suitable for research on machine-generated text detection, particularly robustness evaluation.
提供机构:
ZachW
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 文本分类
- 语言: 英语
- 数据规模: 10K<n<100K
- 标签: 新闻, 机器生成文本检测, 压力测试
- 格式: CSV
内容描述
- 数据集来源: 该数据集由论文《Stumbling Blocks: Stress Testing the Robustness of Machine-Generated Text Detectors Under Attacks》(ACL 2024)使用,主要由华盛顿大学Paul G. Allen计算机科学与工程学院的研究团队创建。
- 数据集用途: 用于评估机器生成文本检测器的鲁棒性,揭示现有检测器在不同攻击下的缺陷,并提出改进方案。
- 数据文件:
- 未攻击数据集: 位于父目录中的.csv文件,可用于重新实现论文中的排行榜(表3)或进行攻击实验。
- 攻击数据集: 部分攻击数据集位于子目录中,供参考使用,但建议用户自行进行攻击以确保扰动的随机性。
- 生成参数:
- GPT-j数据集的温度为1.5。
- GPT-4数据集的温度为0.7。
- Llama-2数据集的温度为1.5。



