five

HANSEN-REPO/HANSEN

收藏
Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HANSEN-REPO/HANSEN
下载链接
链接失效反馈
官方服务:
资源简介:
HANSEN数据集是一个用于作者身份分析的人类和AI生成的口语文本基准数据集。它包含17个人类口语文本数据集和三个大型语言模型(ChatGPT、PaLM2、Vicuna13B)生成的口语文本。数据集支持三种任务:作者归属(AA)、作者验证(AV)和图灵测试(TT)。AA任务是一个多类分类问题,旨在识别给定口语文本的说话者;AV任务是二元分类问题,旨在检测一对口语文本是否由同一说话者生成;TT任务是二元分类问题,旨在区分文本是由人类还是AI生成的。数据集的具体描述和用途在README中有详细说明。

HANSEN数据集是一个用于作者身份分析的人类和AI生成的口语文本基准数据集。它包含17个人类口语文本数据集和三个大型语言模型(ChatGPT、PaLM2、Vicuna13B)生成的口语文本。数据集支持三种任务:作者归属(AA)、作者验证(AV)和图灵测试(TT)。AA任务是一个多类分类问题,旨在识别给定口语文本的说话者;AV任务是二元分类问题,旨在检测一对口语文本是否由同一说话者生成;TT任务是二元分类问题,旨在区分文本是由人类还是AI生成的。数据集的具体描述和用途在README中有详细说明。
提供机构:
HANSEN-REPO
原始信息汇总

数据集概述

名称:HANSEN

全称:Human and AI Spoken Text Benchmark for Authorship Analysis

数据集组成

  • 人类语音文本数据集:共17个,包括TED、Spotify、BASE、BNC、BNC14、MSU、PAN、Tennis、CEO、Voxceleb、BP、Voxpopuli、FTN、USP、SEC、Debate、Court等。
  • AI生成语音文本数据:由ChatGPT、PaLM2、Vicuna13B三种大型语言模型生成。

数据集用途

  • AA任务(作者归属):多类别分类问题,识别语音文本的说话者。
  • AV任务(作者验证):二分类问题,判断两段语音文本是否由同一说话者产生。
  • TT任务(图灵测试/人类与AI文本检测):二分类问题,识别语音文本的来源是人类还是AI。

数据集格式

  • AA任务:数据框包含两列,author_idtext
  • AV任务:数据框包含三列,label(0表示不同说话者,1表示同一说话者)、text1text2
  • TT任务:数据框包含两列,label(0表示人类,1表示AI)和 text

特殊说明

  • CEO和FTN数据集:由于分发问题,不包含原始文本,但提供了URL和行号。
  • AI生成数据集访问:需通过此表单提交并同意使用条款后可访问。

许可证:Apache-2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作