HANSEN-REPO/HANSEN

Name: HANSEN-REPO/HANSEN
Creator: HANSEN-REPO
Published: 2023-11-01 18:35:34
License: 暂无描述

Hugging Face2023-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HANSEN-REPO/HANSEN

下载链接

链接失效反馈

官方服务：

资源简介：

HANSEN数据集是一个用于作者身份分析的人类和AI生成的口语文本基准数据集。它包含17个人类口语文本数据集和三个大型语言模型（ChatGPT、PaLM2、Vicuna13B）生成的口语文本。数据集支持三种任务：作者归属（AA）、作者验证（AV）和图灵测试（TT）。AA任务是一个多类分类问题，旨在识别给定口语文本的说话者；AV任务是二元分类问题，旨在检测一对口语文本是否由同一说话者生成；TT任务是二元分类问题，旨在区分文本是由人类还是AI生成的。数据集的具体描述和用途在README中有详细说明。

提供机构：

HANSEN-REPO

原始信息汇总

数据集概述

名称：HANSEN

全称：Human and AI Spoken Text Benchmark for Authorship Analysis

数据集组成：

人类语音文本数据集：共17个，包括TED、Spotify、BASE、BNC、BNC14、MSU、PAN、Tennis、CEO、Voxceleb、BP、Voxpopuli、FTN、USP、SEC、Debate、Court等。
AI生成语音文本数据：由ChatGPT、PaLM2、Vicuna13B三种大型语言模型生成。

数据集用途：

AA任务（作者归属）：多类别分类问题，识别语音文本的说话者。
AV任务（作者验证）：二分类问题，判断两段语音文本是否由同一说话者产生。
TT任务（图灵测试/人类与AI文本检测）：二分类问题，识别语音文本的来源是人类还是AI。

数据集格式：

AA任务：数据框包含两列，author_id 和 text。
AV任务：数据框包含三列，label（0表示不同说话者，1表示同一说话者）、text1 和 text2。
TT任务：数据框包含两列，label（0表示人类，1表示AI）和 text。

特殊说明：

CEO和FTN数据集：由于分发问题，不包含原始文本，但提供了URL和行号。
AI生成数据集访问：需通过此表单提交并同意使用条款后可访问。

许可证：Apache-2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集