avduarte333/BookTection

Name: avduarte333/BookTection
Creator: avduarte333
Published: 2024-02-16 09:22:11
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/avduarte333/BookTection

下载链接

链接失效反馈

官方服务：

资源简介：

BookTection数据集旨在作为检测大型语言模型预训练数据的基准。该数据集包含165本书，其中60本于2023年出版，标记为非训练数据，而105本在2022年之前出版，标记为训练数据。每本书约提取34个段落，每个段落使用语言模型Claude v2.0进行三次改写。数据集中的_Answer_列指示哪个段落是真实摘录。段落分为小、中、大三种尺寸，分别约包含64、128和256个令牌。该数据集计划用于多项选择问答格式，但也兼容其他预训练数据检测方法。

提供机构：

avduarte333

原始信息汇总

📚 BookTection Dataset

概述

BookTection数据集是一个用于检测大型语言模型预训练数据的基准数据集。该数据集包含165本书，分为两类：

60本出版于2023年：非训练数据，"label"列标记为0。
105本出版于2022年之前：训练数据，"label"列标记为1。

数据结构

每本书中提取约34个段落，每个段落通过语言模型Claude v2.0进行三次改写。"Answer"列指示哪个段落是真实摘录。段落分为三种大小（小、中、大），分别约为64、128和256个词。

应用场景

该数据集计划用于多选题问答格式，但也兼容其他预训练数据检测方法。

兼容性

该数据集适用于多种模型，包括：

LLaMA-2
Mistral
Mixtral
Chat-GPT (gpt-3.5-turbo-instruct)
GPT-3 (text-davinci-003)
Claude

数据加载

python from datasets import load_dataset

dataset = load_dataset("avduarte333/BookTection")

引用

bibtex @misc{duarte2024decop, title={{DE-COP: Detecting Copyrighted Content in Language Models Training Data}}, author={André V. Duarte and Xuandong Zhao and Arlindo L. Oliveira and Lei Li}, year={2024}, eprint={2402.09910}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集