five

avduarte333/BookTection

收藏
Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/avduarte333/BookTection
下载链接
链接失效反馈
官方服务:
资源简介:
BookTection数据集旨在作为检测大型语言模型预训练数据的基准。该数据集包含165本书,其中60本于2023年出版,标记为非训练数据,而105本在2022年之前出版,标记为训练数据。每本书约提取34个段落,每个段落使用语言模型Claude v2.0进行三次改写。数据集中的_Answer_列指示哪个段落是真实摘录。段落分为小、中、大三种尺寸,分别约包含64、128和256个令牌。该数据集计划用于多项选择问答格式,但也兼容其他预训练数据检测方法。

BookTection数据集旨在作为检测大型语言模型预训练数据的基准。该数据集包含165本书,其中60本于2023年出版,标记为非训练数据,而105本在2022年之前出版,标记为训练数据。每本书约提取34个段落,每个段落使用语言模型Claude v2.0进行三次改写。数据集中的_Answer_列指示哪个段落是真实摘录。段落分为小、中、大三种尺寸,分别约包含64、128和256个令牌。该数据集计划用于多项选择问答格式,但也兼容其他预训练数据检测方法。
提供机构:
avduarte333
原始信息汇总

📚 BookTection Dataset

概述

BookTection数据集是一个用于检测大型语言模型预训练数据的基准数据集。该数据集包含165本书,分为两类:

  • 60本出版于2023年:非训练数据,"label"列标记为0。
  • 105本出版于2022年之前:训练数据,"label"列标记为1。

数据结构

每本书中提取约34个段落,每个段落通过语言模型Claude v2.0进行三次改写。"Answer"列指示哪个段落是真实摘录。段落分为三种大小(小、中、大),分别约为64、128和256个词。

应用场景

该数据集计划用于多选题问答格式,但也兼容其他预训练数据检测方法。

兼容性

该数据集适用于多种模型,包括:

  • LLaMA-2
  • Mistral
  • Mixtral
  • Chat-GPT (gpt-3.5-turbo-instruct)
  • GPT-3 (text-davinci-003)
  • Claude

数据加载

python from datasets import load_dataset

dataset = load_dataset("avduarte333/BookTection")

引用

bibtex @misc{duarte2024decop, title={{DE-COP: Detecting Copyrighted Content in Language Models Training Data}}, author={André V. Duarte and Xuandong Zhao and Arlindo L. Oliveira and Lei Li}, year={2024}, eprint={2402.09910}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作