avduarte333/BookTection
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/avduarte333/BookTection
下载链接
链接失效反馈官方服务:
资源简介:
BookTection数据集旨在作为检测大型语言模型预训练数据的基准。该数据集包含165本书,其中60本于2023年出版,标记为非训练数据,而105本在2022年之前出版,标记为训练数据。每本书约提取34个段落,每个段落使用语言模型Claude v2.0进行三次改写。数据集中的_Answer_列指示哪个段落是真实摘录。段落分为小、中、大三种尺寸,分别约包含64、128和256个令牌。该数据集计划用于多项选择问答格式,但也兼容其他预训练数据检测方法。
BookTection数据集旨在作为检测大型语言模型预训练数据的基准。该数据集包含165本书,其中60本于2023年出版,标记为非训练数据,而105本在2022年之前出版,标记为训练数据。每本书约提取34个段落,每个段落使用语言模型Claude v2.0进行三次改写。数据集中的_Answer_列指示哪个段落是真实摘录。段落分为小、中、大三种尺寸,分别约包含64、128和256个令牌。该数据集计划用于多项选择问答格式,但也兼容其他预训练数据检测方法。
提供机构:
avduarte333
原始信息汇总
📚 BookTection Dataset
概述
BookTection数据集是一个用于检测大型语言模型预训练数据的基准数据集。该数据集包含165本书,分为两类:
- 60本出版于2023年:非训练数据,"label"列标记为0。
- 105本出版于2022年之前:训练数据,"label"列标记为1。
数据结构
每本书中提取约34个段落,每个段落通过语言模型Claude v2.0进行三次改写。"Answer"列指示哪个段落是真实摘录。段落分为三种大小(小、中、大),分别约为64、128和256个词。
应用场景
该数据集计划用于多选题问答格式,但也兼容其他预训练数据检测方法。
兼容性
该数据集适用于多种模型,包括:
- LLaMA-2
- Mistral
- Mixtral
- Chat-GPT (gpt-3.5-turbo-instruct)
- GPT-3 (text-davinci-003)
- Claude
数据加载
python from datasets import load_dataset
dataset = load_dataset("avduarte333/BookTection")
引用
bibtex @misc{duarte2024decop, title={{DE-COP: Detecting Copyrighted Content in Language Models Training Data}}, author={André V. Duarte and Xuandong Zhao and Arlindo L. Oliveira and Lei Li}, year={2024}, eprint={2402.09910}, archivePrefix={arXiv}, primaryClass={cs.CL} }



