five

flwrlabs/shakespeare

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flwrlabs/shakespeare
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是LEAF基准测试的一部分,构建自《The Complete Works of William Shakespeare》,旨在用于下一个字符预测任务。每个样本包含80个字符的文本和下一个字符。数据集仅包含训练集,且数据是时间序列的,因此在划分时需要小心以避免信息泄露。数据集主要用于联邦学习环境,每个字符和剧本的组合代表联邦中的一个唯一用户。

该数据集是LEAF基准测试的一部分,构建自《The Complete Works of William Shakespeare》,旨在用于下一个字符预测任务。每个样本包含80个字符的文本和下一个字符。数据集仅包含训练集,且数据是时间序列的,因此在划分时需要小心以避免信息泄露。数据集主要用于联邦学习环境,每个字符和剧本的组合代表联邦中的一个唯一用户。
提供机构:
flwrlabs
原始信息汇总

数据集卡片

数据集详情

数据集描述

  • 数据集名称: Shakespeare
  • 数据集来源: LEAF
  • 语言: 英语
  • 许可证: BSD 2-Clause License
  • 数据集大小: 1M<n<10M
  • 任务类别: 文本生成

数据集结构

  • 数据文件:

    • shakespeare.csv
      • split: train
  • 数据列:

    • character_id: str - 表示角色和剧目的唯一ID(在联邦学习设置中表示节点)
    • x: str - 80个字符的文本
    • y: str - 紧随x的单个字符

数据集用途

  • 直接用途: 该数据集设计用于联邦学习(FL)设置。推荐使用Flower DatasetFlower框架。

数据集创建

数据集分割

  • 数据集分割: 仅包含训练集分割。分割在每个节点上进行(无集中式数据集)。

数据集引用

  • BibTeX:

@article{DBLP:journals/corr/abs-1812-01097, author = {Sebastian Caldas and Peter Wu and Tian Li and Jakub Kone{v{c}}n{y} and H. Brendan McMahan and Virginia Smith and Ameet Talwalkar}, title = {{LEAF:} {A} Benchmark for Federated Settings}, journal = {CoRR}, volume = {abs/1812.01097}, year = {2018}, url = {http://arxiv.org/abs/1812.01097}, eprinttype = {arXiv}, eprint = {1812.01097}, timestamp = {Wed, 23 Dec 2020 09:35:18 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-1812-01097.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

@article{DBLP:journals/corr/abs-2007-14390, author = {Daniel J. Beutel and Taner Topal and Akhil Mathur and Xinchi Qiu and Titouan Parcollet and Nicholas D. Lane}, title = {Flower: {A} Friendly Federated Learning Research Framework}, journal = {CoRR}, volume = {abs/2007.14390}, year = {2020}, url = {https://arxiv.org/abs/2007.14390}, eprinttype = {arXiv}, eprint = {2007.14390}, timestamp = {Mon, 03 Aug 2020 14:32:13 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2007-14390.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由LEAF基准集构建,其核心来源于莎士比亚的完整作品。数据集通过采集文本中的连续80个字符作为输入(x),紧接着的下一个字符作为输出(y),以此形成一个个样本,旨在进行下一个字符的预测任务。
特点
Shakespeare数据集的特点在于,其专为联邦学习场景设计,每个字符和剧本的组合代表联邦中的一个独特用户。数据集遵循BSD 2-Clause许可证,以英语为主要处理语言,且仅包含训练集划分。数据以时间序列形式存在,因此在划分时需格外小心,以避免训练集信息泄露。
使用方法
在使用该数据集时,推荐通过Flower Dataset和Flower框架进行。首先安装相关包,然后利用Flower Datasets加载并划分数据集,通过设定partition_by为'character_id',可以确保数据按照字符ID进行划分,适应联邦学习的需求。
背景与挑战
背景概述
Shakespeare数据集,作为LEAF benchmark的一部分,由卡内基梅隆大学LEAF团队构建。该数据集源于威廉·莎士比亚的完整作品,旨在为下一个字符预测任务提供支持。数据集包含80个字符的文本及其后续的单个字符。自发布以来,该数据集在自然语言处理领域,特别是在联邦学习场景中,对推动文本生成任务的研究发挥了重要作用。
当前挑战
该数据集的挑战主要表现在两个方面:一是如何有效地在联邦学习框架下处理分布式数据,确保隐私和安全;二是数据的时间敏感性,需要谨慎划分训练集以避免信息泄露。此外,构建过程中还需处理数据的收集、预处理以及确保数据质量等问题。
常用场景
经典使用场景
在自然语言处理领域,字符级别的文本生成任务始终是一个挑战。flwrlabs/shakespeare数据集为此提供了完美的实验场。该数据集由80个字符组成的文本片段及其后续字符组成,旨在进行下一个字符的预测。这种设置使得它成为研究字符级语言模型的经典场景,尤其是在联邦学习框架下,对模型进行分布式训练和评估。
解决学术问题
该数据集解决了联邦学习环境中模型训练的一致性和隐私保护问题。通过将莎士比亚作品分割成字符对,每个字符对代表一个独特的用户,研究者可以在保证数据隐私的同时,探索不同节点间的模型协作与知识共享。这对于理解和优化联邦学习的算法和协议具有重要的学术价值。
衍生相关工作
基于flwrlabs/shakespeare数据集,已经衍生出了一系列相关研究工作,包括对联邦学习算法的改进、模型隐私性的增强以及跨节点通信效率的提升。这些研究进一步推动了联邦学习技术在文本生成和其他自然语言处理任务中的应用,为隐私保护的语言模型研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作