moreStories

Hugging Face2024-12-17 更新2024-12-18 收录

下载链接：

https://huggingface.co/datasets/s-ostrove/moreStories

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个tinyStories数据集的增强版本，增加了24000个新故事，包括8000个包含代词的故事，8000个包含否定极性项'ever'的故事，以及8000个同时包含这两者的故事。新故事由GPT-4生成，使用与原始tinyStories生成提示相似的提示。

创建时间：

2024-12-06

原始信息汇总

数据集概述

数据集信息

许可证: cdla-sharing-1.0
配置:
- 默认配置:
  - 训练集:
    - 路径: data/train-*
    - 分割: train
  - 测试集:
    - 路径: data/test-*
    - 分割: test

数据集特征

特征:
- 名称: text
- 数据类型: string

数据集分割

训练集:
- 字节数: 2119573024.760723
- 样本数: 2359709
测试集:
- 字节数: 19761168.239276923
- 样本数: 22000

数据集大小

下载大小: 1132158161
数据集大小: 2139334193.0

数据集描述

该数据集是tinyStories数据集的增强版本，增加了24000个新故事。
- 8000个故事包含代词（‘himself’, ‘herself’, ‘themself’, 或 ‘themselves’）。
- 8000个故事包含否定极性项（NPI）‘ever’。
- 8000个故事同时包含上述两者。
新故事由GPT-4生成，使用与原始tinyStories生成提示类似的方式。

搜集汇总

数据集介绍

构建方式

moreStories数据集是在tinyStories数据集的基础上进行扩展的，通过GPT-4模型生成了24000个新故事。这些新故事分为三类：包含代词（如‘himself’, ‘herself’, ‘themself’, 或‘themselves’）的故事、包含否定极性词（如‘ever’）的故事，以及同时包含这两者的故事。生成过程采用了与原始tinyStories生成提示相似的策略，确保了数据集的多样性和复杂性。

特点

该数据集的显著特点在于其多样化的故事内容，涵盖了代词和否定极性词的使用，这为自然语言处理研究提供了丰富的语料。此外，数据集的规模较大，训练集包含2359709个样本，测试集包含22000个样本，适合用于大规模语言模型的训练和评估。

使用方法

moreStories数据集可用于多种自然语言处理任务，如文本生成、语言模型训练和语义理解研究。用户可以通过HuggingFace平台下载并加载该数据集，使用其提供的训练和测试分割进行模型训练和评估。数据集的结构设计便于直接应用于现有的深度学习框架，支持快速集成和实验。

背景与挑战

背景概述

moreStories数据集是在tinyStories数据集的基础上进行扩展的，由24000个新故事组成，这些新故事分别包含代词（如‘himself’, ‘herself’, ‘themself’, 或‘themselves’）和否定极性项（NPI）‘ever’，或者同时包含两者。该数据集的创建旨在丰富自然语言处理领域中的语料库，特别是针对代词和否定极性项的语言现象进行深入研究。通过使用GPT-4模型生成，这些新故事在保持原有生成提示的基础上，进一步探索了语言模型的生成能力和语言现象的多样性。

当前挑战

moreStories数据集在构建过程中面临的主要挑战包括：首先，确保新添加的故事在语法和语义上与原始数据集保持一致，这对语言模型的生成质量提出了高要求。其次，如何在大量生成的故事中筛选出符合研究目标的样本，确保数据集的纯净性和研究的有效性。此外，数据集中涉及的代词和否定极性项的使用需要精确控制，以避免引入不必要的语言偏差或错误。这些挑战不仅影响了数据集的质量，也对后续的研究分析提出了更高的要求。

常用场景

经典使用场景

moreStories数据集在自然语言处理领域中，常用于评估和训练模型对代词和否定极性词的理解能力。通过包含大量带有代词（如‘himself’, ‘herself’, ‘themself’, ‘themselves’）和否定极性词（如‘ever’）的故事，该数据集为研究者提供了一个丰富的语料库，用于分析和提升模型在处理复杂语言结构时的表现。

解决学术问题

该数据集解决了在自然语言处理中，模型对代词和否定极性词的理解和处理能力不足的问题。通过提供大量包含这些语言现象的文本，研究者能够更精确地评估和改进模型在这些特定语言结构上的表现，从而推动自然语言理解技术的发展。

衍生相关工作

基于moreStories数据集，研究者们开展了多项相关工作，包括但不限于代词解析模型的改进、否定极性词处理的算法优化以及多语言环境下的语言理解研究。这些工作不仅提升了现有模型的性能，还为未来的自然语言处理研究提供了新的方向和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集