TinyStories-Italian-Improved

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/markod0925/TinyStories-Italian-Improved

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本及其相关特征，如翻译、摘要、问题、实体、动词信息等。它有一个训练集部分，包含了299个示例，数据集总大小为657565字节。

创建时间：

2025-07-29

原始信息汇总

TinyStories-Italian-Improved 数据集概述

数据集基本信息

数据集名称: TinyStories-Italian-Improved
下载大小: 190853382
数据集大小: 359065828.08178675
训练集样本数: 152360

数据集特征

text: 原始文本（字符串类型）
translated_it: 意大利语翻译文本（字符串类型）
summary_it: 意大利语摘要（字符串类型）
question_it: 意大利语问题（字符串类型）
entities_it: 意大利语实体（字符串类型）
verbs_it: 意大利语动词（字符串类型）
word_count_it: 意大利语单词计数（int64类型）

数据集结构

训练集:
- 路径: data/train-*
- 字节数: 359065828.08178675
- 样本数: 152360

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言故事数据集对于跨文化叙事研究具有重要价值。TinyStories-Italian-Improved数据集通过先进的机器翻译技术构建，基于原始英文故事语料，采用Horizon/Alpha、Horizon/Beta（即GTP-OSS-120B）和Qwen3 32B三种大语言模型进行意大利语翻译。翻译过程通过专门的Colab笔记本实现自动化处理，确保文本转换的准确性和一致性，最终形成包含70余万条样本的大规模双语叙事数据集。

特点

该数据集展现出多维度的语言学特征，不仅提供完整的英意双语平行文本，还包含丰富的语义标注层。每个故事均配备意大利语摘要、生成提示问题、实体列表、动作动词集合以及词数统计信息。这种多层次的结构设计使得数据集既能支持机器翻译任务，又能满足文本生成、语义分析和语言复杂度研究等多重需求，为意大利语自然语言处理提供了全面的训练资源。

使用方法

研究人员可将该数据集用于开放权重模型的微调训练，特别适合采用LoRA等参数高效微调方法。在具体应用中，用户可分别利用翻译对句进行跨语言理解研究，通过摘要和提示文本开展生成模型训练，或借助实体和动词标注进行语义角色标注任务。数据集的多样化字段支持端到端的叙事生成系统开发，同时为意大利语语言模型的预训练提供高质量语料。

背景与挑战

背景概述

在自然语言处理领域，高质量双语数据集对跨语言模型训练具有关键价值。TinyStories-Italian-Improved数据集由匿名研究者于2023年基于Ronen Eldan开发的英文故事数据集构建而成，通过对原始文本进行机器翻译与语义标注，旨在为意大利语文本生成与跨语言理解任务提供结构化语料。该数据集依托GPT-OSS-120B和Qwen3等大语言模型实现翻译与摘要生成，显著提升了意大利语NLP资源的丰富度，为低资源语言模型的微调与训练提供了重要基础设施。

当前挑战

该数据集致力于解决意大利语文本生成与跨语言迁移任务中的语义一致性挑战，其构建过程面临多重技术难点：机器翻译需保持儿童故事的语法简洁性与叙事连贯性，而意大利语复杂的形态变化与性别一致性要求对翻译模型提出更高要求；实体与动词的自动标注需克服指代消歧与语境依赖问题；此外，原始英文文化特定表达的本土化转换亦构成显著挑战，需通过多模型协同与后编辑策略确保语言质量。

常用场景

经典使用场景

在自然语言处理领域，TinyStories-Italian-Improved数据集为意大利语文本生成任务提供了重要支撑。该数据集通过精心翻译的意大利语故事文本，配合摘要、实体列表和动词标注，成为训练轻量级语言模型的优质语料。研究者通常利用其结构化特征进行可控文本生成实验，特别是在低资源环境下优化模型的语言流畅性和逻辑连贯性。

解决学术问题

该数据集有效解决了意大利语自然语言处理研究中高质量训练数据稀缺的学术难题。通过提供经过专业翻译和语言学标注的平行语料，它支持跨语言迁移学习、低资源语言模型微调等研究方向。其多层次标注体系为研究故事文本的语义结构和叙事逻辑提供了实证基础，推动了小参数模型在非英语语言上的性能突破。

衍生相关工作

该数据集衍生出多个具有影响力的研究方向，包括基于LoRA的意英双语模型微调架构、小参数模型的跨语言泛化能力评估框架等。相关研究团队进一步开发了针对意大利语语法结构的特殊优化技术，并构建了基于实体-动词关系的叙事一致性评估指标。这些工作为低资源语言的神经语言模型研究提供了重要方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集