GEM/SIMPITIKI

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/SIMPITIKI

下载链接

链接失效反馈

官方服务：

资源简介：

SIMPITIKI是一个意大利语文本简化数据集，主要用于训练自然语言生成模型以简化复杂文本。数据集中的样本来自意大利维基百科和意大利特伦托市的行政文件，样本的编辑跟踪描述中包含“简化”相关词汇。数据集的结构包括原始文本、简化文本、转换类型和来源数据集等字段。数据集提供了多种分割方式，包括训练集、验证集和测试集，以及针对不同转换类型和领域的挑战集。数据集的创建目的是促进意大利语文本简化研究，并支持模型在不同转换类型和领域上的泛化能力。

提供机构：

GEM

原始信息汇总

数据集概述：SIMPITIKI

数据集描述

语言: 意大利语 (Italian)
许可证: cc-by-4.0: 创意共享署名4.0国际许可
任务类别: 文本到文本生成 (text2text-generation)
任务ID: 文本简化 (text-simplification)
数据集名称: SIMPITIKI

数据集概要

SIMPITIKI是一个意大利语简化数据集，其样本选自意大利维基百科，编辑跟踪描述中包含“简化”、“简化”或“简化”等词。

数据集结构

数据字段

gem_id (字符串): 唯一样本ID
text (字符串): 待简化的原始文本
simplified_text (字符串): "text"字段的简化版本
transformation_type (字符串): 应用于原始文本以简化它的变换类型
source_dataset (字符串): 样本的初始数据集来源，值为itwiki（意大利维基百科）或tn（意大利特伦托市手动注释的行政文档）

数据分割

"train": 从初始语料库随机选择的训练样本，共816个样本
"validation": 从初始语料库随机选择的验证样本，共174个样本
"test": 从初始语料库随机选择的测试样本，共176个样本
"challenge_seen_transformations_train": 此训练挑战分割包含特定的变换以简化原始文本，共562个样本
"challenge_seen_transformations_val": 此验证挑战分割包含与训练中观察到的相同的变换，共121个样本
"challenge_seen_transformations_test": 此测试挑战分割包含与训练中观察到的相同的变换，共127个样本
"challenge_unseen_transformations_test": 此测试挑战分割包含未在训练中观察到的变换，共356个样本
"challenge_itwiki_train": 此挑战分割包含来自意大利维基百科的随机样本，共402个样本
"challenge_itwiki_val": 此验证挑战分割包含来自意大利维基百科的随机样本，共86个样本
"challenge_itwiki_test": 此测试挑战分割包含来自意大利维基百科的随机样本，共87个样本
"challenge_tn_test": 此测试挑战分割包含来自特伦托市行政文档的所有样本，共591个样本

数据集用途

目的: 训练NLG模型以简化复杂文本，通过学习不同的变换类型（动词到名词，名词到动词，删除，插入等）
主要任务: 简化
通信目标: 该数据集旨在增强意大利语文本简化的研究，采用不同的文本变换。

数据集创建

创建组织类型: 学术、独立
创建组织: 布鲁诺凯斯勒基金会 (FBK)
数据集创建者: Sara Tonelli (布鲁诺凯斯勒基金会), Alessio Palmero Aprosio (布鲁诺凯斯勒基金会), Francesca Saltori (布鲁诺凯斯勒基金会)
资金: EU Horizon 2020 Programme via the SIMPATICO Project (H2020-EURO-6-2015, n. 692819)

数据集在GEM中的包含理由

贡献: 该数据集促进意大利语简化任务的研究。
测量能力: 模型可以评估其是否能够根据不同的简化变换简化文本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集