GEM/SIMPITIKI
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/SIMPITIKI
下载链接
链接失效反馈官方服务:
资源简介:
SIMPITIKI是一个意大利语文本简化数据集,主要用于训练自然语言生成模型以简化复杂文本。数据集中的样本来自意大利维基百科和意大利特伦托市的行政文件,样本的编辑跟踪描述中包含“简化”相关词汇。数据集的结构包括原始文本、简化文本、转换类型和来源数据集等字段。数据集提供了多种分割方式,包括训练集、验证集和测试集,以及针对不同转换类型和领域的挑战集。数据集的创建目的是促进意大利语文本简化研究,并支持模型在不同转换类型和领域上的泛化能力。
提供机构:
GEM
原始信息汇总
数据集概述:SIMPITIKI
数据集描述
- 语言: 意大利语 (
Italian) - 许可证: cc-by-4.0: 创意共享署名4.0国际许可
- 任务类别: 文本到文本生成 (
text2text-generation) - 任务ID: 文本简化 (
text-simplification) - 数据集名称: SIMPITIKI
数据集概要
SIMPITIKI是一个意大利语简化数据集,其样本选自意大利维基百科,编辑跟踪描述中包含“简化”、“简化”或“简化”等词。
数据集结构
数据字段
gem_id(字符串): 唯一样本IDtext(字符串): 待简化的原始文本simplified_text(字符串): "text"字段的简化版本transformation_type(字符串): 应用于原始文本以简化它的变换类型source_dataset(字符串): 样本的初始数据集来源,值为itwiki(意大利维基百科)或tn(意大利特伦托市手动注释的行政文档)
数据分割
- "train": 从初始语料库随机选择的训练样本,共816个样本
- "validation": 从初始语料库随机选择的验证样本,共174个样本
- "test": 从初始语料库随机选择的测试样本,共176个样本
- "challenge_seen_transformations_train": 此训练挑战分割包含特定的变换以简化原始文本,共562个样本
- "challenge_seen_transformations_val": 此验证挑战分割包含与训练中观察到的相同的变换,共121个样本
- "challenge_seen_transformations_test": 此测试挑战分割包含与训练中观察到的相同的变换,共127个样本
- "challenge_unseen_transformations_test": 此测试挑战分割包含未在训练中观察到的变换,共356个样本
- "challenge_itwiki_train": 此挑战分割包含来自意大利维基百科的随机样本,共402个样本
- "challenge_itwiki_val": 此验证挑战分割包含来自意大利维基百科的随机样本,共86个样本
- "challenge_itwiki_test": 此测试挑战分割包含来自意大利维基百科的随机样本,共87个样本
- "challenge_tn_test": 此测试挑战分割包含来自特伦托市行政文档的所有样本,共591个样本
数据集用途
- 目的: 训练NLG模型以简化复杂文本,通过学习不同的变换类型(动词到名词,名词到动词,删除,插入等)
- 主要任务: 简化
- 通信目标: 该数据集旨在增强意大利语文本简化的研究,采用不同的文本变换。
数据集创建
- 创建组织类型: 学术、独立
- 创建组织: 布鲁诺凯斯勒基金会 (FBK)
- 数据集创建者: Sara Tonelli (布鲁诺凯斯勒基金会), Alessio Palmero Aprosio (布鲁诺凯斯勒基金会), Francesca Saltori (布鲁诺凯斯勒基金会)
- 资金: EU Horizon 2020 Programme via the SIMPATICO Project (H2020-EURO-6-2015, n. 692819)
数据集在GEM中的包含理由
- 贡献: 该数据集促进意大利语简化任务的研究。
- 测量能力: 模型可以评估其是否能够根据不同的简化变换简化文本。



