five

GEM/SIMPITIKI

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/SIMPITIKI
下载链接
链接失效反馈
官方服务:
资源简介:
SIMPITIKI是一个意大利语文本简化数据集,主要用于训练自然语言生成模型以简化复杂文本。数据集中的样本来自意大利维基百科和意大利特伦托市的行政文件,样本的编辑跟踪描述中包含“简化”相关词汇。数据集的结构包括原始文本、简化文本、转换类型和来源数据集等字段。数据集提供了多种分割方式,包括训练集、验证集和测试集,以及针对不同转换类型和领域的挑战集。数据集的创建目的是促进意大利语文本简化研究,并支持模型在不同转换类型和领域上的泛化能力。
提供机构:
GEM
原始信息汇总

数据集概述:SIMPITIKI

数据集描述

  • 语言: 意大利语 (Italian)
  • 许可证: cc-by-4.0: 创意共享署名4.0国际许可
  • 任务类别: 文本到文本生成 (text2text-generation)
  • 任务ID: 文本简化 (text-simplification)
  • 数据集名称: SIMPITIKI

数据集概要

SIMPITIKI是一个意大利语简化数据集,其样本选自意大利维基百科,编辑跟踪描述中包含“简化”、“简化”或“简化”等词。

数据集结构

数据字段

  • gem_id (字符串): 唯一样本ID
  • text (字符串): 待简化的原始文本
  • simplified_text (字符串): "text"字段的简化版本
  • transformation_type (字符串): 应用于原始文本以简化它的变换类型
  • source_dataset (字符串): 样本的初始数据集来源,值为itwiki(意大利维基百科)或tn(意大利特伦托市手动注释的行政文档)

数据分割

  • "train": 从初始语料库随机选择的训练样本,共816个样本
  • "validation": 从初始语料库随机选择的验证样本,共174个样本
  • "test": 从初始语料库随机选择的测试样本,共176个样本
  • "challenge_seen_transformations_train": 此训练挑战分割包含特定的变换以简化原始文本,共562个样本
  • "challenge_seen_transformations_val": 此验证挑战分割包含与训练中观察到的相同的变换,共121个样本
  • "challenge_seen_transformations_test": 此测试挑战分割包含与训练中观察到的相同的变换,共127个样本
  • "challenge_unseen_transformations_test": 此测试挑战分割包含未在训练中观察到的变换,共356个样本
  • "challenge_itwiki_train": 此挑战分割包含来自意大利维基百科的随机样本,共402个样本
  • "challenge_itwiki_val": 此验证挑战分割包含来自意大利维基百科的随机样本,共86个样本
  • "challenge_itwiki_test": 此测试挑战分割包含来自意大利维基百科的随机样本,共87个样本
  • "challenge_tn_test": 此测试挑战分割包含来自特伦托市行政文档的所有样本,共591个样本

数据集用途

  • 目的: 训练NLG模型以简化复杂文本,通过学习不同的变换类型(动词到名词,名词到动词,删除,插入等)
  • 主要任务: 简化
  • 通信目标: 该数据集旨在增强意大利语文本简化的研究,采用不同的文本变换。

数据集创建

  • 创建组织类型: 学术、独立
  • 创建组织: 布鲁诺凯斯勒基金会 (FBK)
  • 数据集创建者: Sara Tonelli (布鲁诺凯斯勒基金会), Alessio Palmero Aprosio (布鲁诺凯斯勒基金会), Francesca Saltori (布鲁诺凯斯勒基金会)
  • 资金: EU Horizon 2020 Programme via the SIMPATICO Project (H2020-EURO-6-2015, n. 692819)

数据集在GEM中的包含理由

  • 贡献: 该数据集促进意大利语简化任务的研究。
  • 测量能力: 模型可以评估其是否能够根据不同的简化变换简化文本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作