five

GEM/turku_hockey_data2text

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/turku_hockey_data2text
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个芬兰语的数据到文本数据集,输入是冰球比赛的结构化信息,输出是比赛的描述。数据集旨在评估无模板的机器学习方法在芬兰冰球新闻报道中的生成能力。

This is a Finnish-language data-to-text dataset, where the input is structured information of ice hockey matches and the output is game descriptions. This dataset aims to evaluate the generative capability of template-free machine learning methods for Finnish ice hockey news reporting.
提供机构:
GEM
原始信息汇总

数据集概述

数据集名称

  • 名称: turku_hockey_data2text
  • 别名: GEM/turku_hockey_data2text

数据集描述

  • 语言: 芬兰语 (Finnish)
  • 许可证: cc-by-nc-sa-4.0 (Creative Commons Attribution Non Commercial Share Alike 4.0 International)
  • 任务类别: 表格到文本 (table-to-text)
  • 任务ID: 无
  • 标签: 数据到文本 (data-to-text)
  • 摘要: 这是一个芬兰语数据到文本的数据集,输入为关于曲棍球比赛的结构化信息,输出为比赛的描述。

数据集结构

  • 数据字段: 数据集包含游戏和事件信息,每个事件包括事件ID、类型、文本描述等。
  • 示例实例: 提供了一个JSON格式的示例,展示了数据集中的典型实例。

数据集使用

  • 目的: 用于评估模板自由的机器学习方法在芬兰新闻生成领域的应用,特别是在冰球报道方面。
  • 主要任务: 数据到文本 (Data-to-Text)

数据集来源

  • 源数据集: 原始数据 (original)
  • 数据获取: 可通过datasets.load_dataset(GEM/turku_hockey_data2text)加载。

数据集创建与维护

  • 创建者: Jenna Kanerva, Samuel Rönnqvist, Riina Kekki, Tapio Salakoski, Filip Ginter (TurkuNLP / University of Turku)
  • 维护者: Jenna Kanerva, Filip Ginter
  • 联系方式: jmnybl@utu.fi, figint@utu.fi
  • 资金支持: 项目得到Google数字新闻创新基金的支持。

数据集特点

  • 多语言性: 否
  • 方言覆盖: 标准书面语言
  • 数据集修改: GEM版本的数据集进行了修改,具体包括数据点的修改。

数据集评估

  • 评估指标: BLEU, METEOR, ROUGE, WER
  • 评估方法: 自动评估(BLEU, NIST, METEOR, ROUGE-L, CIDEr)和手动评估(事实错误、语法错误、最小编辑距离)

数据集在GEM中的角色

  • 独特性: 是GEM中唯一的数据到文本的芬兰语数据集。
  • 测量能力: 测量模型的形态变化和语言变异能力。

数据集的获取与文档

数据集分割

  • 分割: 训练集、验证集、测试集

数据集注释

  • 注释创建者: 专家创建
  • 注释质量控制: 由数据管理员验证

数据集的获取与文档

数据集分割

  • 分割: 训练集、验证集、测试集

数据集注释

  • 注释创建者: 专家创建
  • 注释质量控制: 由数据管理员验证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作