five

GEM/BiSECT

收藏
Hugging Face2022-09-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/BiSECT
下载链接
链接失效反馈
官方服务:
资源简介:
BiSECT数据集是一个用于句子拆分和简化任务的多语言数据集,包含英语、德语、法语和西班牙语。数据集由100万个复杂句子组成,目标是将这些句子拆分为更简单的句子,同时保留完整的意义。与其他简化语料库相比,BiSECT需要更显著的编辑。数据集的结构包括`gem_id`、`source_sentence`和`target_sentence`三个字段。数据集的创建是为了满足对大规模高质量Split and Rephrase语料库的需求,并且它已被证明比之前的语料库质量更高,包含更广泛的拆分操作。
提供机构:
GEM
原始信息汇总

数据集概述

数据集描述

  • 名称: BiSECT
  • 任务类型: 简化
  • 语言: 英语, 德语, 法语, 西班牙语
  • 许可: 其他
  • 目的: 将复杂句子分割并简化,同时保留完整意义

数据集详情

语言和预期用途

  • 多语言: 是
  • 覆盖语言: 英语, 德语, 法语, 西班牙语
  • 预期用途: 分割和改写
  • 主要任务: 简化

数据集结构

  • 数据字段:

    • gem_id (字符串): 实例的唯一标识符
    • source_sentence (字符串): 待简化的句子
    • target_sentence (字符串): 分割和改写后的简化文本
  • 示例实例:

    { "gem_id": "bisect-train-0", "source_sentence": "The report on the visit to Bhutan states that the small community has made the task of coordination less complex and success is manifested in the synchronized programming cycles which now apply to all but one of the agencies ( the World Health Organization ) .", "target_sentence": "The report on the visit to Bhutan says that the small community has made the coordination work less complex . Success manifests itself in synchronized programming cycles that now apply to all but one organism ( the World Health Organization ) ." }

  • 数据分割:

    • 英语: 训练 (n=928440), 验证 (n=9079), 测试 (n=583)
    • 德语: 训练 (n=184638), 验证 (n=864), 测试 (n=735)
    • 西班牙语: 训练 (n=282944), 验证 (n=3638), 测试 (n=3081)
    • 法语: 训练 (n=491035), 验证 (n=2400), 测试 (n=1036)

数据集在GEM中的包含理由

  • 贡献: 促进对长而复杂句子的理解和研究,特别是在分割和改写任务中
  • 独特性: 是目前最大的分割和改写任务数据集,质量高于其他同类数据集

数据集获取和使用

  • 获取方式: 通过 datasets.load_dataset(GEM/BiSECT) 加载
  • 资源: 可参考原始论文和数据集的GitHub仓库进行深入研究

数据集评估

  • 评估指标: SARI, BERTScore
  • 评估方法: 自动评估结合人工评估

数据集维护

  • 维护计划: 无

社会影响

  • 对未服务社区的影响: 通过提供多语言支持,有助于满足不同语言社区的需求
  • 潜在偏见: 未发现已记录的社会偏见
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作