five

google-research-datasets/sent_comp

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/sent_comp
下载链接
链接失效反馈
官方服务:
资源简介:
Google Sentence Compression数据集是一个用于句子压缩任务的数据集,主要包含原始句子和压缩后的句子。数据集的创建目的是为了解决监督式句子压缩任务中数据稀缺的问题,通过自动构建一个包含数十万实例的压缩语料库,使得基于删除的算法能够进行训练。数据集中的压缩句子的句法树是其未压缩句子的子树,因此需要输入和输出之间结构对齐的监督系统可以成功训练。数据集还扩展了现有的无监督压缩方法,增加了学习模块,使用结构化预测来学习词汇、句法和其他特征。数据集的语言为英语,数据规模在10万到100万之间。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

数据集摘要

Google Sentence Compression 数据集是一个用于句子压缩任务的数据集,包含数十万个实例。该数据集通过修剪依赖关系连接来创建压缩句子,使得压缩句子的句法树是其未压缩对应部分的子树。这使得需要输入和输出结构对齐的监督系统能够成功训练。

数据集结构

数据实例

每个数据实例包含原始句子和压缩句子的信息,以及它们的依赖树和变换图。

数据字段

每个实例包含以下信息:

  • graph (Dict): 用于提取压缩的变换图/树(依赖树的修改版本)。
    • 包含依赖树的特征(如下所列)
  • compression (Dict)
    • text (str)
    • edge (List)
  • headline (str): 原始新闻页面的标题。
  • compression_ratio (float): 压缩句子与原始句子的比例。
  • doc_id (str): 原始新闻页面的URL。
  • source_tree (Dict): 原始依赖树(特征如下所列)。
  • compression_untransformed (Dict)
    • text (str)
    • edge (List)

依赖树特征:

  • id (str)
  • sentence (str)
  • node (List): 节点列表,每个节点表示树中的一个词/词组。
    • form (string)
    • type (string): 节点的实体类型。如果不是实体,则默认为""
    • mid (string)
    • word (List): 节点包含的词列表。
      • id (int)
      • form (str): 句子中的词。
      • stem (str): 词的词干/词形还原版本。
      • tag (str): 词的依赖标签。
    • gender (int)
    • head_word_index (int)
  • edge: 词之间的依赖连接列表。
    • parent_id (int)
    • child_id (int)
    • label (str)
  • entity_mention 句子中的实体列表。
    • start (int)
    • end (int)
    • head (str)
    • name (str)
    • type (str)
    • mid (str)
    • is_proper_name_entity (bool)
    • gender (int)

数据分割

数据集包含验证集和训练集:

  • validation:包含10,000个实例,55,823,979字节。
  • train:包含200,000个实例,1,135,684,803字节。

数据集创建

数据来源

数据集的原始数据是直接获取的。

标注

标注过程是机器生成的。

数据集信息

特征

数据集包含以下特征:

  • graph
    • id (string)
    • sentence (string)
    • node
      • form (string)
      • type (string)
      • mid (string)
      • word
        • id (int32)
        • form (string)
        • stem (string)
        • tag (string)
      • gender (int32)
      • head_word_index (int32)
    • edge
      • parent_id (int32)
      • child_id (int32)
      • label (string)
    • entity_mention
      • start (int32)
      • end (int32)
      • head (int32)
      • name (string)
      • type (string)
      • mid (string)
      • is_proper_name_entity (bool)
      • gender (int32)
  • compression
    • text (string)
    • edge
      • parent_id (int32)
      • child_id (int32)
  • headline (string)
  • compression_ratio (float32)
  • doc_id (string)
  • source_tree
    • id (string)
    • sentence (string)
    • node
      • form (string)
      • type (string)
      • mid (string)
      • word
        • id (int32)
        • form (string)
        • stem (string)
        • tag (string)
      • gender (int32)
      • head_word_index (int32)
    • edge
      • parent_id (int32)
      • child_id (int32)
      • label (string)
    • entity_mention
      • start (int32)
      • end (int32)
      • head (int32)
      • name (string)
      • type (string)
      • mid (string)
      • is_proper_name_entity (bool)
      • gender (int32)
  • compression_untransformed
    • text (string)
    • edge
      • parent_id (int32)
      • child_id (int32)

数据集大小

  • 下载大小:259,652,560字节
  • 数据集大小:1,191,508,782字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作