five

martinjosifoski/SynthIE

收藏
Hugging Face2023-03-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/martinjosifoski/SynthIE
下载链接
链接失效反馈
资源简介:
SynthIE数据集是一个用于封闭信息抽取(IE)任务的高质量数据集,通过反转任务方向(从三元组到文本)生成训练数据。数据集包含三个子数据集:SynthIE-code、SynthIE-text和REBEL,分别由不同的模型生成。SynthIE-code包含约180万训练样本、1万验证样本和5万测试样本,由code-davinci-002生成;SynthIE-text包含1万验证样本和5万测试样本,由text-davinci-003生成;REBEL是一个已存在的数据集,经过进一步处理和标注。数据集的结构包括文本、三元组、实体和关系等字段,数据分割为训练集、验证集、测试集和一个小型测试集。数据集的生成过程包括构建知识图谱、从知识图谱中采样三元组以及生成高质量文本。

SynthIE数据集是一个用于封闭信息抽取(IE)任务的高质量数据集,通过反转任务方向(从三元组到文本)生成训练数据。数据集包含三个子数据集:SynthIE-code、SynthIE-text和REBEL,分别由不同的模型生成。SynthIE-code包含约180万训练样本、1万验证样本和5万测试样本,由code-davinci-002生成;SynthIE-text包含1万验证样本和5万测试样本,由text-davinci-003生成;REBEL是一个已存在的数据集,经过进一步处理和标注。数据集的结构包括文本、三元组、实体和关系等字段,数据分割为训练集、验证集、测试集和一个小型测试集。数据集的生成过程包括构建知识图谱、从知识图谱中采样三元组以及生成高质量文本。
提供机构:
martinjosifoski
原始信息汇总

数据集卡片 for SynthIE

数据集描述

数据集概述

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction 提出了一种方法,通过反转任务(从 Y 到 X)来合成生成有用数据,即使原始任务无法直接由大型语言模型(LLM)解决。这种方法能够创建高质量的 X-Y 对数据集,用于训练/微调模型以解决原始任务。

具体而言,该论文在封闭信息抽取(IE)的背景下研究了这一想法,其中模型被要求从自然语言文本中提取所有表达的事实。合成数据生成管道包括三个主要组件:

  1. 构建包含感兴趣实体和关系的知识图谱;
  2. 从知识图谱中采样具有全面覆盖实体和关系的一致三元组集;
  3. 生成高质量文本,表达三元组而不包含任何补充信息。

使用此管道生成了两个大型高质量数据集:

  • SynthIE-code:包含约 1.8M 训练样本、10K 验证样本和 50K 测试样本,使用 code-davinci-002 生成。
  • SynthIE-text:包含 10K 验证样本和 50K 测试样本,使用 text-davinci-003 生成。

语言

数据集仅包含英语文本。

数据集结构

SynthIE 数据集包含三个子数据集:

  • SynthIE-code (synthie_code)
  • SynthIE-text (synthie_text)
  • REBEL (rebel)

SynthIE-code

Train Valid Test
Data Points 1,815,378 10,000 50,286
Triplets 6,055,911 34,262 172,991
Entities 1,806,126 27,553 105,176
Relations 888 883 888

SynthIE-text

Train Valid Test
Data Points -- 10,000 50,286
Triplets -- 34,262 172,991
Entities -- 27,553 105,176
Relations -- 883 888

REBEL

Train Valid Test
Data Points 2,813,210 155,926 156,449
Triplets 7,187,915 397,326 398,252
Entities 2,038,741 205,080 205,549
Relations 1071 691 690

数据字段

所有数据集共享相同的模式:

  • id:唯一数字标识符。
  • text:对应样本的文本表达。
  • triplets:文本中表达的三元组列表。
    • subject:实体的表面形式和 URI。
    • relation:关系的表面形式和 URI。
    • object:实体的表面形式和 URI。
  • entities:文本中表达的所有实体列表。
  • relations:文本中表达的所有关系列表。

数据分割

每个数据集(SynthIE-text 除外)包含以下分割:

  • train
  • validation
  • test
  • test_small

数据集创建

该数据集使用合成数据生成管道构建,包含三个组件:

  1. 构建知识图谱;
  2. 采样三元组集;
  3. 生成高质量文本。

附加信息

许可信息

数据集遵循 MIT 许可。

引用信息

@article{josifoski2023exploiting, title={Exploiting Asymmetry for Synthetic Training Data Generation: {S}ynth{IE} and The Case of Information Extraction}, author={Josifoski, Martin and Sakota, Marija and Peyrard, Maxime and West, Robert}, journal={arXiv preprint arXiv:2303.04132}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作