martinjosifoski/SynthIE

Hugging Face2023-03-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/martinjosifoski/SynthIE

下载链接

链接失效反馈

资源简介：

SynthIE数据集是一个用于封闭信息抽取（IE）任务的高质量数据集，通过反转任务方向（从三元组到文本）生成训练数据。数据集包含三个子数据集：SynthIE-code、SynthIE-text和REBEL，分别由不同的模型生成。SynthIE-code包含约180万训练样本、1万验证样本和5万测试样本，由code-davinci-002生成；SynthIE-text包含1万验证样本和5万测试样本，由text-davinci-003生成；REBEL是一个已存在的数据集，经过进一步处理和标注。数据集的结构包括文本、三元组、实体和关系等字段，数据分割为训练集、验证集、测试集和一个小型测试集。数据集的生成过程包括构建知识图谱、从知识图谱中采样三元组以及生成高质量文本。

提供机构：

martinjosifoski

原始信息汇总

数据集卡片 for SynthIE

数据集描述

数据集概述

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction 提出了一种方法，通过反转任务（从 Y 到 X）来合成生成有用数据，即使原始任务无法直接由大型语言模型（LLM）解决。这种方法能够创建高质量的 X-Y 对数据集，用于训练/微调模型以解决原始任务。

具体而言，该论文在封闭信息抽取（IE）的背景下研究了这一想法，其中模型被要求从自然语言文本中提取所有表达的事实。合成数据生成管道包括三个主要组件：

构建包含感兴趣实体和关系的知识图谱；
从知识图谱中采样具有全面覆盖实体和关系的一致三元组集；
生成高质量文本，表达三元组而不包含任何补充信息。

使用此管道生成了两个大型高质量数据集：

SynthIE-code：包含约 1.8M 训练样本、10K 验证样本和 50K 测试样本，使用 code-davinci-002 生成。
SynthIE-text：包含 10K 验证样本和 50K 测试样本，使用 text-davinci-003 生成。

语言

数据集仅包含英语文本。

数据集结构

SynthIE 数据集包含三个子数据集：

SynthIE-code (synthie_code)
SynthIE-text (synthie_text)
REBEL (rebel)

SynthIE-code

	Train	Valid	Test
Data Points	1,815,378	10,000	50,286
Triplets	6,055,911	34,262	172,991
Entities	1,806,126	27,553	105,176
Relations	888	883	888

SynthIE-text

	Train	Valid	Test
Data Points	--	10,000	50,286
Triplets	--	34,262	172,991
Entities	--	27,553	105,176
Relations	--	883	888

REBEL

	Train	Valid	Test
Data Points	2,813,210	155,926	156,449
Triplets	7,187,915	397,326	398,252
Entities	2,038,741	205,080	205,549
Relations	1071	691	690

数据字段

所有数据集共享相同的模式：

id：唯一数字标识符。
text：对应样本的文本表达。
triplets：文本中表达的三元组列表。
- subject：实体的表面形式和 URI。
- relation：关系的表面形式和 URI。
- object：实体的表面形式和 URI。
entities：文本中表达的所有实体列表。
relations：文本中表达的所有关系列表。

数据分割

每个数据集（SynthIE-text 除外）包含以下分割：

train
validation
test
test_small

数据集创建

该数据集使用合成数据生成管道构建，包含三个组件：

构建知识图谱；
采样三元组集；
生成高质量文本。

附加信息

许可信息

数据集遵循 MIT 许可。

引用信息

@article{josifoski2023exploiting, title={Exploiting Asymmetry for Synthetic Training Data Generation: {S}ynth{IE} and The Case of Information Extraction}, author={Josifoski, Martin and Sakota, Marija and Peyrard, Maxime and West, Robert}, journal={arXiv preprint arXiv:2303.04132}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集