martinjosifoski/SynthIE
收藏数据集卡片 for SynthIE
数据集描述
数据集概述
Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction 提出了一种方法,通过反转任务(从 Y 到 X)来合成生成有用数据,即使原始任务无法直接由大型语言模型(LLM)解决。这种方法能够创建高质量的 X-Y 对数据集,用于训练/微调模型以解决原始任务。
具体而言,该论文在封闭信息抽取(IE)的背景下研究了这一想法,其中模型被要求从自然语言文本中提取所有表达的事实。合成数据生成管道包括三个主要组件:
- 构建包含感兴趣实体和关系的知识图谱;
- 从知识图谱中采样具有全面覆盖实体和关系的一致三元组集;
- 生成高质量文本,表达三元组而不包含任何补充信息。
使用此管道生成了两个大型高质量数据集:
- SynthIE-code:包含约 1.8M 训练样本、10K 验证样本和 50K 测试样本,使用 code-davinci-002 生成。
- SynthIE-text:包含 10K 验证样本和 50K 测试样本,使用 text-davinci-003 生成。
语言
数据集仅包含英语文本。
数据集结构
SynthIE 数据集包含三个子数据集:
- SynthIE-code (
synthie_code) - SynthIE-text (
synthie_text) - REBEL (
rebel)
SynthIE-code
| Train | Valid | Test | |
|---|---|---|---|
| Data Points | 1,815,378 | 10,000 | 50,286 |
| Triplets | 6,055,911 | 34,262 | 172,991 |
| Entities | 1,806,126 | 27,553 | 105,176 |
| Relations | 888 | 883 | 888 |
SynthIE-text
| Train | Valid | Test | |
|---|---|---|---|
| Data Points | -- | 10,000 | 50,286 |
| Triplets | -- | 34,262 | 172,991 |
| Entities | -- | 27,553 | 105,176 |
| Relations | -- | 883 | 888 |
REBEL
| Train | Valid | Test | |
|---|---|---|---|
| Data Points | 2,813,210 | 155,926 | 156,449 |
| Triplets | 7,187,915 | 397,326 | 398,252 |
| Entities | 2,038,741 | 205,080 | 205,549 |
| Relations | 1071 | 691 | 690 |
数据字段
所有数据集共享相同的模式:
id:唯一数字标识符。text:对应样本的文本表达。triplets:文本中表达的三元组列表。subject:实体的表面形式和 URI。relation:关系的表面形式和 URI。object:实体的表面形式和 URI。
entities:文本中表达的所有实体列表。relations:文本中表达的所有关系列表。
数据分割
每个数据集(SynthIE-text 除外)包含以下分割:
trainvalidationtesttest_small
数据集创建
该数据集使用合成数据生成管道构建,包含三个组件:
- 构建知识图谱;
- 采样三元组集;
- 生成高质量文本。
附加信息
许可信息
数据集遵循 MIT 许可。
引用信息
@article{josifoski2023exploiting, title={Exploiting Asymmetry for Synthetic Training Data Generation: {S}ynth{IE} and The Case of Information Extraction}, author={Josifoski, Martin and Sakota, Marija and Peyrard, Maxime and West, Robert}, journal={arXiv preprint arXiv:2303.04132}, year={2023} }



