Awesome-LLM-Synthetic-Data

github2024-08-09 更新2024-08-11 收录

下载链接：

https://github.com/wasiahmad/Awesome-LLM-Synthetic-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括了基于LLM（大型语言模型）生成的合成数据，涵盖了从调查、方法到应用领域的多个方面，旨在为语言模型提供高质量的合成数据。

This dataset consists of synthetic data generated by Large Language Models (LLMs), covering a wide range of aspects spanning from surveys, research methodologies to application domains, and is designed to provide high-quality synthetic data for language models.

创建时间：

2024-08-09

原始信息汇总

合成数据集概述

内容概览

1. 调查研究

最佳实践和合成数据在语言模型中的经验教训。 Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai. Arxiv 2024.
关于LLMs驱动的合成数据生成、筛选和评估的调查。 Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, Haobo Wang. Arxiv 2024.
生成AI用于合成数据生成：方法、挑战和未来。 Xu Guo, Yiqiang Chen. Arxiv 2024.
合成数据生成的综合探索：调查。 André Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster. Arxiv 2024.

2. 方法

2.1. 技术

自我对弈微调将弱语言模型转换为强语言模型。 Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu. ICML 2024.
从零开始合成数据：语言模型的广义指令调整。 Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei. Arxiv 2024.
自我指导：将语言模型与自我生成的指令对齐。 Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi. ACL 2023.
大型语言模型的自动指令进化。 Weihao Zeng, Can Xu, Yingxiu Zhao, Jian-Guang Lou, Weizhu Chen. Arxiv 2024.

2.2. 高质量/复杂性指令生成

CodecLM：将语言模型与定制的合成数据对齐。 Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister. NAACL 2024.
WizardLM：赋予大型语言模型遵循复杂指令的能力。 Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang. Arxiv 2023.

3. 应用领域

3.1. 数学推理

MuggleMath：评估查询和响应增强对数学推理的影响。 Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou. ACL 2024.
MathGenie：通过问题反向翻译生成合成数据以增强LLMs的数学推理。 Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li. ACL 2024.
MetaMath：为大型语言模型自举数学问题。 Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu. ICLR 2024.
通过迭代问题组合增强数学词问题。 Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao. DPFM@ICLR 2024.

3.2. 代码生成

遗传指导：为大型语言模型扩展编码指令的合成生成。 Somshubra Majumdar, Vahid Noroozi, Sean Narenthiran, Aleksander Ficek, Jagadeesh Balam, Boris Ginsburg. Arxiv 2024.

3.3. 文本到SQL

从弱和强LLMs合成文本到SQL数据。 Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou. ACL 2024.

3.4. 偏好优化

通过合成数据进行精细直接偏好优化，以实现LLMs的行为对齐。 V´ıctor Gallego. Arxiv 2024.

3.5. 奖励建模

N以西：改进奖励建模的合成偏好生成。 Alizée Pace, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn. Arxiv 2024.

4. 数据集

合成文本到SQL：用于训练语言模型从自然语言提示生成SQL查询的合成数据集。 Meyer, Yev and Emadi, Marjan and Nathawani, Dhruv and Ramaswamy, Lipika and Boyd, Kendrick and Van Segbroeck, Maarten and Grossman, Matthew and Mlocek, Piotr and Newberry, Drew. Huggingface 2024.

5. 工具

DataDreamer：用于合成数据生成和可重复LLM工作流的工具。 Ajay Patel, Colin Raffel, Chris Callison-Burch. ACL 2024.
AgentInstruct：通过代理流实现生成教学。 Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah. Arxiv 2024.

6. 博客

合成数据集生成技术：自我指导。 Daniel van Strien. 2024
LLM驱动的合成数据生成、筛选和评估。 Cobus Greyling. 2024
代理数据生成的兴起。 Maxime Labonne. 2024

搜集汇总

数据集介绍

构建方式

Awesome-LLM-Synthetic-Data数据集的构建方式主要依赖于大型语言模型（LLMs）的自我生成和自我改进能力。通过采用诸如自我指导（Self-Instruct）、自我奖励（Self-Rewarding）和自我对弈（Self-Play）等技术，数据集从零开始生成高质量的合成数据。这些技术不仅提高了数据生成的效率，还确保了数据的质量和复杂性，从而为LLMs的训练提供了丰富的资源。

特点

该数据集的显著特点在于其高度自适应性和多样性。通过利用LLMs的自我生成能力，数据集能够涵盖从数学推理到代码生成、从文本到SQL转换等多个应用领域。此外，数据集还特别强调了指令生成的高质量和复杂性，确保生成的数据能够有效提升LLMs的性能。

使用方法

使用Awesome-LLM-Synthetic-Data数据集时，用户可以通过API或直接下载数据集文件进行访问。数据集提供了详细的文档和示例代码，帮助用户快速上手。用户可以根据自己的需求选择特定的数据子集进行训练或评估，同时也可以利用数据集中的工具和方法进行进一步的数据处理和增强。

背景与挑战

背景概述

Awesome-LLM-Synthetic-Data数据集聚焦于由大型语言模型（LLMs）生成、用于LLMs的合成数据。该数据集由主要研究人员和机构创建，旨在解决LLMs在训练和应用中的数据需求问题。通过提供高质量的合成数据，该数据集推动了语言模型在多个应用领域的性能提升，如数学推理、代码生成和文本到SQL转换等。其核心研究问题是如何高效、高质量地生成适用于LLMs的合成数据，从而减少对真实数据的依赖，提升模型的泛化能力和应用范围。

当前挑战

Awesome-LLM-Synthetic-Data数据集面临的主要挑战包括：1) 如何确保合成数据的质量和多样性，以避免模型过拟合和偏见；2) 在生成过程中，如何平衡计算资源和数据质量，特别是在大规模数据生成时；3) 如何验证合成数据的效用和可靠性，确保其能够有效提升LLMs的性能。此外，随着LLMs的不断发展，合成数据的生成方法和应用场景也在不断扩展，这要求数据集持续更新和优化，以适应新的研究需求和技术进步。

常用场景

经典使用场景

在自然语言处理领域，Awesome-LLM-Synthetic-Data数据集的经典使用场景主要集中在通过大型语言模型（LLMs）生成高质量的合成数据，以增强模型的训练和评估。这些合成数据广泛应用于数学推理、代码生成、文本到SQL转换等多个应用领域，通过生成复杂且高质量的指令数据，提升模型的性能和泛化能力。

实际应用

在实际应用中，Awesome-LLM-Synthetic-Data数据集被广泛用于开发和优化各种自然语言处理工具和系统。例如，在智能客服、自动化编程、数据分析等领域，通过使用合成数据训练的模型能够更准确地理解和执行复杂任务，显著提升系统的效率和用户体验。

衍生相关工作

基于Awesome-LLM-Synthetic-Data数据集，许多相关工作得以展开，如WizardLM、CodeRL和Visual Instruction Tuning等。这些工作通过进一步优化合成数据的生成和应用，推动了自然语言处理技术的发展，特别是在多模态学习和强化学习领域，取得了显著的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集