ToolACE|API生成数据集|智能对话系统数据集
收藏ToolACE 数据集概述
基本信息
- 许可证:Apache 2.0
- 任务类别:文本生成
- 语言:英语、中文
- 标签:合成、工具
- 数据规模:10K<n<100K
描述
ToolACE 是一个自动代理流水线,旨在生成准确、复杂和多样化的工具学习数据。该数据集利用了一种新颖的自进化合成过程,策划了一个包含 26,507 个多样化 API 的综合 API 池。通过多个代理之间的交互,并遵循形式化的思考过程,进一步生成对话。为了确保数据准确性,我们实施了一个结合规则和模型检查的双层验证系统。
引用
如果您认为 ToolACE 对您的工作有用,请引用我们的论文:
@misc{liu2024toolacewinningpointsllm, title={ToolACE: Winning the Points of LLM Function Calling}, author={Weiwen Liu and Xu Huang and Xingshan Zeng and Xinlong Hao and Shuai Yu and Dexun Li and Shuai Wang and Weinan Gan and Zhengying Liu and Yuanqing Yu and Zezhong Wang and Yuxian Wang and Wu Ning and Yutai Hou and Bin Wang and Chuhan Wu and Xinzhi Wang and Yong Liu and Yasheng Wang and Duyu Tang and Dandan Tu and Lifeng Shang and Xin Jiang and Ruiming Tang and Defu Lian and Qun Liu and Enhong Chen}, year={2024}, eprint={2409.00920}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2409.00920}, }

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录
MAV-VID, Drone-vs-Bird, Anti-UAV
本研究涉及三个数据集:MAV-VID、Drone-vs-Bird和Anti-UAV,总计包含241个视频,共计331,486张图像。这些数据集由杜伦大学创建,用于无人机视觉检测和跟踪的研究。数据集内容丰富,包括从地面和无人机搭载的摄像头捕获的图像,涵盖了多种环境和条件。创建过程中,数据集经过精心标注和处理,以确保数据质量。这些数据集主要用于评估和改进无人机检测和跟踪技术,特别是在复杂环境和动态场景中的应用。
arXiv 收录
Waymo Open Dataset
Waymo开放数据集由Waymo自动驾驶汽车在各种条件下收集的高分辨率传感器数据组成。我们公开发布这个数据集,以帮助研究社区在机器感知和自动驾驶技术方面取得进步。
github 收录
京东评论集合含标签(70k个)
包含手机,电脑,衣服,运动,母婴,玩具等
kaggle 收录