five

ThatsGroes/synthetic-dialog-summaries-processed

收藏
Hugging Face2024-12-29 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/ThatsGroes/synthetic-dialog-summaries-processed
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含100万个未经分日记的对话及其相应摘要的数据集。该数据集使用gemma-2-27b-it生成,旨在用于微调小型模型以总结对话。对话设计为类似使用Whisper等模型产生的转录,这些模型不会自动分日记对话。数据集中的“messages”列经过处理,可以直接作为任何SmolLLM的训练输入。

This dataset consists of 1,000,000 un-diarized dialogs and their corresponding summaries. The data was generated with gemma-2-27b-it. The dataset is intended to be used to fine tune smaller models to summarize dialog. The dialogs are meant to resemble transcriptions of dialog made with models such as Whisper which do not diarize the dialog out of the box. The messages column is processed in a way so that it is ready to be used as training input to any SmolLLM.
提供机构:
ThatsGroes
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作