five

tsessk/tldr-17-chat

收藏
Hugging Face2025-04-06 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/tsessk/tldr-17-chat
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用户发表在特定版块下的文本内容及其相关信息,如作者、正文、标准化正文、版块名称、版块ID、内容ID、内容摘要和一个名为chatml的序列整数。数据集分为训练集,共有3848330个示例,总大小约为31GB。提供了默认配置,以及训练集数据文件的路径。

The dataset consists of text posts made by users in specific subreddits along with associated information such as the author, body text, normalized body text, subreddit name, subreddit ID, content ID, summary, and a sequence integer called chatml. The dataset is split into a training set with a total of 3,848,330 examples and a total size of approximately 31GB. A default configuration is provided, along with the path to the training set data files.
提供机构:
tsessk
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作