five

agentlans/high-quality-text-long

收藏
Hugging Face2025-09-18 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/high-quality-text-long
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个高质量文本(较长)数据集,仅保留了1750到2250个Meta Llama 3.1令牌的文本块。这些文本块使用了MongoDB/mdbr-leaf-mt进行了嵌入并进行了层级聚类。

This is a high-quality text (longer) dataset, retaining only text chunks between 1750 and 2250 Meta Llama 3.1 tokens. These text chunks have been embedded using MongoDB/mdbr-leaf-mt and hierarchically clustered.
提供机构:
agentlans
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作