agentlans/high-quality-text-long
收藏Hugging Face2025-09-18 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/high-quality-text-long
下载链接
链接失效反馈官方服务:
资源简介:
这是一个高质量文本(较长)数据集,仅保留了1750到2250个Meta Llama 3.1令牌的文本块。这些文本块使用了MongoDB/mdbr-leaf-mt进行了嵌入并进行了层级聚类。
This is a high-quality text (longer) dataset, retaining only text chunks between 1750 and 2250 Meta Llama 3.1 tokens. These text chunks have been embedded using MongoDB/mdbr-leaf-mt and hierarchically clustered.
提供机构:
agentlans



