five

LongWanjuan(万卷长文)

收藏
OpenDataLab2026-06-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenLMLab/LongWanjuan
下载链接
链接失效反馈
官方服务:
资源简介:
A 160B bilingual long-text dataset with 3 categories: holistic, aggregated and chaotic long texts.(万卷长文是一个160B 的双语长文本数据集,分为 3 类:整体长文本、聚合长文本和混沌长文本)

一款规模达1600亿Token的双语长文本数据集,共分为三大类别:整体长文本、聚合长文本与混沌长文本。
提供机构:
OpenLMLab
创建时间:
2024-02-21
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LongWanjuan是一个160B规模的双语长文本数据集,包含整体性、聚合性和混乱性三类文本,覆盖多个领域,适用于自然语言理解和预训练语言模型任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务