Astris/LA-Times
收藏Hugging Face2024-04-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Astris/LA-Times
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含洛杉矶时报1914年至2024年间360万篇全文文章的大型数据集,总计包含120亿个字符,使用Llama-3分词器转换为26亿个tokens。数据集中有4.5%的文章没有明确的日期时间,但所有文章都包含文本。
这是一个包含洛杉矶时报1914年至2024年间360万篇全文文章的大型数据集,总计包含120亿个字符,使用Llama-3分词器转换为26亿个tokens。数据集中有4.5%的文章没有明确的日期时间,但所有文章都包含文本。
提供机构:
Astris
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 数据量级: 1B<n<10B
详细描述
- 时间跨度: 1914-2024年
- 文章数量: 360万篇全文文章
- 字符总数: 120亿个字符
- 标记数量: 使用Llama-3分词器后,得到26亿个标记
特殊说明
- 日期时间缺失: 164,116篇文章(占总数的4.5%)的日期时间为None,但这不会造成太大问题,因为不含文本的文章已被过滤掉。



