开放新闻库新闻文本预训练数据集
收藏库帕思2025-12-08 更新2025-12-20 收录
下载链接:
https://www.kupasai.com/corpus/detail?id=393&type=1
下载链接
链接失效反馈官方服务:
资源简介:
<p>开放新闻库(OpenNewsArchive)新闻文本预训练数据集</p><p>数据来源:公开网站</p><p>数据规模:880万篇新闻</p><p>数据特点:每篇新闻文章包括字段如标题、内容、发布日期、语言等,且数据集的内容经过数据清洗去重等处理,为研究人员和数据科学家提供了丰富的文本数据资源。Jsonlines形式</p><p>1.内容全面覆盖多个板块:包含财经、健康、军事、体育、房产、社会、学术等多个板块分类的新闻内容,涵盖广泛。</p><p>2.无毒性内容和价值偏见:新闻内容不含有害信息或偏见观点,确保信息公正客观。</p><p>3.保持新闻内容更新:数据集中包含的新闻大多数在2023年发布,避免了历史数据集中年代久远的问题,确保新闻时效性</p><p>应用场景:大模型预训练</p>
提供机构:
库帕思
创建时间:
2025-09-22



