人民日报语料库

github2024-07-02 更新2024-07-27 收录

下载链接：

https://github.com/RedPanda0614/RAG_PeoplesDaily

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2023年5月至2024年4月期间人民日报的全部文章，以JSON格式保存，每篇文章包含URL、标题和内容。

This dataset comprises all articles from People's Daily spanning from May 2023 to April 2024, stored in JSON format. Each article contains its URL, title and content.

创建时间：

2024-07-02

原始信息汇总

人民日报问答系统数据集概述

数据收集

时间范围：2023年5月至2024年4月
来源：人民日报的全部文章
格式：JSON
样例： json [ { "url": "http://paper.people.com.cn/rmrb/html/2023-05/01/nw.D110000renmrb_20230501_1-01.htm", "title": "在“五一”国际劳动节到来之际习近平向全国广大劳动群众致以节日的祝贺和诚挚的慰问", "content": "新华社北京4月30日电在“五一”国际劳动节到来之际，中共中央总书记、国家主席、中央军委主席习近平代表党中央，向全国广大劳动群众致以节日的祝贺和诚挚的慰问。　　习近平强调，今年是全面贯彻党的二十大精神的开局之年，是实施“十四五”规划承前启后的关键之年。希望广大劳动群众大力弘扬劳模精神、劳动精神、工匠精神，诚实劳动、勤勉工作，锐意创新、敢为人先，依靠劳动创造扎实推进中国式现代化，在强国建设、民族复兴的新征程上充分发挥主力军作用。各级党委和政府要充分激发广大劳动群众的劳动热情和创新创造活力，切实保障广大劳动群众合法权益，用心帮助广大劳动群众排忧解难，推动全社会进一步形成崇尚劳动、尊重劳动者的良好氛围。" }, ... ]

数据预处理

处理步骤：
- 删除纯图报道无文字的内容
- 删除“本版责编”页与“x月责编”页

代码示例： python def clean_json_files(directory): for filename in tqdm(os.listdir(directory)): if filename.endswith(".json"): file_path = os.path.join(directory, filename) with open(file_path, r, encoding=utf-8) as file: data = json.load(file)

        cleaned_data = [
            item for item in data if 责编 not in item[title] and item[content].strip() != ]

        with open(file_path, w, encoding=utf-8) as file:
            json.dump(cleaned_data, file, ensure_ascii=False, indent=4)

文档检索模型

模型选择：最终选择BM25作为检索模型
处理步骤：
- 对文章的标题和内容分别构建corpus，训练两个BM25模型进行分级检索
- 取top2个最相关标题的文章与top5最相关内容的文章的并集
- 处理query：按逗号分隔

文档内重排序

模型使用：gte文本嵌入模型
处理步骤：
- 按段落划分文章
- 计算query与文本每一段的相似度
- 按相似度对段落进行重排序
- 每个文档取前k个段落，字数加起来不超过1024

文本生成模型

模型选择：最终选择gpt-4-turbo
测试结果：在测试集上达到EM=0.9

最终结果

评测结果：EM=0.7625

搜集汇总

数据集介绍

构建方式

人民日报语料库的构建始于对2023年5月至2024年4月期间人民日报全文的系统性爬取。借助Python爬虫技术，所有文章被高效地抓取并存储为JSON格式，便于后续处理。数据预处理阶段，通过删除无文字的纯图报道及无效信息页面，确保数据集的纯净性。随后，采用BM25模型进行文档检索，结合BERT模型进行优化，最终选择BM25作为基础检索模型，以提升检索效率和准确性。

特点

人民日报语料库以其时效性和权威性著称，涵盖了广泛的政治、经济、文化等多个领域的内容。数据集的结构化存储方式，使得每一篇文章均包含URL、标题和内容，便于快速检索和分析。此外，通过精细的预处理和检索模型优化，该数据集在文档检索和内容重排序方面表现卓越，特别适用于问答系统和信息检索任务。

使用方法

使用人民日报语料库时，用户可以通过提供的URL直接访问原始文章，或利用预处理后的JSON文件进行数据分析。对于问答系统开发者，该数据集提供了丰富的上下文信息，可用于训练和测试检索模型。具体操作包括加载JSON文件、应用BM25模型进行检索，以及使用文本嵌入模型进行内容重排序。最终，结合GPT-4模型，可以实现高效、准确的问答功能。

背景与挑战

背景概述

人民日报语料库是由研究人员通过Python爬虫技术从人民日报网站抓取的2023年5月至2024年4月的全部文章构建而成。该数据集的核心研究问题是如何利用这些新闻文章构建一个高效的问答系统。主要研究人员或机构通过参考开源项目https://github.com/858399075/pachong，成功地将这些文章保存为JSON格式，便于后续的数据处理和模型训练。这一数据集的创建不仅为自然语言处理领域提供了丰富的中文文本资源，还为新闻问答系统的研究提供了宝贵的实验数据，推动了相关技术的发展。

当前挑战

人民日报语料库在构建过程中面临多项挑战。首先，数据预处理阶段需要剔除纯图报道和无效信息，这要求精确的文本过滤技术。其次，在构建文档检索模型时，尽管尝试了多种模型（如BM25和基于BERT的dense retrieval），但最终效果仍不尽如人意，显示了模型选择和优化的复杂性。此外，文本生成模型在处理开放性问题时，需要高效的query拆分和整合技术，以确保回答的准确性和连贯性。这些挑战反映了在新闻问答系统开发中，数据质量和模型性能之间的微妙平衡。

常用场景

经典使用场景

人民日报语料库的经典使用场景主要集中在自然语言处理（NLP）领域，特别是问答系统和信息检索。通过构建文档检索模型，如BM25和BERT-based的dense retrieval，研究人员能够高效地从海量文本中提取相关信息。此外，该语料库还支持文本生成模型的训练，如GPT-4-turbo，用于生成高质量的文本回答。

衍生相关工作

基于人民日报语料库，研究者们开发了多种衍生工作，包括但不限于改进的BM25模型、BERT-based的dense retrieval技术以及GPT-4-turbo的文本生成模型。这些工作不仅提升了信息检索和文本生成的效率和准确性，还为后续研究提供了新的方法和思路，推动了NLP领域的持续进步。

数据集最近研究