five

人民日报语料库|新闻报道数据集|文本数据分析数据集

收藏
github2024-07-02 更新2024-07-27 收录
新闻报道
文本数据分析
下载链接:
https://github.com/RedPanda0614/RAG_PeoplesDaily
下载链接
链接失效反馈
资源简介:
该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。
创建时间:
2024-07-02
原始信息汇总

人民日报问答系统数据集概述

数据收集

  • 时间范围:2023年5月至2024年4月
  • 来源:人民日报的全部文章
  • 格式:JSON
  • 样例: json [ { "url": "http://paper.people.com.cn/rmrb/html/2023-05/01/nw.D110000renmrb_20230501_1-01.htm", "title": "在“五一”国际劳动节到来之际 习近平向全国广大劳动群众致以节日的祝贺和诚挚的慰问", "content": "新华社北京4月30日电  在“五一”国际劳动节到来之际,中共中央总书记、国家主席、中央军委主席习近平代表党中央,向全国广大劳动群众致以节日的祝贺和诚挚的慰问。   习近平强调,今年是全面贯彻党的二十大精神的开局之年,是实施“十四五”规划承前启后的关键之年。希望广大劳动群众大力弘扬劳模精神、劳动精神、工匠精神,诚实劳动、勤勉工作,锐意创新、敢为人先,依靠劳动创造扎实推进中国式现代化,在强国建设、民族复兴的新征程上充分发挥主力军作用。各级党委和政府要充分激发广大劳动群众的劳动热情和创新创造活力,切实保障广大劳动群众合法权益,用心帮助广大劳动群众排忧解难,推动全社会进一步形成崇尚劳动、尊重劳动者的良好氛围。" }, ... ]

数据预处理

  • 处理步骤

    • 删除纯图报道无文字的内容
    • 删除“本版责编”页与“x月责编”页
  • 代码示例: python def clean_json_files(directory): for filename in tqdm(os.listdir(directory)): if filename.endswith(".json"): file_path = os.path.join(directory, filename) with open(file_path, r, encoding=utf-8) as file: data = json.load(file)

            cleaned_data = [
                item for item in data if 责编 not in item[title] and item[content].strip() != ]
    
            with open(file_path, w, encoding=utf-8) as file:
                json.dump(cleaned_data, file, ensure_ascii=False, indent=4)
    

文档检索模型

  • 模型选择:最终选择BM25作为检索模型
  • 处理步骤
    • 对文章的标题和内容分别构建corpus,训练两个BM25模型进行分级检索
    • 取top2个最相关标题的文章与top5最相关内容的文章的并集
    • 处理query:按逗号分隔

文档内重排序

  • 模型使用:gte文本嵌入模型
  • 处理步骤
    • 按段落划分文章
    • 计算query与文本每一段的相似度
    • 按相似度对段落进行重排序
    • 每个文档取前k个段落,字数加起来不超过1024

文本生成模型

  • 模型选择:最终选择gpt-4-turbo
  • 测试结果:在测试集上达到EM=0.9

最终结果

  • 评测结果:EM=0.7625
AI搜集汇总
数据集介绍
main_image_url
构建方式
人民日报语料库的构建始于对2023年5月至2024年4月期间人民日报全文的系统性爬取。借助Python爬虫技术,所有文章被高效地抓取并存储为JSON格式,便于后续处理。数据预处理阶段,通过删除无文字的纯图报道及无效信息页面,确保数据集的纯净性。随后,采用BM25模型进行文档检索,结合BERT模型进行优化,最终选择BM25作为基础检索模型,以提升检索效率和准确性。
特点
人民日报语料库以其时效性和权威性著称,涵盖了广泛的政治、经济、文化等多个领域的内容。数据集的结构化存储方式,使得每一篇文章均包含URL、标题和内容,便于快速检索和分析。此外,通过精细的预处理和检索模型优化,该数据集在文档检索和内容重排序方面表现卓越,特别适用于问答系统和信息检索任务。
使用方法
使用人民日报语料库时,用户可以通过提供的URL直接访问原始文章,或利用预处理后的JSON文件进行数据分析。对于问答系统开发者,该数据集提供了丰富的上下文信息,可用于训练和测试检索模型。具体操作包括加载JSON文件、应用BM25模型进行检索,以及使用文本嵌入模型进行内容重排序。最终,结合GPT-4模型,可以实现高效、准确的问答功能。
背景与挑战
背景概述
人民日报语料库是由研究人员通过Python爬虫技术从人民日报网站抓取的2023年5月至2024年4月的全部文章构建而成。该数据集的核心研究问题是如何利用这些新闻文章构建一个高效的问答系统。主要研究人员或机构通过参考开源项目https://github.com/858399075/pachong,成功地将这些文章保存为JSON格式,便于后续的数据处理和模型训练。这一数据集的创建不仅为自然语言处理领域提供了丰富的中文文本资源,还为新闻问答系统的研究提供了宝贵的实验数据,推动了相关技术的发展。
当前挑战
人民日报语料库在构建过程中面临多项挑战。首先,数据预处理阶段需要剔除纯图报道和无效信息,这要求精确的文本过滤技术。其次,在构建文档检索模型时,尽管尝试了多种模型(如BM25和基于BERT的dense retrieval),但最终效果仍不尽如人意,显示了模型选择和优化的复杂性。此外,文本生成模型在处理开放性问题时,需要高效的query拆分和整合技术,以确保回答的准确性和连贯性。这些挑战反映了在新闻问答系统开发中,数据质量和模型性能之间的微妙平衡。
常用场景
经典使用场景
人民日报语料库的经典使用场景主要集中在自然语言处理(NLP)领域,特别是问答系统和信息检索。通过构建文档检索模型,如BM25和BERT-based的dense retrieval,研究人员能够高效地从海量文本中提取相关信息。此外,该语料库还支持文本生成模型的训练,如GPT-4-turbo,用于生成高质量的文本回答。
衍生相关工作
基于人民日报语料库,研究者们开发了多种衍生工作,包括但不限于改进的BM25模型、BERT-based的dense retrieval技术以及GPT-4-turbo的文本生成模型。这些工作不仅提升了信息检索和文本生成的效率和准确性,还为后续研究提供了新的方法和思路,推动了NLP领域的持续进步。
数据集最近研究
最新研究方向
在自然语言处理领域,人民日报语料库的最新研究方向主要集中在问答系统的实现与优化。研究者们通过爬虫技术获取最新的新闻数据,并进行精细的预处理,以确保数据的纯净性和可用性。随后,构建了基于BM25和BERT的文档检索模型,通过分级检索提升检索效果。进一步,利用GTE文本嵌入模型进行文档内重排序,以精简文本内容,适应大模型的输入限制。最终,结合GPT-4-turbo模型进行文本生成,实现了高效且准确的问答系统。这一系列研究不仅提升了问答系统的性能,也为新闻语料库的应用开辟了新的研究路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

ZuantuSet

ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式,还分析了其背后的历史和文化成因,为数字人文领域的研究提供了丰富的资源。

arXiv 收录