人民日报语料库|新闻报道数据集|文本数据分析数据集
收藏人民日报问答系统数据集概述
数据收集
- 时间范围:2023年5月至2024年4月
- 来源:人民日报的全部文章
- 格式:JSON
- 样例: json [ { "url": "http://paper.people.com.cn/rmrb/html/2023-05/01/nw.D110000renmrb_20230501_1-01.htm", "title": "在“五一”国际劳动节到来之际 习近平向全国广大劳动群众致以节日的祝贺和诚挚的慰问", "content": "新华社北京4月30日电 在“五一”国际劳动节到来之际,中共中央总书记、国家主席、中央军委主席习近平代表党中央,向全国广大劳动群众致以节日的祝贺和诚挚的慰问。 习近平强调,今年是全面贯彻党的二十大精神的开局之年,是实施“十四五”规划承前启后的关键之年。希望广大劳动群众大力弘扬劳模精神、劳动精神、工匠精神,诚实劳动、勤勉工作,锐意创新、敢为人先,依靠劳动创造扎实推进中国式现代化,在强国建设、民族复兴的新征程上充分发挥主力军作用。各级党委和政府要充分激发广大劳动群众的劳动热情和创新创造活力,切实保障广大劳动群众合法权益,用心帮助广大劳动群众排忧解难,推动全社会进一步形成崇尚劳动、尊重劳动者的良好氛围。" }, ... ]
数据预处理
-
处理步骤:
- 删除纯图报道无文字的内容
- 删除“本版责编”页与“x月责编”页
-
代码示例: python def clean_json_files(directory): for filename in tqdm(os.listdir(directory)): if filename.endswith(".json"): file_path = os.path.join(directory, filename) with open(file_path, r, encoding=utf-8) as file: data = json.load(file)
cleaned_data = [ item for item in data if 责编 not in item[title] and item[content].strip() != ] with open(file_path, w, encoding=utf-8) as file: json.dump(cleaned_data, file, ensure_ascii=False, indent=4)
文档检索模型
- 模型选择:最终选择BM25作为检索模型
- 处理步骤:
- 对文章的标题和内容分别构建corpus,训练两个BM25模型进行分级检索
- 取top2个最相关标题的文章与top5最相关内容的文章的并集
- 处理query:按逗号分隔
文档内重排序
- 模型使用:gte文本嵌入模型
- 处理步骤:
- 按段落划分文章
- 计算query与文本每一段的相似度
- 按相似度对段落进行重排序
- 每个文档取前k个段落,字数加起来不超过1024
文本生成模型
- 模型选择:最终选择gpt-4-turbo
- 测试结果:在测试集上达到EM=0.9
最终结果
- 评测结果:EM=0.7625

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
望诊影像数据集及诊断文本数据集
中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。
国家人口健康科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
ZuantuSet
ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式,还分析了其背后的历史和文化成因,为数字人文领域的研究提供了丰富的资源。
arXiv 收录