five

COUGH

收藏
github2022-04-19 更新2024-05-31 收录
下载链接:
https://github.com/pooruss/FAQ-System-COUGH
下载链接
链接失效反馈
官方服务:
资源简介:
COUGH是一个多语言FAQ检索数据集,专门用于COVID-19相关问题的检索。数据集包含15919个FAQ,1201个查询,每个查询平均有32.17个标注。数据集的语言为多语言,来源有55个。

COUGH is a multilingual FAQ retrieval dataset specifically designed for COVID-19 related queries. The dataset comprises 15,919 FAQs and 1,201 queries, with an average of 32.17 annotations per query. It supports multiple languages and is sourced from 55 different origins.
创建时间:
2022-04-19
原始信息汇总

数据集概述

基本信息

数据处理

  • 评估集抽取:根据不同scheme(A or C),抽取评估集,共1200+条query。

    • 命令:cd preprocess && python extract_evaluate_set.py A
    • 结果保存位置:../data/evaluate_set/evaluate_set_scheme_A_test.npy
  • 问答库抽取:抽取不同语种的问答库,英文部分共9000+条(question,answer)items。

    • 命令:cd preprocess && python extract_from_bank.py en en_bank
    • 结果保存位置:../data/faq_bank/en_bank.txt

功能模块

  • 召回模块:支持BM25、BM25L、BM25+。
  • 精排模块:支持Rocketqa-v1-marco-de、Rocketqa-v1-marco-ce等。

演示与评估

  • 演示:使用配置文件./config/en_q_config.ini,不进行rerank。

    • 命令:python main.py --config ./config/en_q_config.ini --task demo --rerank False
  • 评估:使用配置文件./config/en_q_config.ini,不进行rerank。

    • 命令:python main.py --config ./config/en_q_config.ini --task evaluation --rerank False
搜集汇总
数据集介绍
main_image_url
构建方式
COUGH数据集的构建基于COVID-19领域的FAQ检索需求,涵盖了多语言环境下的问答对。数据来源广泛,包括55个不同的数据源,确保了数据的多样性和代表性。数据集的构建过程包括从多个来源抽取FAQ对,并通过人工标注和自动化工具进行质量控制和数据清洗,最终形成了包含15919个FAQ对和1201个查询的数据集。
使用方法
COUGH数据集的使用方法包括数据预处理、召回和精排模块的应用。用户可以通过提供的脚本进行数据抽取和评估集的生成。数据集支持多种召回算法如BM25、BM25L、BM25+,以及精排模型如Rocketqa-v1-marco-de和Rocketqa-v1-marco-ce。用户可以通过配置文件进行任务设置,如demo任务或评估任务,并可选择是否启用精排模块。
背景与挑战
背景概述
COUGH数据集于2020年由研究人员提出,旨在应对COVID-19疫情期间的FAQ检索需求。该数据集由多个研究机构联合开发,涵盖了多语言环境下的15,919条FAQ条目和1,201条查询,每条查询平均标注32.17次。COUGH数据集的核心研究问题在于如何高效地从海量COVID-19相关问答中检索出最相关的答案,以支持全球范围内的疫情信息传播。该数据集在COVID-19信息检索领域具有重要影响力,为后续研究提供了丰富的多语言数据支持。
当前挑战
COUGH数据集面临的挑战主要体现在两个方面。首先,在领域问题上,COVID-19相关信息的快速更新和多语言特性使得FAQ检索系统需要具备高度的时效性和语言适应性。其次,在数据集构建过程中,研究人员需处理来自55个不同来源的数据,确保数据的准确性和一致性,同时还需应对多语言文本的复杂性和标注成本的高昂问题。此外,如何有效结合召回模块与精排模块的能力,以及完善多语言功能,也是该数据集未来需要解决的关键技术挑战。
常用场景
经典使用场景
COUGH数据集在COVID-19疫情期间,主要用于FAQ系统的构建和优化。该数据集通过提供大量的多语言FAQ对,支持了信息检索和问答系统的开发,特别是在处理与COVID-19相关的查询时,能够有效地提升系统的响应速度和准确性。
解决学术问题
COUGH数据集解决了在COVID-19疫情期间,快速准确地检索和提供相关信息的需求。通过提供丰富的多语言FAQ对,该数据集支持了信息检索算法的研究和优化,特别是在处理复杂和多样化的查询时,显著提高了检索系统的性能。
实际应用
在实际应用中,COUGH数据集被广泛用于开发智能问答系统,这些系统能够实时响应用户关于COVID-19的查询。例如,医疗机构和政府网站利用这些系统,为用户提供准确的健康信息和政策指导,从而在疫情期间发挥了重要作用。
数据集最近研究
最新研究方向
在COVID-19疫情背景下,COUGH数据集为FAQ检索系统提供了丰富的多语言问答对,推动了信息检索领域的前沿研究。当前研究重点在于优化召回与精排模块的协同工作,以提升检索系统的准确性与效率。此外,多语言功能的完善成为热点,旨在增强系统在全球范围内的适用性。这些研究方向不仅提升了疫情信息的获取效率,也为未来公共卫生事件的应对提供了技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作