COUGH

github2022-04-19 更新2024-05-31 收录

下载链接：

https://github.com/pooruss/FAQ-System-COUGH

下载链接

链接失效反馈

官方服务：

资源简介：

COUGH是一个多语言FAQ检索数据集，专门用于COVID-19相关问题的检索。数据集包含15919个FAQ，1201个查询，每个查询平均有32.17个标注。数据集的语言为多语言，来源有55个。

COUGH is a multilingual FAQ retrieval dataset specifically designed for COVID-19 related queries. The dataset comprises 15,919 FAQs and 1,201 queries, with an average of 32.17 annotations per query. It supports multiple languages and is sourced from 55 different origins.

创建时间：

2022-04-19

原始信息汇总

数据集概述

基本信息

数据集名称：COUGH
数据集来源："COUGH: A Challenge Dataset and Models for COVID-19 FAQ Retrieval"
领域：COVID-19
语言：多语言
FAQ数量：15919
查询数量：1201
每查询的注释数：32.17
查询长度：12.97
FAQ-查询长度：13.00
FAQ-答案长度：113.58
数据源数量：55

数据处理

评估集抽取：根据不同scheme(A or C)，抽取评估集，共1200+条query。
- 命令：cd preprocess && python extract_evaluate_set.py A
- 结果保存位置：../data/evaluate_set/evaluate_set_scheme_A_test.npy
问答库抽取：抽取不同语种的问答库，英文部分共9000+条（question，answer）items。
- 命令：cd preprocess && python extract_from_bank.py en en_bank
- 结果保存位置：../data/faq_bank/en_bank.txt

功能模块

召回模块：支持BM25、BM25L、BM25+。
精排模块：支持Rocketqa-v1-marco-de、Rocketqa-v1-marco-ce等。

演示与评估

演示：使用配置文件./config/en_q_config.ini，不进行rerank。
- 命令：python main.py --config ./config/en_q_config.ini --task demo --rerank False
评估：使用配置文件./config/en_q_config.ini，不进行rerank。
- 命令：python main.py --config ./config/en_q_config.ini --task evaluation --rerank False

搜集汇总

数据集介绍

构建方式

COUGH数据集的构建基于COVID-19领域的FAQ检索需求，涵盖了多语言环境下的问答对。数据来源广泛，包括55个不同的数据源，确保了数据的多样性和代表性。数据集的构建过程包括从多个来源抽取FAQ对，并通过人工标注和自动化工具进行质量控制和数据清洗，最终形成了包含15919个FAQ对和1201个查询的数据集。

使用方法

COUGH数据集的使用方法包括数据预处理、召回和精排模块的应用。用户可以通过提供的脚本进行数据抽取和评估集的生成。数据集支持多种召回算法如BM25、BM25L、BM25+，以及精排模型如Rocketqa-v1-marco-de和Rocketqa-v1-marco-ce。用户可以通过配置文件进行任务设置，如demo任务或评估任务，并可选择是否启用精排模块。

背景与挑战

背景概述

COUGH数据集于2020年由研究人员提出，旨在应对COVID-19疫情期间的FAQ检索需求。该数据集由多个研究机构联合开发，涵盖了多语言环境下的15,919条FAQ条目和1,201条查询，每条查询平均标注32.17次。COUGH数据集的核心研究问题在于如何高效地从海量COVID-19相关问答中检索出最相关的答案，以支持全球范围内的疫情信息传播。该数据集在COVID-19信息检索领域具有重要影响力，为后续研究提供了丰富的多语言数据支持。

当前挑战

COUGH数据集面临的挑战主要体现在两个方面。首先，在领域问题上，COVID-19相关信息的快速更新和多语言特性使得FAQ检索系统需要具备高度的时效性和语言适应性。其次，在数据集构建过程中，研究人员需处理来自55个不同来源的数据，确保数据的准确性和一致性，同时还需应对多语言文本的复杂性和标注成本的高昂问题。此外，如何有效结合召回模块与精排模块的能力，以及完善多语言功能，也是该数据集未来需要解决的关键技术挑战。

常用场景

经典使用场景

COUGH数据集在COVID-19疫情期间，主要用于FAQ系统的构建和优化。该数据集通过提供大量的多语言FAQ对，支持了信息检索和问答系统的开发，特别是在处理与COVID-19相关的查询时，能够有效地提升系统的响应速度和准确性。

解决学术问题

COUGH数据集解决了在COVID-19疫情期间，快速准确地检索和提供相关信息的需求。通过提供丰富的多语言FAQ对，该数据集支持了信息检索算法的研究和优化，特别是在处理复杂和多样化的查询时，显著提高了检索系统的性能。

实际应用

在实际应用中，COUGH数据集被广泛用于开发智能问答系统，这些系统能够实时响应用户关于COVID-19的查询。例如，医疗机构和政府网站利用这些系统，为用户提供准确的健康信息和政策指导，从而在疫情期间发挥了重要作用。

数据集最近研究