PKU-TANGENT/liveqa

Name: PKU-TANGENT/liveqa
Creator: PKU-TANGENT
Published: 2024-01-18 11:08:15
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/PKU-TANGENT/liveqa

下载链接

链接失效反馈

官方服务：

资源简介：

LiveQA数据集是一个中文问答资源，构建自实时直播的解说内容。数据集包含117k个由人类评论员为超过1,670场NBA比赛编写的多项选择题，这些数据来自中国的虎扑网站。每个实例代表一个时间线（即一场比赛），并包含一个标识符。passages字段包含文本或问题段的数组。数据集的字段包括id（比赛的标识符）、passages（文本/问题段的集合）、text（实时文本评论或与上下文相关的二元问题）、candidate1/2（问题的两个答案选项之一）和answer（问题的正确答案）。

The LiveQA dataset is a Chinese-language question answering resource constructed from real-time live broadcast commentary content. It contains 117,000 multiple-choice questions written by human commentators for over 1,670 NBA games, sourced from the Chinese Hupu website. Each instance represents a timeline (i.e., a single game) and includes an identifier. The passages field contains an array of text or question segments. The dataset has the following fields: id (the game's identifier), passages (a collection of text/question segments), text (real-time textual commentary or context-related binary questions), candidate1 and candidate2 (one of the two answer options for the question), and answer (the correct answer to the question).

提供机构：

PKU-TANGENT

原始信息汇总

LiveQA 数据集概述

数据集描述

数据集摘要

LiveQA 数据集是一个中文问答资源，由实时直播广播构建而成。它包含 117k 个多选题，由人类评论员为超过 1,670 场 NBA 比赛编写，这些比赛收集自中国的虎扑网站。

支持的任务和排行榜

任务类别: 问答
任务ID: 抽取式问答

语言

中文

数据集结构

数据实例

每个实例代表一个时间线（即一场比赛），包含一个标识符。passages 字段包含一系列文本或问题段落。以下是一个截断的示例： python { id: 1, passages: [ { "is_question": False, "text": "我希望两位球员都能做到！！", "candidate1": "", "candidate2": "", "answer": "", }, { "is_question": False, "text": "新年给我们送上精彩比赛！", "candidate1": "", "candidate2": "", "answer": "", }, { "is_question": True, "text": "先达到60分？", "candidate1": "火箭", "candidate2": "勇士", "answer": "勇士", }, { "is_question": False, "text": "自己急停跳投！！！", "candidate1": "", "candidate2": "", "answer": "", } ] }

数据字段

id: 比赛的标识符
passages: 文本/问题段落的集合
text: 实时文本评论或与上下文相关的二元问题
candidate1/2: 问题的两个答案选项之一
answer: 问题的正确答案

数据分割

该数据集没有预定义的分割。

数据集创建

数据集信息

特征:
- name: id dtype: int64
- name: passages sequence:
  - name: is_question dtype: bool
  - name: text dtype: string
  - name: candidate1 dtype: string
  - name: candidate2 dtype: string
  - name: answer dtype: string
分割:
- name: train num_bytes: 112187507 num_examples: 1670
下载大小: 114704569
数据集大小: 112187507

引用信息

@inproceedings{qianying-etal-2020-liveqa, title = "{L}ive{QA}: A Question Answering Dataset over Sports Live", author = "Qianying, Liu and Sicong, Jiang and Yizhong, Wang and Sujian, Li", booktitle = "Proceedings of the 19th Chinese National Conference on Computational Linguistics", month = oct, year = "2020", address = "Haikou, China", publisher = "Chinese Information Processing Society of China", url = "https://www.aclweb.org/anthology/2020.ccl-1.98", pages = "1057--1067" }

搜集汇总

数据集介绍

构建方式

LiveQA数据集的构建基于篮球比赛直播的逐段评论，通过人工评论员撰写的问题构建而成。该数据集包含超过1,670场NBA比赛的117k个多项选择题，这些问题是从中国虎扑网站上收集的。

使用方法

使用LiveQA数据集时，用户可以直接加载包含比赛ID、文本片段、问题、候选项和答案的字段。数据集未提供预定义的划分，用户需根据具体需求自行划分训练和测试集。

背景与挑战

背景概述

LiveQA数据集，由北京大学的研究团队创建于2020年，旨在为中文问答领域提供一种新的资源。该数据集由超过1670场NBA比赛的实时直播评论构成，包含了117k个由人类评论员撰写的选择题。LiveQA数据集的核心研究问题是提升机器在体育直播场景下的问答能力，对自然语言处理领域，尤其是在中文问答系统的研发上产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何从非结构化的直播评论中提取结构化的问题和答案，以及如何保证注释的质量和一致性。在研究领域，LiveQA数据集面临的挑战是如何提高模型的泛化能力，以应对不同体育赛事和不同风格的直播评论，同时还需要考虑如何减少潜在的偏见和局限性，以确保数据集的公平性和代表性。

常用场景

经典使用场景

在自然语言处理领域，尤其是中文问答系统的研究中，PKU-TANGENT/liveqa数据集因其独特的实时体育直播问答特性而被广泛使用。该数据集提供了针对具体比赛情境的多个选择题，对于训练和评估模型在理解复杂场景、实时反应以及多轮对话中的表现具有重要意义。

解决学术问题

该数据集解决了中文问答系统中如何处理实时动态信息、如何准确捕捉用户意图以及如何生成与上下文高度相关的回答等关键问题。它的出现为研究者在构建高交互性、高准确性的问答系统时提供了宝贵的实验资源。

实际应用

在实际应用中，PKU-TANGENT/liveqa数据集可用于开发体育直播辅助问答系统，为观众提供即时的比赛解析和预测，增强用户观看体验。此外，它也可用于训练智能客服系统，提升其在实时对话场景下的应对能力。

数据集最近研究