PKU-TANGENT/liveqa
收藏LiveQA 数据集概述
数据集描述
数据集摘要
LiveQA 数据集是一个中文问答资源,由实时直播广播构建而成。它包含 117k 个多选题,由人类评论员为超过 1,670 场 NBA 比赛编写,这些比赛收集自中国的虎扑网站。
支持的任务和排行榜
- 任务类别: 问答
- 任务ID: 抽取式问答
语言
中文
数据集结构
数据实例
每个实例代表一个时间线(即一场比赛),包含一个标识符。passages 字段包含一系列文本或问题段落。以下是一个截断的示例: python { id: 1, passages: [ { "is_question": False, "text": "我希望两位球员都能做到!!", "candidate1": "", "candidate2": "", "answer": "", }, { "is_question": False, "text": "新年给我们送上精彩比赛!", "candidate1": "", "candidate2": "", "answer": "", }, { "is_question": True, "text": "先达到60分?", "candidate1": "火箭", "candidate2": "勇士", "answer": "勇士", }, { "is_question": False, "text": "自己急停跳投!!!", "candidate1": "", "candidate2": "", "answer": "", } ] }
数据字段
- id: 比赛的标识符
- passages: 文本/问题段落的集合
- text: 实时文本评论或与上下文相关的二元问题
- candidate1/2: 问题的两个答案选项之一
- answer: 问题的正确答案
数据分割
该数据集没有预定义的分割。
数据集创建
数据集信息
- 特征:
- name: id dtype: int64
- name: passages
sequence:
- name: is_question dtype: bool
- name: text dtype: string
- name: candidate1 dtype: string
- name: candidate2 dtype: string
- name: answer dtype: string
- 分割:
- name: train num_bytes: 112187507 num_examples: 1670
- 下载大小: 114704569
- 数据集大小: 112187507
引用信息
@inproceedings{qianying-etal-2020-liveqa, title = "{L}ive{QA}: A Question Answering Dataset over Sports Live", author = "Qianying, Liu and Sicong, Jiang and Yizhong, Wang and Sujian, Li", booktitle = "Proceedings of the 19th Chinese National Conference on Computational Linguistics", month = oct, year = "2020", address = "Haikou, China", publisher = "Chinese Information Processing Society of China", url = "https://www.aclweb.org/anthology/2020.ccl-1.98", pages = "1057--1067" }




