JJQA

github2024-05-05 更新2024-05-31 收录

下载链接：

https://github.com/bebetterest/JJQA

下载链接

链接失效反馈

官方服务：

资源简介：

JJQA是一个基于JJ Lin歌曲歌词的中文问答数据集，旨在通过提供具有挑战性的文本知识问答，测试和提升大型语言模型在文本理解和生成方面的能力。数据集中的问题和答案基于歌词，具有抽象和反常识的特点，例如根据歌曲《爱情Yogurt》的歌词，提出的问题是“热量有什么作用？”答案是“降低爱情的过敏反应。”

JJQA is a Chinese question-answering dataset based on the lyrics of JJ Lin's songs, designed to test and enhance the capabilities of large language models in text comprehension and generation by providing challenging textual knowledge questions. The questions and answers in the dataset are based on lyrics, characterized by their abstract and counterintuitive nature. For example, based on the lyrics of the song 'Love Yogurt', a question posed is 'What is the effect of calories?' with the answer being 'Reduces allergic reactions to love.'

创建时间：

2023-11-06

原始信息汇总

数据集概述

数据集名称： JJQA

主题： 中文问答数据集，专注于JJ Lin歌曲歌词的理解与问答。

数据集内容：

数据来源： 通过QQMusicSpider从QQMusic爬取JJ Lin的所有歌曲歌词。
数据处理： 经过数据清洗和标注，包含648个问答对和181首相关歌曲的歌词。
数据结构： 包含三个字段："qa", "song", "song_index"。
- "qa"： 包含问答对及其相关信息，如问题、答案、相关歌曲的标题和ID等。
- "song"： 包含歌曲信息，如标题、名称、ID和歌词。
- "song_index"： 包含歌曲索引，用于匹配问答对和相应的歌曲。

数据集特点：

问答内容： 问答对基于歌词，问题和答案通常抽象且反常识，需要理解歌词内容才能正确回答。
挑战性： 设计用于测试大型语言模型在文本知识基础上的逻辑问答能力，特别是文本知识的检索和推理。

数据集可用性： 可在🤗Huggingface上获取，具体链接为https://huggingface.co/datasets/hobeter/JJQA。

数据集构建与评估

构建工具：

数据爬取： 使用1_get_data.py脚本进行数据爬取。
数据清洗： 使用2_clean_data.py脚本进行自动数据清洗。
标注工具： 使用基于QtDesigner的GUI工具进行问答对的添加、删除和编辑。

评估方法：

评估模型： 包括ernie-turbo, chatglm2_6b_32k, qwen-turbo, baichuan2-7b-chat-v1, gpt-4, gpt-3.5-turbo等六种大型语言模型。
评估指标： 使用BERTScore作为评估指标，考虑Precision, Recall, F1分数。
评估结果： 提供了不同模型在不同条件下的评估结果，包括无额外信息、包含整首歌曲歌词和仅包含相关歌词的情况。

数据集贡献与更新

贡献方式：

贡献指南： 请先阅读Open-Source-AI-Research中的贡献条款。
贡献流程： 分叉仓库，进行改进，添加更新日志，并提交拉取请求。

更新日志：

最近更新： 2023年11月13日，添加了gpt-4-turbo的评估结果，实施了openai助手API作为基准，并增加了构建JJQA和评估基准的开源脚本和结果。

引用信息

@misc{JJQA, title = {JJQA: a Chinese QA dataset on the lyrics of JJ Lins songs}, author = {O.S.R.}, howpublished = {url{https://www.liyujian.cn/upload/JJQA.pdf}}, }

搜集汇总

数据集介绍

构建方式

JJQA数据集的构建基于林俊杰歌曲的歌词，通过从QQ音乐平台爬取所有歌曲的歌词数据，并进行数据清洗和标注。该数据集包含648个问答对和181首相关歌曲的歌词。构建过程中，使用了自动化工具和人工标注相结合的方式，确保问答对的准确性和复杂性。通过提供相关歌词作为文本知识，JJQA旨在测试模型在语义检索和推理方面的能力。

使用方法

使用JJQA数据集时，用户可以通过Huggingface平台在线加载数据，或从本地文件中加载。数据集分为三个主要字段：'qa'包含问答对及其相关信息，'song'包含歌曲的详细信息，'song_index'用于对齐问答与歌曲。用户可以通过提供的Python脚本轻松加载和处理数据，进行模型训练和评估。

背景与挑战

背景概述

JJQA数据集是由Open-Source-AI-Research项目下的一个子项目创建，专注于基于林俊杰歌曲歌词的中文问答任务。该数据集旨在通过复杂的歌词内容，测试大型语言模型（LLMs）在语义检索和答案生成方面的能力。林俊杰的歌词以其丰富的想象力和诗意著称，这为构建一个具有挑战性的问答数据集提供了独特的素材。JJQA数据集包含648个问答对和181首相关歌曲的歌词，这些问题和答案设计得抽象且反常识，要求模型不仅理解歌词，还需进行深层次的推理。该数据集的创建旨在推动中文文本理解与生成技术的发展，特别是在复杂语境下的知识检索与推理能力。

当前挑战

JJQA数据集的主要挑战在于其复杂且抽象的歌词内容，这使得传统的问答任务变得极具挑战性。首先，歌词中的每个字符都可能包含丰富的含义，而仅凭少量歌词片段就能表达复杂的概念和情感，这对模型的语义理解能力提出了高要求。其次，问答对设计为反常识，要求模型在没有成功检索和推理相关歌词的情况下，难以生成正确答案。此外，数据集的构建过程中，如何从大量歌词中筛选出具有代表性的片段，并设计出既有趣又具挑战性的问答对，也是一项技术难题。这些挑战使得JJQA成为评估LLMs在中文文本理解与生成方面能力的理想数据集。

常用场景

经典使用场景

JJQA数据集的经典使用场景主要集中在基于林俊杰歌曲歌词的中文问答任务中。该数据集通过提供歌词作为文本知识，要求模型在理解歌词的基础上生成符合逻辑的答案。例如，针对歌曲《爱情Yogurt》中的歌词，问题可能是“热量有什么作用？”，而答案则是“降低爱情的过敏反应。”这种抽象且反常识的问答设计，使得模型必须准确检索并理解相关歌词，才能生成正确的答案。

解决学术问题

JJQA数据集解决了当前问答数据集中普遍存在的挑战性不足问题。传统的问答数据集往往基于常识性知识，模型可以通过语言建模的训练轻松应对。而JJQA通过引入林俊杰歌曲中富有诗意和想象力的歌词，设计了抽象且反常识的问答任务，迫使模型进行深层次的语义检索和推理。这不仅提升了问答任务的难度，还为研究大语言模型在中文文本理解、推理和生成方面的能力提供了新的研究方向。

实际应用

JJQA数据集在实际应用中具有广泛的前景。首先，它可以用于评估和提升大语言模型在中文文本理解与生成方面的能力，特别是在复杂语境下的推理能力。其次，该数据集可以应用于音乐分析领域，帮助研究人员更好地理解歌词中的情感和隐喻，进而开发出更智能的音乐推荐系统。此外，JJQA还可以用于教育领域，通过歌词中的抽象概念帮助学生提升语言理解和逻辑推理能力。

数据集最近研究