B站视频评论区对话数据集

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/FunnySaltyFish/bilibili_comments_crawl

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是通过爬取B站视频评论区的对话构建而成，用于大语言模型的训练。数据集包含了多样的对话内容，反映了用户在B站视频下的真实交流情况。

This dataset is constructed by scraping dialogues from the comment sections of Bilibili videos, intended for the training of large language models. It encompasses a diverse range of conversational content, accurately reflecting the genuine interactions among users beneath Bilibili videos.

创建时间：

2023-08-29

原始信息汇总

基于B站视频评论区构建对话数据集概述

数据集内容

本数据集由B站视频评论区中的对话构成，样例如下：

json [ [ { "from": "龙末", "value": "上学的时候，寝室六个人，蚊子只爱我，宁可趴在我蚊帐上对我垂涎三尺望眼欲穿，都不会去叮其他人趴其他人的蚊帐，" }, { "from": "雾川鹤", "value": "我一样，宿舍四个人，只叮我，b型血" }, { "from": "心琪爱糖", "value": "b血加一，一个屋里人家能骑着被子我得从头到脚裹严实" }, { "from": "带个蓬箍会头疼", "value": "和血型无关，和糖分有关，一般胖人，或者懒人身上没肌肉都是那种软肉，糖分会高点，肌肉男运动型人不怎么招蚊子" }, { "from": "龙末", "value": "我是176cm，55kg的肌肉女" }, { "from": "带个蓬箍会头疼", "value": "55的176很瘦了，不过血糖也不是看体重，如果甜食吃的多血糖也多。我才163，体重50，血糖就体检有点多，皮和骨头直接没有肉，只有脂肪，不运动原因，" }, { "from": "龙末", "value": "我特讨厌吃甜食，爱喝水不喝饮料，不吃肉，只吃鱼和蔬菜，血糖正常。[OK]" } ] ]

数据集构建方法

数据集的构建方法涉及以下步骤：

数据爬取：使用爬虫程序从B站视频评论区爬取数据。
数据处理：将爬取的评论数据按照对话关系组织成树状结构。
对话提取：从树状结构中提取完整的对话链。
数据筛选：根据对话长度等条件筛选有效对话。

数据集使用

本数据集格式符合Aquila微调需求，具体格式可参考Aquila的Github仓库。数据集可用于微调大语言模型或其他对话生成任务。

搜集汇总

数据集介绍

构建方式

B站视频评论区对话数据集的构建过程基于对B站视频评论区的深度爬取与分析。首先，通过Python编写的爬虫程序，利用B站API获取视频评论数据，包括评论内容、评论者信息及评论间的层级关系。随后，根据评论的父评论ID构建对话树，通过深度优先搜索（DFS）算法遍历所有从根节点到叶子节点的路径，形成完整的对话链。最后，根据预设的对话长度阈值进行筛选，确保每条对话链的长度符合要求，从而构建出结构化的对话数据集。

特点

该数据集的特点在于其数据来源的广泛性和多样性。B站作为中国最大的视频分享平台之一，其评论区涵盖了丰富的主题和多样的用户互动，使得数据集具有较高的代表性和实用性。此外，数据集中的对话链保留了评论的原始层级关系，能够真实反映用户间的互动模式。数据格式采用JSON，便于后续的数据处理与分析，且每条对话链均包含评论者昵称和评论内容，便于进行用户行为研究和对话生成任务。

使用方法

使用该数据集时，首先需配置Python环境并安装相关依赖库，如`httpx`、`bilibili-api-python`和`python-dotenv`。随后，通过修改`.env`文件中的B站账号Cookie信息，确保爬虫程序能够正常访问B站API。用户可根据需求调整爬虫参数，如对话链的最小长度、爬取间隔时间等，以控制数据集的规模和爬取效率。数据集生成后，可直接用于微调大语言模型，如Aquila-7B，或用于其他对话生成任务。用户还可根据具体需求对数据集进行进一步处理，如去重、过滤或扩展，以提升数据质量。

背景与挑战

背景概述

B站视频评论区对话数据集是基于中国知名视频平台Bilibili的评论区构建的中文对话数据集。该数据集的创建初衷是为了填补中文对话数据集的空白，特别是在大语言模型微调领域的应用。数据集的核心研究问题在于如何从非结构化的评论区数据中提取出有意义的对话链，并用于训练和优化对话生成模型。该数据集的构建不仅为中文自然语言处理研究提供了宝贵的资源，还为社交媒体中的对话分析提供了新的视角。

当前挑战

B站视频评论区对话数据集在构建过程中面临多重挑战。首先，评论区数据的非结构化特性使得对话链的提取变得复杂，尤其是在处理多级回复和分支对话时，如何有效保留对话的上下文关系成为一大难题。其次，B站的API限制和反爬虫机制增加了数据获取的难度，特别是在大规模爬取时，如何平衡数据获取效率与对平台的影响是一个技术挑战。此外，数据集中可能存在噪声数据，如无关评论、广告信息等，如何有效过滤和清洗这些数据以提升数据集质量也是构建过程中需要解决的问题。

常用场景

经典使用场景

B站视频评论区对话数据集在自然语言处理领域中被广泛用于对话生成模型的训练与评估。通过提取B站视频评论区的对话链，该数据集能够为模型提供丰富的、贴近真实生活的对话场景，帮助模型学习如何在不同语境下生成连贯且符合逻辑的回复。特别是在中文对话生成任务中，该数据集弥补了现有中文对话数据集的不足，为研究者提供了宝贵的资源。

解决学术问题

该数据集解决了中文对话生成研究中数据稀缺的问题。传统的对话数据集多为英文，且内容较为正式，缺乏生活化的对话场景。B站视频评论区对话数据集通过捕捉用户在日常生活中的互动，提供了多样化的对话样本，帮助研究者更好地理解中文对话的语境和表达方式。此外，该数据集还为对话生成模型的微调提供了高质量的训练数据，提升了模型在实际应用中的表现。

衍生相关工作

基于B站视频评论区对话数据集，研究者们开发了多种对话生成模型和算法。例如，Aquila-7B模型通过微调该数据集，显著提升了其在中文对话生成任务中的表现。此外，该数据集还催生了一系列关于对话链构建、对话质量评估的研究工作，推动了中文自然语言处理领域的发展。这些衍生工作不仅丰富了对话生成的研究方法，还为其他相关领域提供了新的研究思路。

以上内容由遇见数据集搜集并总结生成