DDmkTCCorpus

github2023-12-30 更新2024-05-31 收录

下载链接：

https://github.com/Chen-X666/DDmkTCCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

历时弹幕语料库，主要关注弹幕评论的子文化，包括鬼畜、动漫、电竞等类型。数据集提供了详细的弹幕文本、时间位置、发送时间等属性，支持研究人员进行深入研究。

The Danmaku Corpus, which primarily focuses on the subculture of danmaku comments, encompasses genres such as Kichiku (鬼畜), anime, and esports. The dataset offers detailed attributes including danmaku text, temporal positions, and posting times, facilitating in-depth research for scholars.

创建时间：

2022-03-17

原始信息汇总

数据集概述

数据集名称

DDmkTCCorpus: Diachronic Danmaku Text Comments Corpus

数据集维护者

TinyTalks

数据集内容

视频弹幕评论数据，主要关注青年亚文化弹幕，包括鬼畜、动漫、电竞等类型。

数据集详细信息

视频弹幕评论数据属性

Attribute	type	explanation	Default
text	(str)	弹幕文本	-
dm_time	(float)	弹幕在视频中的位置，单位为秒	0.0
send_time	(float)	弹幕发送的时间	time.time()
crc32_id	(str)	弹幕发送者 UID 经 CRC32 算法取摘要后的值	None
color	(str)	弹幕十六进制颜色	"ffffff"
weight	(int)	弹幕在弹幕列表显示的权重	-1
id_	(int)	弹幕 ID	-1
id_str	(str)	弹幕字符串 ID	""
action	(str)	暂不清楚	""
mode	(Mode)	弹幕模式	Mode.FLY
font_size	(FontSize)	弹幕字体大小	FontSize.NORMAL
is_sub	(bool)	是否为字幕弹幕	False
pool	(int)	暂不清楚	-1
attr	(int)	暂不清楚	-1

数据集分类

Type	Original Source	Text Source	Password
鬼畜	链接	链接	bnuz
电竞	链接	链接	bnuz
动漫	链接	链接	bnuz
疫情	链接	链接	bnuz

弹幕语言模型

Mdeols	Description	Mask Accuracy	Link
chinese_danmaku_roberta	fine-tuned version of uer/chinese_roberta_L-8_H-512 on an Danmaku Corpus(2000k raw data) dataset.	0.7780	链接

弹幕标记数据

数据格式：utf-8编码，逗号分隔的csv格式。
数据内容：数字信息、文本信息、标注分类。
标注类别：0高兴、1难过、2愤怒、3惊、4负样本。
下载链接：链接，密码：bnuz。

引用信息

bibtex @article{ QBTS202209010, author = {陈鑫,张以欣,吴俊潮,郭凌宇,余泽汇 & 杨静}, title = {历时弹幕语料库的构建与探析——以青年亚文化弹幕为例}, journal = {情报探索}, volume = {No.299}, number = {77-85}, year = {2022}, issn = {1005-8095}, doi ={10.3969/j.issn.1005－8095.2022.09.010} }

搜集汇总

数据集介绍

构建方式

DDmkTCCorpus数据集的构建基于对弹幕评论的深入采集与整理，主要涵盖了鬼畜、动漫、电竞等青年亚文化领域的弹幕文本。数据来源于2017年至2020年间播放量超过百万的视频，通过提取视频的弹幕信息，并结合视频的元数据（如标题、发布时间、观看数量等），构建了一个多维度的弹幕语料库。数据的采集与标注工作由TinyTalks社区负责，确保了数据的多样性与代表性。

特点

DDmkTCCorpus数据集的特点在于其广泛覆盖了多种亚文化领域的弹幕文本，且每条弹幕均附带了丰富的元数据信息，如弹幕在视频中的时间位置、发送时间、发送者ID、颜色、字体大小等。此外，数据集还提供了弹幕的情感标注，分为高兴、难过、愤怒、惊讶和负样本五类，为情感分析等研究提供了有力支持。数据集的结构清晰，数据以CSV格式存储，便于研究者进行进一步的分析与处理。

使用方法

DDmkTCCorpus数据集的使用方法较为灵活，研究者可以通过GitHub页面提供的链接下载数据集。数据以CSV格式存储，使用UTF-8编码，便于直接导入到数据分析工具中进行处理。数据集中的弹幕文本和元数据信息可以用于自然语言处理任务，如情感分析、文本分类等。此外，数据集还提供了预训练的语言模型，如chinese_danmaku_roberta，研究者可以直接使用这些模型进行进一步的微调或应用。使用该数据集时，建议引用相关文献以支持学术研究的规范性。

背景与挑战

背景概述

DDmkTCCorpus（历时弹幕文本评论语料库）是由TinyTalks社区维护的一个开源数据集，专注于中文短文本的自然语言处理研究，特别是青年亚文化领域的弹幕评论。该数据集涵盖了鬼畜、动漫、电竞等多种类型的弹幕文本，旨在为研究者提供丰富的语料资源，以深入探讨弹幕文化中的语言特征和情感表达。该数据集于2022年由陈鑫、张以欣等学者构建，并在《情报探索》期刊上发表相关研究成果。其核心研究问题包括弹幕文本的分类、情感分析以及语言模型的优化，对中文短文本处理领域具有重要的学术价值和应用潜力。

当前挑战

DDmkTCCorpus在构建和应用过程中面临多重挑战。首先，弹幕文本具有高度的即时性和碎片化特征，其语言表达往往包含大量的网络用语、缩写和非正式表达，这为文本分类和情感分析带来了困难。其次，弹幕数据的动态性和多样性使得数据标注和清洗工作异常复杂，尤其是在处理大规模数据时，如何保证标注的一致性和准确性成为关键问题。此外，弹幕文本的语境依赖性较强，其情感和语义往往需要结合视频内容进行理解，这对模型的上下文理解能力提出了更高的要求。最后，数据集的构建过程中，如何平衡数据的多样性和代表性，以及如何保护用户隐私，也是需要解决的重要问题。

常用场景

经典使用场景

DDmkTCCorpus数据集在自然语言处理领域中被广泛应用于弹幕文本的深度分析。研究者利用该数据集进行弹幕文本的情感分析、语义理解以及语言模型的训练。特别是在青年亚文化领域，如鬼畜、动漫和电竞等，该数据集为研究者提供了丰富的文本资源，帮助他们深入探讨弹幕文化的语言特征和演变规律。

衍生相关工作

DDmkTCCorpus数据集催生了一系列相关研究和技术创新。基于该数据集，研究者开发了多种弹幕语言模型，如chinese_danmaku_roberta，这些模型在情感分析和语义理解任务中表现出色。此外，该数据集还促进了多模态分析技术的发展，结合视频内容和弹幕文本，研究者提出了新的算法和模型，进一步推动了自然语言处理和计算机视觉的交叉研究。

数据集最近研究