CSD-Dataset

Name: CSD-Dataset
Creator: 南京大学
Published: 2021-07-04 10:13:57
License: 暂无描述

arXiv2021-07-04 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2106.06944v2

下载链接

链接失效反馈

官方服务：

资源简介：

CSD-Dataset是由南京大学创建的中文数据集，用于子文本识别研究。该数据集从流行的社交媒体平台如微博、知乎、网易云音乐和哔哩哔哩收集了约70,000条评论数据，经过匿名化处理以保护用户隐私。数据集包含详细的标注信息，包括讽刺、隐喻、夸张等七种信息，通过两轮标注确保质量。CSD-Dataset旨在通过机器学习方法帮助计算机理解文本中的隐含意义，特别是在情感分析和隐喻识别等领域中具有重要应用价值。

CSD-Dataset is a Chinese-language dataset created by Nanjing University for subtext recognition research. It collects approximately 70,000 pieces of comment data from popular social media platforms including Weibo, Zhihu, NetEase Cloud Music and Bilibili, and has been anonymized to protect user privacy. The dataset contains detailed annotation information covering seven categories such as sarcasm, metaphor, hyperbole and others, with its quality ensured through two rounds of annotation. CSD-Dataset aims to help computers understand the implicit meanings in texts via machine learning methods, and has important application value in fields such as sentiment analysis and metaphor recognition.

提供机构：

南京大学

创建时间：

2021-06-13

搜集汇总

数据集介绍

构建方式

CSD-Dataset 是一个用于子文本识别的中文数据集，其数据来源于热门社交媒体平台，例如微博、知乎、网易云音乐和哔哩哔哩。为了构建该数据集，研究者们从这些平台的热门评论列表中抓取了约 70,000 条评论数据。为了确保标注质量，每个评论都由三个人独立进行标注，并由其他人进行审核。数据集共包含 8,843 条标注评论，并经过匿名化处理以保护用户隐私。

使用方法

使用 CSD-Dataset 进行子文本识别研究时，研究者们提出了一个名为 SASICM 的多任务基准模型。该模型包含嵌入层、加强注意力层、双向 GRU 层、特征混淆层和预测层。模型采用 GloVe 和 BERT 作为嵌入层模型进行预训练，并在训练过程中进行微调。SASICM 在子文本识别任务上取得了优异的性能，F1 分数和准确率分别达到了 64.37% 和 71.11%。

背景与挑战

背景概述

CSD-Dataset，即Chinese Subtext Dataset，是由南京大学人工智能学院的研究人员于2021年构建的一个中文数据集。该数据集的创建旨在解决自然语言处理领域中子文本识别的问题。子文本是一种深层语义，需要经过一轮或多轮的表达转换才能获得。CSD-Dataset的数据来源于热门社交媒体平台，如微博、知乎、网易云音乐和Bilibili等。该数据集不仅为子文本识别提供了丰富的语料资源，还构建了一个名为SASICM的基线模型，用于处理子文本识别任务。SASICM模型在预训练模型为GloVe时，F1分数高达64.37%，比基于BERT的模型高3.97%，比传统方法平均高12.7%，比最先进的MARIN和BTM模型高2.39%。当预训练模型为BERT时，SASICM的F1分数为65.12%，比SASICMg高0.75%。SASICMg和SASICMBERT的准确率分别为71.16%和70.76%，与其他方法相当。CSD-Dataset的构建为子文本识别研究提供了重要的数据支持，对相关领域产生了积极的影响。

当前挑战

CSD-Dataset及相关研究面临的挑战主要包括：1) 子文本识别的挑战：子文本是一种深层语义，难以直接从文本序列中获得。如何准确地识别和提取子文本，是自然语言处理领域的一个重要研究问题。2) 数据集构建过程中的挑战：CSD-Dataset的数据来源于社交媒体平台，数据量庞大且存在噪声。如何有效地清洗和标注数据，确保数据集的质量，是构建高质量数据集的关键。3) 子文本识别模型的挑战：现有的子文本识别模型在准确率和效率方面仍存在不足。如何设计更有效的模型，提高子文本识别的准确率和效率，是子文本识别研究的重点。

常用场景

经典使用场景

CSD-Dataset，即Chinese Subtext Dataset，是专门针对中文文本中的潜台词识别问题构建的数据集。潜台词作为一种深层语义，需要通过表达方式的转换才能获得。该数据集的来源数据来自流行的社交媒体平台，如微博、网易云音乐、知乎和Bilibili等。CSD-Dataset通过构建一个包含潜台词识别、讽刺检测和隐喻检测的多任务模型SASICM，实现了对潜台词的准确识别。SASICM模型在CSD-Dataset上取得了优异的性能，其F1分数和准确率分别达到了64.37%和71.16%，优于其他对比模型。

解决学术问题

CSD-Dataset解决了潜台词识别这一自然语言处理领域的难题。潜台词识别是文本分类的子任务，而文本分类是自然语言处理的重要分支，包括情感分析、隐喻识别等。CSD-Dataset通过构建一个包含潜台词识别、讽刺检测和隐喻检测的多任务模型SASICM，实现了对潜台词的准确识别。SASICM模型在CSD-Dataset上取得了优异的性能，其F1分数和准确率分别达到了64.37%和71.16%，优于其他对比模型。该数据集的构建为潜台词识别研究提供了宝贵的数据资源，推动了相关领域的研究进展。

实际应用

CSD-Dataset在实际应用中具有重要的价值。潜台词识别可以帮助机器更好地理解人类的真实意图，从而提高机器翻译和情感分析的准确性。例如，在社交媒体平台中，潜台词识别可以帮助识别用户的真实情感，从而更好地进行用户行为分析和推荐系统设计。此外，潜台词识别还可以应用于舆情分析、对话系统等领域，提高相关应用的智能化水平。

数据集最近研究