five

CONDA

收藏
arXiv2021-07-23 更新2024-06-21 收录
下载链接:
https://github.com/usydnlp
下载链接
链接失效反馈
官方服务:
资源简介:
CONDA是由悉尼大学计算机科学学院创建的一个用于游戏内毒性语言理解和检测的上下文双重标注数据集。该数据集包含从1900场Dota 2比赛聊天记录中提取的45000条语句,旨在通过联合意图分类和槽填充分析来解决自然语言理解的核心任务。数据集的创建过程涉及从Kaggle获取Dota 2数据,进行数据预处理和双重标注,以支持意图检测和槽填充。CONDA的应用领域主要集中在游戏内的毒性行为检测,旨在通过分析玩家交流来识别和理解游戏中的毒性行为。

CONDA is a contextually dual-annotated dataset developed by the School of Computer Science, University of Sydney, for in-game toxic language understanding and detection. It comprises 45,000 utterances extracted from the chat logs of 1,900 Dota 2 matches, with the goal of addressing core natural language understanding (NLU) tasks via joint intent classification and slot filling analysis. The dataset construction process includes sourcing Dota 2 data from Kaggle, conducting data preprocessing and dual annotation to support intent detection and slot filling research. The primary application scenarios of CONDA focus on in-game toxic behavior detection, aiming to identify and understand toxic behaviors within games by analyzing player communications.
提供机构:
悉尼大学计算机科学学院
创建时间:
2021-06-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作