five

ORCHID|中文辩论数据集|自然语言处理数据集

收藏
arXiv2024-10-17 更新2024-10-19 收录
中文辩论
自然语言处理
下载链接:
https://github.com/xiutian/OrChiD
下载链接
链接失效反馈
资源简介:
ORCHID(Oral Chinese Debate)是由华为IT创新与研究中心创建的第一个中文辩论数据集,用于目标无关的立场检测和辩论总结。该数据集包含1,218场真实世界的中文辩论,涉及476个独特话题,包含2,436条立场特定的总结和14,133条完全标注的语句。数据集通过自动语音识别(ASR)转录原始数据,并进行手动后校正和标注。数据集的应用领域包括对话总结、立场检测和其他论点挖掘任务,旨在解决中文辩论数据集的不足,促进相关研究。
提供机构:
华为IT创新与研究中心
创建时间:
2024-10-17
原始信息汇总

OrChiD

数据集概述

  • 名称: OrChiD
  • 来源: EMNLP 2023
  • 描述: 一个用于目标独立立场检测和论证对话摘要的中文辩论语料库。

数据格式

  • 数据以字典列表的形式保存,每个字典代表一场辩论比赛。

数据结构

  • 辩论比赛:
    • competition: 辩论名称
    • match: 具体比赛
    • topic: 辩论主题
    • positions:
      • PRO: 正方立场声明
      • CON: 反方立场声明
    • debate: 辩论内容列表
      • stance: 立场(PRO 或 CON)
      • debater: 辩手标识
      • utterance: 辩手发言内容

更新状态

  • 数据集将进行进一步更新。
AI搜集汇总
数据集介绍
main_image_url
构建方式
ORCHID数据集的构建基于1,218场真实世界的中文辩论比赛,涵盖476个独特话题,包含2,436个立场特定的总结和14,133条完全标注的语句。构建过程首先通过自动语音识别(ASR)系统转录原始数据,随后进行人工校正和标注。数据集提供了两种粒度的辩论总结,即简短的立场总结和全面的立场特定总结。立场和辩论者信息在语句级别进行标注,确保数据的准确性和一致性。
使用方法
ORCHID数据集可用于多种自然语言处理任务,包括立场检测、抽象摘要和立场特定的摘要。研究者可以通过该数据集训练和评估模型,以提高在辩论对话中的立场检测和摘要生成能力。数据集的详细标注和多粒度总结为模型的训练和测试提供了坚实的基础,有助于推动相关领域研究的发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)的最新进展,对话代理的研究受到了越来越多的关注。立场检测和对话摘要是对话代理在涉及辩论对话的应用场景中的两个核心任务。然而,这些任务的研究受限于公开数据集的不足,尤其是非英语语言的数据集。为了解决中文语言资源在这方面的缺口,我们推出了ORCHID(Oral Chinese Debate),这是首个用于基准测试目标无关立场检测和辩论摘要的中文数据集。该数据集包含1,218个真实世界的辩论,涉及476个独特话题,包含2,436个立场特定的摘要和14,133个完全注释的话语。除了为未来的研究提供多功能测试平台外,我们还对数据集进行了实证研究,并提出了一个集成任务。结果显示了数据集的挑战性,并建议在辩论摘要中结合立场检测具有潜在的改进效果。
当前挑战
ORCHID数据集面临的挑战主要包括两个方面:一是解决领域问题,即图像分类的挑战;二是构建过程中遇到的挑战。在领域问题方面,目标无关立场检测和辩论摘要任务的复杂性在于辩论对话中包含的矛盾话语和冲突立场,这使得摘要任务更加复杂。此外,与书面文本相比,口语对话自然带有更多的噪音,如发音错误、重新表述和重复词语,这些都阻碍了摘要的生成。在构建过程中,数据集的创建涉及从公开资源中收集视频、使用自动语音识别(ASR)系统进行转录、手动注释和质量控制等多个阶段,每个阶段都面临不同的技术和社会挑战。
常用场景
经典使用场景
ORCHID数据集在辩论领域中被广泛用于目标无关立场检测和辩论对话摘要任务。其经典应用场景包括对辩论中的立场进行自动分类,以及生成辩论内容的摘要。通过分析辩论中的发言和立场,研究人员可以开发出能够理解和生成辩论对话的智能代理,从而推动对话系统在复杂场景中的应用。
解决学术问题
ORCHID数据集解决了非英语语言中缺乏公开数据集的问题,特别是在中文辩论领域。它为学术研究提供了丰富的资源,使得研究人员能够探索和开发针对中文辩论的立场检测和摘要生成模型。这不仅填补了语言资源的空白,还为跨语言对话系统的研究提供了新的视角和方法。
实际应用
ORCHID数据集在实际应用中具有广泛的前景,特别是在教育、法律和公共政策等领域。例如,它可以用于开发智能辩论辅助系统,帮助学生在辩论训练中提高表达和论证能力。此外,它还可以应用于法律辩论的自动化分析,以及公共政策讨论的实时摘要生成,从而提高决策过程的效率和透明度。
数据集最近研究
最新研究方向
在自然语言处理领域,ORCHID数据集的最新研究方向主要集中在目标无关立场检测和辩论对话摘要生成上。随着大型语言模型(LLMs)的进步,对话代理在这两个核心任务中的应用得到了显著提升。ORCHID数据集通过提供1,218个真实世界的中文辩论,包含2,436个立场特定的摘要和14,133个完全标注的语句,为未来的研究提供了丰富的测试平台。研究者们不仅在数据集上进行了实证研究,还提出了一个集成任务,即在辩论对话中结合立场检测进行摘要生成,显示出这一方向的巨大潜力和挑战性。
相关研究论文
  • 1
    ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization华为IT创新与研究中心 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。

国家海洋科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录