ORCHID

Name: ORCHID
Creator: 华为IT创新与研究中心
Published: 2024-10-17 23:28:27
License: 暂无描述

arXiv2024-10-17 更新2024-10-19 收录

下载链接：

https://github.com/xiutian/OrChiD

下载链接

链接失效反馈

官方服务：

资源简介：

ORCHID（Oral Chinese Debate）是由华为IT创新与研究中心创建的第一个中文辩论数据集，用于目标无关的立场检测和辩论总结。该数据集包含1,218场真实世界的中文辩论，涉及476个独特话题，包含2,436条立场特定的总结和14,133条完全标注的语句。数据集通过自动语音识别（ASR）转录原始数据，并进行手动后校正和标注。数据集的应用领域包括对话总结、立场检测和其他论点挖掘任务，旨在解决中文辩论数据集的不足，促进相关研究。

ORCHID (Oral Chinese Debate) is the first Chinese debate dataset created by Huawei IT Innovation and Research Center, dedicated to target-irrelevant stance detection and debate summarization. This dataset includes 1,218 real-world Chinese debates covering 476 unique topics, with 2,436 stance-specific summaries and 14,133 fully annotated utterances. The raw data was transcribed via automatic speech recognition (ASR) and then underwent manual post-correction and annotation. Its application fields cover dialogue summarization, stance detection and other argument mining tasks, aiming to address the scarcity of existing Chinese debate datasets and promote relevant research.

提供机构：

华为IT创新与研究中心

创建时间：

2024-10-17

原始信息汇总

OrChiD

数据集概述

名称: OrChiD
来源: EMNLP 2023
描述: 一个用于目标独立立场检测和论证对话摘要的中文辩论语料库。

数据格式

数据以字典列表的形式保存，每个字典代表一场辩论比赛。

数据结构

辩论比赛:
- competition: 辩论名称
- match: 具体比赛
- topic: 辩论主题
- positions:
  - PRO: 正方立场声明
  - CON: 反方立场声明
- debate: 辩论内容列表
  - stance: 立场（PRO 或 CON）
  - debater: 辩手标识
  - utterance: 辩手发言内容

更新状态

数据集将进行进一步更新。

搜集汇总

数据集介绍

构建方式

ORCHID数据集的构建基于1,218场真实世界的中文辩论比赛，涵盖476个独特话题，包含2,436个立场特定的总结和14,133条完全标注的语句。构建过程首先通过自动语音识别（ASR）系统转录原始数据，随后进行人工校正和标注。数据集提供了两种粒度的辩论总结，即简短的立场总结和全面的立场特定总结。立场和辩论者信息在语句级别进行标注，确保数据的准确性和一致性。

使用方法

ORCHID数据集可用于多种自然语言处理任务，包括立场检测、抽象摘要和立场特定的摘要。研究者可以通过该数据集训练和评估模型，以提高在辩论对话中的立场检测和摘要生成能力。数据集的详细标注和多粒度总结为模型的训练和测试提供了坚实的基础，有助于推动相关领域研究的发展。

背景与挑战

背景概述

随着大型语言模型（LLMs）的最新进展，对话代理的研究受到了越来越多的关注。立场检测和对话摘要是对话代理在涉及辩论对话的应用场景中的两个核心任务。然而，这些任务的研究受限于公开数据集的不足，尤其是非英语语言的数据集。为了解决中文语言资源在这方面的缺口，我们推出了ORCHID（Oral Chinese Debate），这是首个用于基准测试目标无关立场检测和辩论摘要的中文数据集。该数据集包含1,218个真实世界的辩论，涉及476个独特话题，包含2,436个立场特定的摘要和14,133个完全注释的话语。除了为未来的研究提供多功能测试平台外，我们还对数据集进行了实证研究，并提出了一个集成任务。结果显示了数据集的挑战性，并建议在辩论摘要中结合立场检测具有潜在的改进效果。

当前挑战

ORCHID数据集面临的挑战主要包括两个方面：一是解决领域问题，即图像分类的挑战；二是构建过程中遇到的挑战。在领域问题方面，目标无关立场检测和辩论摘要任务的复杂性在于辩论对话中包含的矛盾话语和冲突立场，这使得摘要任务更加复杂。此外，与书面文本相比，口语对话自然带有更多的噪音，如发音错误、重新表述和重复词语，这些都阻碍了摘要的生成。在构建过程中，数据集的创建涉及从公开资源中收集视频、使用自动语音识别（ASR）系统进行转录、手动注释和质量控制等多个阶段，每个阶段都面临不同的技术和社会挑战。

常用场景

经典使用场景

ORCHID数据集在辩论领域中被广泛用于目标无关立场检测和辩论对话摘要任务。其经典应用场景包括对辩论中的立场进行自动分类，以及生成辩论内容的摘要。通过分析辩论中的发言和立场，研究人员可以开发出能够理解和生成辩论对话的智能代理，从而推动对话系统在复杂场景中的应用。

解决学术问题

ORCHID数据集解决了非英语语言中缺乏公开数据集的问题，特别是在中文辩论领域。它为学术研究提供了丰富的资源，使得研究人员能够探索和开发针对中文辩论的立场检测和摘要生成模型。这不仅填补了语言资源的空白，还为跨语言对话系统的研究提供了新的视角和方法。

实际应用

ORCHID数据集在实际应用中具有广泛的前景，特别是在教育、法律和公共政策等领域。例如，它可以用于开发智能辩论辅助系统，帮助学生在辩论训练中提高表达和论证能力。此外，它还可以应用于法律辩论的自动化分析，以及公共政策讨论的实时摘要生成，从而提高决策过程的效率和透明度。

数据集最近研究