five

DEBISS

收藏
arXiv2026-03-06 更新2026-03-07 收录
下载链接:
https://github.com/AINDA-Project-UFCG/DEBISS
下载链接
链接失效反馈
官方服务:
资源简介:
DEBISS是由坎皮纳格兰德联邦大学构建的巴西葡萄牙语口语辩论语料库,聚焦教育场景下67名计算机科学新生围绕‘生成式人工智能及其社会影响’主题的半结构化辩论。该数据集包含9小时35分钟的音频及转录文本,涵盖16组3-5人辩论的语音数据,采用Azure语音识别技术辅助标注,并附有参与者自评和互评的多维度标注。其创新性在于融合教育环境、个体观点表达与半自由辩论形式,为论辩挖掘、说话人日志、辩论质量评估等NLP任务提供资源支持。
提供机构:
坎皮纳格兰德联邦大学; 帕拉伊巴联邦研究所
创建时间:
2026-03-06
原始信息汇总

数据集概述

数据集名称

transcription-data

数据集描述

该存储库包含所有可用的音频转录数据。同时,它还提供了一些关于如何处理音频文件的代码片段。

数据内容

  • 音频转录数据
  • 音频文件处理代码片段

数据获取说明

要访问音频文件,请联系作者。

存储库地址

https://github.com/AINDA-Project-UFCG/DEBISS

搜集汇总
数据集介绍
main_image_url
构建方式
在计算语言学和话语分析领域,构建高质量的辩论语料库对于推进论证挖掘和辩论质量评估等自然语言处理任务至关重要。DEBISS语料库的构建过程体现了严谨的方法论设计,其数据采集于2024年,涉及67名计算机科学专业的一年级本科生,这些学生被分为16个小组进行面对面辩论,总录音时长达到9小时35分钟。辩论围绕“生成式人工智能及其对社会的影响”这一中心主题展开,采用了半结构化形式,既包含预设问题环节,也允许参与者自由表达观点。录音使用专业设备在受控环境中完成,随后通过Azure语音转文本模型进行自动转录,并结合人工校验以确保文本准确性,最终形成了包含音频、转录文本及多维度标注的完整数据集。
使用方法
DEBISS语料库为自然语言处理研究提供了多用途的实验平台。研究人员可通过其GitHub仓库访问完整的音频文件、转录文本及标注数据,进而开展一系列计算分析。在论证挖掘方面,可利用DEBISS-Arg子集中的论证组件与关系标注,训练模型以识别论点、前提和证据,并分析跨话语的论证互动。对于辩论质量评估,DEBISS-Eval子集提供的专家评分与定性反馈支持对辩论者表现的多维度量化研究。同时,该语料库适用于语音技术任务,如说话人分离、不流利检测,以及基于转录文本的语言模型训练。其半结构化辩论格式也为教育计算领域研究论证技能发展、话语策略提供了真实场景数据。
背景与挑战
背景概述
在自然语言处理与计算语言学研究领域,针对辩论话语的深度分析长期受限于高质量、多模态标注语料的稀缺。DEBISS语料库由巴西坎皮纳斯联邦大学的研究团队于2024年构建,旨在填补教育场景中半结构化、口语化辩论资源的空白。该语料库聚焦于巴西葡萄牙语,收录了67名计算机科学新生围绕‘生成式人工智能及其社会影响’主题进行的面对面辩论,总时长超过9小时。其核心研究问题在于如何捕捉个体在自发论证过程中的语言特征与互动模式,从而为论辩挖掘、辩手质量评估等自然语言处理任务提供基础数据支撑。该资源通过融合音频、转录文本及多层次标注,显著提升了非英语辩论分析的语料多样性,对教育技术、论辩计算等交叉学科具有重要推动作用。
当前挑战
DEBISS语料库致力于解决论辩计算领域中口语化、半结构化辩论的分析挑战,其核心任务涵盖论辩单元识别、论证关系抽取及辩手表现评估等复杂问题。在构建过程中,研究团队面临多重技术障碍:首先,口语转录的准确性保障需平衡自动语音识别模型效率与人工校验成本,团队通过对比多种模型并实施半自动化流程以优化质量。其次,多人对话场景下的说话人日志标注要求精细的时间戳对齐与身份辨识,尤其在语音重叠片段处理上需设计专门标注协议。此外,语料主题的单一性可能限制模型在多元议题上的泛化能力,而参与者背景的同质性亦对辩论风格多样性构成约束。这些挑战共同指向口语辩论语料构建在规模扩展、标注一致性与内容多样性方面的持续需求。
常用场景
经典使用场景
在计算语言学和话语分析领域,DEBISS数据集为研究半结构化口语辩论提供了独特资源。其经典使用场景聚焦于自然语言处理任务,特别是论据挖掘和辩论质量评估。通过捕捉巴西葡萄牙语环境中学生的自发论证过程,该数据集支持对论据结构、修辞策略及说话者互动模式的深入分析,为开发专门的计算模型奠定基础。
解决学术问题
DEBISS数据集有效解决了辩论分析中资源稀缺的学术问题,尤其是在非英语语言和半结构化口语辩论方面。它填补了教育背景下个体化、自发论证语料库的空白,为跨文化、多语言的话语研究提供了数据支撑。通过丰富的标注信息,该数据集促进了论据挖掘、说话人日志、不流畅性检测等自然语言处理任务的发展,推动了辩论计算分析领域的理论深化与方法创新。
实际应用
DEBISS数据集的实际应用场景广泛涉及教育技术、人工智能辅助辩论培训以及社交媒体分析。在教育领域,它可以用于评估学生的论证能力与口头表达技巧,为个性化教学提供数据支持。在技术开发中,该数据集为构建自动辩论评估系统、语音识别优化以及多模态交互模型提供了训练与测试资源,助力于开发更智能的沟通辅助工具。
数据集最近研究
最新研究方向
在计算语言学和论辩分析领域,DEBISS数据集以其独特的半结构化、口语化巴西葡萄牙语辩论语料库,正推动前沿研究向多模态论辩挖掘与质量评估深化。该数据集围绕生成式人工智能的社会影响主题,整合了音频、转录文本及丰富的标注信息,包括论辩单元识别、说话人日志、不流畅性检测等,为开发精细化的自然语言处理模型提供了关键资源。近期研究热点聚焦于利用大型语言模型进行论辩质量自动评估与不流畅性检测,以及从多模态角度分析论辩互动模式,这些探索不仅拓展了论辩计算的理论边界,也为教育技术中口语论辩技能的自动化辅导系统开发奠定了实证基础。
相关研究论文
  • 1
    DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates坎皮纳格兰德联邦大学; 帕拉伊巴联邦研究所 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作