eduhk-compling/Group_F_Project

Name: eduhk-compling/Group_F_Project
Creator: eduhk-compling
Published: 2026-04-25 16:04:29
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/eduhk-compling/Group_F_Project

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集记录了香港非英语母语大学生在职业导向面试中填充词的使用情况。包含一小时的录音、转录文本以及词汇级别的注释，突出显示了声音、对话、过渡和强调填充词。数据通过分层抽样从不同学术水平的学生中收集，经过降噪处理，并采用AI辅助和人工验证的双重方法进行注释。数据集以WAV/MP3和CSV格式存储，支持语言学和计算分析。其再利用潜力涵盖话语研究、NLP基准测试和教学应用，为研究专业交流中的不流畅现象提供了宝贵资源。

This dataset documents filler word usage among non‑native English‑speaking university students in Hong Kong during career‑oriented interviews. It consists of one hour of audio recordings, transcriptions, and lexical‑level annotations highlighting sound, conversational, transitional, and emphasis fillers. Data were collected through stratified sampling across diverse academic levels, processed with noise reduction, and annotated using a dual AI‑assisted and manual verification approach. Stored in WAV/MP3 and CSV formats, the dataset supports both linguistic and computational analysis. Its reuse potential spans discourse studies, NLP benchmarking, and pedagogical applications, offering a valuable resource for examining disfluency in professional communication.

提供机构：

eduhk-compling

搜集汇总

数据集介绍

构建方式

本数据集聚焦于非英语母语的香港大学生在职业导向面试中的填充词使用现象。通过分层抽样策略，采集了涵盖不同学术层次的录音数据，总计一小时音频时长。原始音频经降噪预处理后，采用人工智能辅助标注与人工校验相结合的双重方法，对声音填充词、会话填充词、过渡填充词及强调填充词等四类词汇进行了精细的词汇级标注。最终数据以WAV/MP3音频格式与CSV结构化文本格式存储，确保了声学特征与文本信息的双重兼容性。

特点

该数据集的核心特点在于其面向真实职场场景的语料设计，突破了传统填充词研究多限于日常对话的局限。通过职业面试这一高压力交际情境，精准捕捉了非母语者在专业沟通中特有的不流利现象。标注体系兼顾了语言学分类的严谨性与计算分析的可行性，四类填充词的区分标注为后续研究提供了多角度切入的可能。数据格式的多样性更是使其成为连接语言学理论与自然语言处理实践的理想桥梁。

使用方法

研究者可依据CSV文件中的时间戳与标注信息提取特定填充词实例，进行话语分析中的语用功能探讨。同时，音频文件可直接用于语音识别系统的训练，测试模型对自然口语中的填充词处理能力。在自然语言处理基准测试中，该数据集可作为评估对话系统流畅性的评测标准。教育工作者亦可利用标注结果开发针对性的口语教学资源，帮助学习者识别并优化职业沟通中的填充词使用习惯。

背景与挑战

背景概述

在第二语言习得与职业沟通研究的交叉领域，非母语者的言语流利度始终是学界关注的焦点。该数据集创建于近年，由聚焦香港非母语英语大学生群体的研究团队开发，旨在系统捕捉职业导向面试情境中的填充词使用模式。填充词作为言语不流利现象的核心表征，其跨文化、跨情境的变异规律长期悬而未决。该数据集通过一小时的精细化录音与多层级标注，首次为东亚英语学习者的专业沟通语料提供了结构化资源，对会话分析、自然语言处理基准测试及教学法革新均产生了显著推动力。

当前挑战

该数据集所解决的领域挑战在于，以往对填充词的研究多基于母语者或实验室环境，缺乏对非母语者在真实职业面试中语用策略与认知负荷的刻画。构建过程中，研究人员需克服分层抽样中学术背景差异带来的代表性难题，并通过降噪处理消除环境干扰以保障音质。更关键的是，双轨标注法（人工智能辅助与人工校核）需协调算法效率与人类注释者对于语言细微差别的敏感度，以平衡标注一致性与语境准确性，这成为数据集可靠性的核心考验。

常用场景

经典使用场景

该数据集聚焦于非母语英语学习者在职业导向面试场景中的填充词使用现象，为对话分析与计算语言学界提供了一个标注精细、结构明晰的语料资源。研究者可借助其中的音频、转写文本及词汇级注释，深入剖析填充词在职场语境下的分布规律与交际功能，进而探索语言不流利现象与交际意图之间的微妙关联。

实际应用

在应用层面，该数据集可服务于语言教学实践，例如指导课程设计者开发针对性的口语流利度训练模块，帮助教师识别并纠正学生过度依赖填充词的表达习惯。同时，其结构化格式便于嵌入自然语言处理系统，用于优化语音助手的对话理解能力，或构建专门检测与处理异常语言信号的算法模型，提升人机交互的自然度。

衍生相关工作

基于此语料，研究者已拓展出多项经典工作，包括开发填充词自动识别与分类的机器学习基线模型，以及构建跨语言填充词对比分析框架。这些衍生研究不仅验证了数据集在评测二语口语特征时的有效性，还催生了面向职场沟通的场景化标注规范，为后续构建更大规模的职场语料库和开发智能口语评估工具奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集