five

HURIT (Human Resource Interview Transcripts)

收藏
arXiv2025-04-08 更新2025-04-10 收录
下载链接:
http://arxiv.org/abs/2504.05683v1
下载链接
链接失效反馈
官方服务:
资源简介:
HURIT数据集是由印度理工学院克勒格布尔分校与Taplingua合作收集的,包含3890份来自真实世界HR面试场景的面试转录文本,专注于母语为非英语的应聘者在面试中的沟通技能评估。这些转录文本是从学生模拟HR面试的录音转换而来,并使用OpenAI的Whisper模型进行转录。数据集旨在用于评估大型预训练语言模型在提供评分、识别错误和提供反馈等方面的表现,以探索其在HR面试评估中的潜在应用。

The HURIT Dataset was collected in collaboration between the Indian Institute of Technology Kharagpur and Taplingua. It comprises 3,890 interview transcripts sourced from real-world HR interview scenarios, with a focus on evaluating the communication skills of non-native English-speaking job candidates. These transcripts were transcribed from audio recordings of students' mock HR interviews using OpenAI's Whisper model. The dataset is designed to evaluate the performance of large pre-trained language models in tasks including assigning scores, identifying errors, and providing feedback, so as to explore their potential applications in HR interview assessment.
提供机构:
印度理工学院克勒格布尔分校(IIT-Kgp)
创建时间:
2025-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
HURIT数据集构建于真实的HR面试场景,通过与Taplingua合作收集了3,890份来自亚洲地区L2英语使用者的面试录音。这些录音通过OpenAI Whisper large-v2模型转换为文本转录,并以结构化JSON格式存储,包含ID、姓名和转录文本三个关键字段。数据覆盖了四种常见的HR面试问题类型,确保了数据集的多样性和实用性。
特点
HURIT数据集的特点在于其真实性和多样性,所有转录文本均来自实际的HR面试场景,涵盖了不同背景的面试者。数据集特别关注L2英语使用者的沟通能力评估,包括流利度、连贯性、语气/礼貌、相关性、简洁性和语法准确性六个维度。此外,数据集还提供了详细的错误标注和反馈建议,为研究HR面试评估提供了丰富的资源。
使用方法
HURIT数据集可用于评估预训练大型语言模型(LLMs)在HR面试转录分析中的表现。研究人员可以通过该数据集进行零样本或少样本提示实验,比较LLMs与人类专家在评分、错误识别和反馈建议方面的差异。数据集的结构化格式便于直接应用于模型训练和评估,特别适合研究自动面试评估系统的开发和优化。
背景与挑战
背景概述
HURIT (Human Resource Interview Transcripts) 数据集由印度理工学院卡哈拉格普尔分校的研究团队于2025年创建,旨在探索预训练大语言模型(LLMs)在人力资源面试评估中的应用潜力。该数据集包含3,890份真实HR面试转录文本,涵盖亚洲地区L2英语使用者的模拟面试场景,聚焦教育背景与沟通技能的交叉评估。作为首个面向HR面试自动评估的公开语料库,HURIT填补了该领域实证研究的空白,为探索LLMs在招聘流程自动化中的可行性提供了重要基准。其核心研究问题在于验证预训练模型能否替代人类专家完成面试评分、错误识别和改进建议生成等复杂任务,对推动智能化招聘技术发展具有里程碑意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,HR面试评估需处理非结构化语音转录文本中的多维度特征(如流畅度、连贯性、语法准确性),而现有LLMs在识别具体错误(如逻辑断层、冗余表达)和生成可操作建议方面表现欠佳,其评分与人类专家仅呈现弱至中度相关性;在构建过程中,数据采集受限于区域性样本(仅亚洲地区)和特定问题类型(4类标准问题),导致模型泛化能力受限。此外,语音转文本环节引入的噪声(如方言特征、口语化表达)以及人工标注一致性(Fleiss's kappa=0.41-0.60)问题,进一步增加了构建高质量评估基准的复杂度。
常用场景
经典使用场景
HURIT数据集在人力资源领域的经典使用场景包括模拟面试评估和沟通技能分析。该数据集通过真实HR面试转录文本,为研究者提供了丰富的语言样本,使得大规模分析候选人的语言表达能力成为可能。在学术研究中,这些转录文本常被用于开发自动化评估工具,帮助识别面试中的语言流畅度、逻辑连贯性和专业表达等关键指标。数据集的多维度标注进一步支持了从语法准确性到话题相关性的全面评估。
衍生相关工作
基于HURIT数据集已衍生出多个标志性研究,包括面试回答质量预测模型、跨文化沟通差异分析框架以及混合评估系统的开发。这些工作显著推进了计算语言学在HR领域的应用深度,其中最具影响力的是提出'人类参与循环'的评估范式,该范式将语言模型的效率优势与人类专家的情境判断相结合。后续研究进一步扩展了数据集在压力面试分析、性别偏见检测等细分方向的应用价值。
数据集最近研究
最新研究方向
近年来,HURIT数据集在人力资源(HR)领域的自然语言处理研究中引起了广泛关注,特别是在基于大语言模型(LLMs)的自动面试评估方面。该数据集由3,890份真实的HR面试转录文本组成,为研究LLMs在面试评估中的表现提供了丰富资源。最新研究聚焦于探索零样本和小样本预训练LLMs(如GPT-4 Turbo、GPT-3.5 Turbo和Llama 2系列模型)在面试评分、错误识别和反馈建议生成方面的能力。研究发现,尽管GPT-4 Turbo和GPT-3.5 Turbo在评分任务上表现出与人类专家相当的性能,但在错误识别和具体改进建议生成方面仍存在显著差距。这一发现推动了‘人在环路’(human-in-the-loop)方法的发展,强调在自动评估系统中引入人工校验的必要性。HURIT数据集的发布不仅填补了HR面试评估领域真实数据集的空白,还为未来研究如何优化LLMs在招聘流程中的应用提供了重要基准。
相关研究论文
  • 1
    Towards Smarter Hiring: Are Zero-Shot and Few-Shot Pre-trained LLMs Ready for HR Spoken Interview Transcript Analysis?印度理工学院克勒格布尔分校(IIT-Kgp) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作