TELEVAL

Name: TELEVAL
Creator: 中国电信人工智能研究院（TeleAI）
Published: 2025-07-24 11:23:55
License: 暂无描述

arXiv2025-07-24 更新2025-07-26 收录

下载链接：

https://github.com/Tele-AI/TELEVAL

下载链接

链接失效反馈

官方服务：

资源简介：

TELEVAL是一个为评估中文交互场景中口语模型（SLM）而设计的动态基准数据集。它包含三个评估维度：显式语义、副语言和隐式语义，以及系统能力。该数据集采用与实际使用一致的对话格式，并分别评估文本和音频输出。TELEVAL特别关注模型从用户语音中提取隐式线索并相应地作出反应的能力。实验表明，尽管SLM在自然对话任务中仍有很大改进空间，但TELEVAL可以作为以用户为中心的评价框架，直接反映用户体验，并有助于开发更强大的对话型SLM。

TELEVAL is a dynamic benchmark dataset designed for evaluating spoken language models (SLM) in Chinese interactive scenarios. It encompasses four evaluation aspects: explicit semantics, paralinguistics, implicit semantics, and system capabilities. This dataset adopts a dialogue format consistent with real-world usage, and separately evaluates text and audio outputs. TELEVAL specifically focuses on the model's ability to extract implicit cues from user speech and generate corresponding responses. Experiments have shown that although SLMs still have considerable room for improvement in natural dialogue tasks, TELEVAL can serve as a user-centric evaluation framework that directly reflects user experience and aids the development of more robust conversational SLMs.

提供机构：

中国电信人工智能研究院（TeleAI）

创建时间：

2025-07-24

原始信息汇总

TELEVAL 数据集概述

数据集简介

名称：TELEVAL
类型：语音对话大模型（SLMs）动态评测基准
语言：中文普通话为主，含英文问答及多种中国方言（粤语、河南话、东北话等）
维度划分：
- 显性语义（Explicit Semantics）
- 隐性语义与副语言信息（Paralinguistic & Implicit Semantics）
- 系统能力（System Abilities）

核心特点

多维实用性评估
- 覆盖12大任务34个数据集（持续扩充）
真实交互测试
- 模拟自然对话场景（如知识问答、拟人陪伴）
模块化评测框架
- 支持推理与评估流程解耦
- 兼容SLM和LLM的推理与评估

技术信息

环境要求：Python 3.10
依赖安装： bash pip install -r requirements_all.txt # 完整依赖 pip install -r requirements_eval.txt # 仅评估

数据集结构

支持格式：HuggingFace parquet / 本地jsonl+wav
工具支持：提供parquet2jsonl.py格式转换工具
自定义支持：可通过配置文件添加新数据集

评估流程

Stage 0：数据集准备（可选）
Stage 1：模型推理（支持多任务批量执行）
Stage 2：结果打分（支持已有结果评估）

支持模型

模型名称	来源项目
glm-4-voice-9b	GLM-4-Voice
MiniCPMo2_6-audio	MiniCPM-o-2.6
baichuan_omni_1d5	Baichuan-Omni-1.5
qwen2_5_omni	Qwen2.5-Omni
kimi-audio-7b-instruct	Kimi-Audio

性能指标

模型	基础知识(%)	方言理解(%)	情感回应(%)	语音CER(%)
GLM-4-Voice	31.55	13.13	35.55	6.58
Qwen2.5-Omni	34.77	40.54	44.83	1.69
Kimi-Audio	37.18	25.71	53.17	3.84

文档资源

搜集汇总

数据集介绍

构建方式

TELEVAL数据集的构建采用了多模态融合的方法，结合了真实人类录音与合成语音技术。在语音数据采集方面，研究团队建立了包含不同年龄、性别和方言的说话者语音库，并通过先进的TTS系统生成多样化的语音样本。对于涉及情感表达等复杂语义的任务，则优先采用真实人类录音以确保数据的自然性和真实性。数据集覆盖了12项核心任务，通过精心设计的评估维度（显式语义、副语言与隐式语义、系统能力）全面检验语音语言模型的中文交互能力。

使用方法

使用TELEVAL进行评估时，研究者需通过标准化的推理管道处理语音和文本输入。对于事实型问答任务采用字符串匹配评估，开放域对话则运用LLM-as-judge机制。音频质量通过DNSMOS和错误率等客观指标衡量，而情感响应等主观维度则结合预训练模型与人工标注进行评分。评估过程支持对8种开源SLM和商业API的横向对比，重点关注模型在噪声环境下的鲁棒性、多轮对话一致性等实际应用场景中的表现。

背景与挑战

背景概述

TELEVAL是由中国电信TeleAI团队于2025年提出的中文交互场景口语语言模型评估基准。该数据集针对现有评估基准与真实对话场景脱节的问题，创新性地从用户中心视角构建了包含显式语义、副语言与隐式语义、系统能力三大维度的评估体系。作为首个专注于中文自然对话场景的动态基准，TELEVAL通过4万余个样本系统评估模型在方言理解、情感回应、非语言声音处理等现实交互任务中的表现，推动了对话式语音模型从任务完成向自然交互的范式转变。

当前挑战

TELEVAL面临的核心挑战体现在两个方面：在领域问题层面，需解决现有基准对副语言特征（如语气、年龄暗示）仅作识别而忽略回应适切性的缺陷，要求模型能从语音信号中提取隐式线索并生成符合语境的自然回应；在构建过程层面，需克服合成语音在情感表达真实性、方言发音自然度方面的局限性，同时设计双模态（文本/语音）分离评估机制以避免ASR转录引入的误差。具体挑战包括如何量化评估模型对咳嗽等非语言声音的关怀回应，以及如何在多方言场景下保持语义准确性与风格一致性的平衡。

常用场景

经典使用场景

TELEVAL数据集专为中文交互场景下的口语语言模型评估而设计，其经典使用场景包括对模型在自然对话中的表现进行全面测试。通过模拟真实用户对话，该数据集能够评估模型在理解显性语义、副语言及隐性语义以及系统能力三个维度上的表现。例如，模型需要识别用户语音中的情绪、方言等隐含信息，并生成符合语境的自然回应。这种评估方式特别适用于需要高交互性的智能助手和客服系统开发。

解决学术问题

TELEVAL解决了当前口语语言模型评估中存在的关键学术问题，尤其是评估方法与实际使用场景脱节的问题。传统评估多依赖选择题或开放式问题，难以反映真实对话中的自然交互。该数据集通过设计对话式评估任务，填补了模型在副语言理解（如情绪、年龄感知）和方言响应能力上的评估空白。其创新性在于将音频与文本输出分离评估，避免了ASR系统引入的误差，为提升口语模型的交互自然度提供了标准化测试框架。

实际应用

在实际应用中，TELEVAL可显著提升智能语音产品的用户体验。例如，在客服系统中，基于该数据集优化的模型能更准确地捕捉用户语音中的疲惫情绪并调整回应策略；在教育领域，支持方言交互的模型可服务于方言使用者。此外，其抗噪声测试模块能指导车载语音、工业语音识别等嘈杂环境下的系统优化。数据集动态更新的特性也使其能持续适应新兴应用场景如虚拟社交伴侣的开发。

数据集最近研究