BandwidthEstimationDataset

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/ByteDance/BandwidthEstimationDataset

下载链接

链接失效反馈

官方服务：

资源简介：

ByteDance Teams音视频通话轨迹数据集，包含从抖音直播应用中收集的音视频点对点通话数据。数据集适用于带宽估计研究，如训练深度学习模型或构建奖励模型。每个轨迹对应一个音视频通话部分，由一系列的观察向量、通话唯一ID、BWE策略ID、预测瓶颈链路带宽和请求率组成。观察向量基于接收的数据包信息，包含17个不同的网络特征，涵盖短期、中期和长期监控间隔。此外，还有一个模拟数据集，包含了真实的瓶颈链路容量信息，用于增强学习过程中的状态-动作空间覆盖。

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

在实时音视频通信领域，带宽估计的准确性直接影响服务质量。该数据集源自抖音直播平台上的点对点字节跳动Teams音视频通话，通过客户端采集每个通话会话的轨迹数据。每条轨迹包含51维观测向量，这些向量基于短时（100毫秒）、中时（500毫秒）和长时（1000毫秒）监测窗口内的网络包信息计算得出，覆盖接收速率、排队延迟、丢包率等17类核心网络指标的三时段特征。

特点

该数据集的核心价值在于其多维时空特性的完整封装。每个观测向量通过分层时间窗口捕捉网络状态的瞬态、中观与宏观演变，形成包含通话唯一标识、带宽估计算法策略编号、瓶颈链路预测带宽及质量保障请求速率的完整元数据体系。特别值得注意的是，仿真测试子集通过动态调制瓶颈链路真实容量，生成包含三万条以上具有明确地面真值数据的轨迹，有效扩展了网络动态场景的覆盖范围。

使用方法

研究者可借助该数据集开展带宽估计算法的深度探索。轨迹数据适用于训练端到端深度学习模型，其多维观测向量可直接作为状态输入，而预测带宽与请求速率则构成动作空间的监督信号。对于强化学习应用，该数据集能构建奖励函数训练框架，仿真子集提供的地面真值容量更可作为策略评估的基准。数据以结构化序列形式组织，支持时间序列分析、对比策略评估等研究范式。

背景与挑战

背景概述

带宽估计数据集由字节跳动团队于2023年发布，聚焦于实时音视频通信领域的网络性能优化。该数据集源自抖音直播平台的点对点音视频通话轨迹，旨在通过深度学习模型训练和奖励机制构建，解决动态网络环境下带宽预测的核心问题。其创新性体现在51维观测向量的多时间尺度设计，涵盖100毫秒至1000毫秒的短中长监测区间，为网络状态建模提供了高粒度时序特征。该资源显著推动了自适应流媒体传输算法的研究进程，成为互联网实时通信领域的重要基准。

当前挑战

带宽估计领域面临非平稳网络动态建模的固有难题，包括时变瓶颈容量识别与跨设备泛化能力不足。数据集构建过程中需克服真实网络环境数据采集的复杂性，如终端设备异构性导致的观测偏差，以及隐私保护约束下的数据脱敏处理。仿真数据扩展虽能补充罕见网络场景，但需平衡虚拟环境与真实网络特征分布的一致性。多维度特征工程中，延迟梯度与丢包率等17项指标的时序对齐精度，直接影响模型对网络拥塞状态的判别效能。

常用场景

经典使用场景

在实时音视频通信领域，带宽估计数据集为深度学习模型训练提供了关键支持。该数据集通过采集抖音直播平台点对点通话轨迹，构建了包含多维网络观测向量的时序数据，涵盖接收速率、排队延迟及丢包率等17类特征。研究者可基于这些丰富特征，开发精准的带宽预测算法，优化实时传输质量。

解决学术问题

该数据集有效解决了网络拥塞控制中的带宽动态估计难题。通过提供真实场景下的多尺度监测数据，支持学术界构建鲁棒性更强的带宽估计算法。其包含的仿真数据集进一步扩展了网络状态覆盖范围，为研究非典型网络动态提供了实验基础，显著提升了带宽估计模型在复杂网络环境中的泛化能力。

衍生相关工作

基于该数据集衍生的经典研究包括端到端带宽估计神经网络架构的设计。多项工作利用其多时间尺度特征构建深度强化学习模型，实现了在动态网络环境中的智能带宽调控。这些成果进一步推动了自适应流媒体传输协议的发展，为下一代实时通信系统奠定了算法基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集