TED_dataset

github2022-12-16 更新2024-05-31 收录

下载链接：

https://github.com/xingbow/TED_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2623个TED演讲的元信息，直到2019年6月7日从官方TED网站收集。元信息包括作者、拍摄日期、总浏览量、评论、语言、下载链接、视频长度、AWS转录、爬取日期、发布日期、标题、ID、URL、关键词、视频名称和评分等字段，完整信息存储在alldata_JSON字段中。

This dataset comprises metadata of 2,623 TED Talks, collected from the official TED website up until June 7, 2019. The metadata includes fields such as author, recording date, total views, comments, language, download links, video length, AWS transcription, crawl date, release date, title, ID, URL, keywords, video name, and ratings. The complete information is stored in the alldata_JSON field.

创建时间：

2019-10-06

原始信息汇总

数据集概述

数据集名称

TED_dataset

数据集描述

该数据集包含2623个TED演讲的元信息，这些演讲来自官方TED.com网站，截至2019年6月7日。

数据集内容

数据集的元信息包括以下字段：

author
datefilmed
totalviews
comments
language
downloadlink
vidlen
aws-transcripts
datecrawled
datepublished
title
id
url
keywords
videoname
ratings

其中，完整信息存储在字段alldata_JSON中。

数据集字段详情

url: 原始视频链接
aws-transcripts: 每个视频均由AWS转录，包含两个字段：
- transcript: 视频中的所有文字
- words: 包含所有单词详细信息的数组，例如：
  - "start_time": "12.94",
  - "end_time": "13.25",
  - "alternatives": [{"confidence": "0.9097", "content": "we"}], "type": "pronunciation"}]

数据集用途

用于VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking研究。

数据集授权

该数据集共享于Creative Commons许可证下。

搜集汇总

数据集介绍

构建方式

TED_dataset数据集构建于2019年6月7日之前，涵盖了TED.com官方网站上的2623个TED演讲的元信息。这些元信息包括演讲者、拍摄日期、总观看次数、评论、语言、下载链接、视频长度、AWS转录文本、爬取日期、发布日期、标题、ID、URL、关键词、视频名称和评分等字段。所有详细信息均存储在'alldata_JSON'字段中。数据集中的每个视频均通过AWS进行转录，生成了包含所有单词的转录文本以及每个单词的详细信息。

特点

TED_dataset数据集的特点在于其丰富的元信息字段和详细的转录内容。每个视频不仅包含基本的演讲信息，还提供了AWS生成的转录文本，其中详细记录了每个单词的开始时间、结束时间、置信度和发音类型等。此外，数据集还提供了视频的下载链接，用户可以通过提供的Python脚本下载视频，并使用ffmpeg工具将其转换为其他音频格式。这些特点使得该数据集在语音分析、公共演讲训练等领域具有广泛的应用价值。

使用方法

使用TED_dataset数据集时，用户可以通过提供的Python脚本`tedvideo_download.py`从TED.com下载视频。下载完成后，用户可以使用ffmpeg工具将视频文件转换为mp3或wav等音频格式，以便进行进一步的分析和处理。数据集中的AWS转录文本可以直接用于语音识别、自然语言处理等任务。此外，用户还可以利用数据集中的元信息字段进行演讲内容分析、演讲者特征研究等。使用该数据集时，请引用相关论文以尊重作者的知识产权。

背景与挑战

背景概述

TED_dataset数据集由香港科技大学的研究团队于2020年创建，旨在为语音调制技能的训练提供支持。该数据集收录了截至2019年6月7日的2623个TED演讲视频的元信息，涵盖了演讲者、拍摄日期、观看次数、评论、语言、下载链接、视频长度、AWS转录文本等丰富字段。这些数据不仅为语音分析、自然语言处理等领域提供了宝贵资源，还通过其详细的转录信息和多维度元数据，推动了公共演讲技能训练的智能化研究。该数据集的发布为语音教练系统（VoiceCoach）的开发奠定了数据基础，并在人机交互领域产生了广泛影响。

当前挑战

TED_dataset数据集在构建过程中面临多重挑战。首先，TED演讲视频的多样性极高，涉及多种语言、主题和演讲风格，如何确保转录文本的准确性和一致性成为一大难题。其次，视频元数据的采集和整理需要处理大量非结构化数据，包括视频链接、评论、评分等，数据清洗和格式统一的工作量巨大。此外，AWS转录服务虽然提供了基础的语音转文本功能，但其输出仍需进一步处理以适配特定研究需求。这些挑战不仅体现在数据集的构建过程中，也影响了后续研究中对数据的有效利用，尤其是在语音分析和公共演讲技能训练的应用中，如何从海量数据中提取有价值的信息仍是一个亟待解决的问题。

常用场景

经典使用场景

TED_dataset数据集广泛应用于语音识别、自然语言处理以及公共演讲技能训练等领域。其包含的2623个TED演讲视频的元信息和转录文本，为研究者提供了丰富的多模态数据资源。通过分析这些数据，研究者可以深入探讨语音特征、演讲内容结构以及观众反馈之间的关系，从而推动相关领域的研究进展。

衍生相关工作

TED_dataset的发布催生了一系列经典研究工作，尤其是在语音识别和公共演讲技能训练领域。例如，基于该数据集开发的VoiceCoach系统，通过交互式训练帮助用户提升语音调制技能，成为公共演讲培训领域的代表性应用。此外，许多研究利用该数据集的多模态信息，开发了更高效的语音识别算法和自然语言处理模型，推动了相关技术的进步。

数据集最近研究