five

format37/rtlm

收藏
Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/format37/rtlm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用whisper-large v2模型从电视频道的流媒体中转录而来,用于研究目的。数据集包含每个频道每年的压缩文件,每个压缩文件内包含5-10分钟视频的转录文本文件。数据集的语言包括俄语、白俄罗斯语和乌克兰语,适用于文本分类任务,标签为社会学,大小为10K到100K之间。数据集还提供了下载数据集的示例代码,并指出了数据集的一些已知问题和免责声明。

该数据集使用whisper-large v2模型从电视频道的流媒体中转录而来,用于研究目的。数据集包含每个频道每年的压缩文件,每个压缩文件内包含5-10分钟视频的转录文本文件。数据集的语言包括俄语、白俄罗斯语和乌克兰语,适用于文本分类任务,标签为社会学,大小为10K到100K之间。数据集还提供了下载数据集的示例代码,并指出了数据集的一些已知问题和免责声明。
提供机构:
format37
原始信息汇总

数据集概述

基本信息

  • 语言: 俄语, 白俄罗斯语, 乌克兰语
  • 名称: rtlm
  • 许可证: cc-by-nc-2.0
  • 任务类别: 文本分类
  • 标签: 社会学
  • 数据量: 10K<n<100K
  • 下载大小: 455.989186 Mb

数据来源

该数据集是通过whisper-large v2模型从电视频道流中转录的,用于研究目的。

数据结构

数据集包含每个频道每年的zip文件:

  • 2023.11.05 - 2024 # ORT
  • 2023.11.12 - 2024 # Belarus 1
  • 2023.11.12 - 2024 # 1+1
  • 2023.11.26 - 2024 # Russia 1

每个zip文件内包含5-10分钟视频转录的文本文件。24/7流被分割成5-10分钟的片段。2024年的数据需要从以下链接下载:

数据下载示例

python import pandas as pd import datetime import os import zipfile import glob import requests import shutil

def download_datasets(urls, start_year, end_year): for download_url in urls: print(fdownloading {download_url}) response = requests.get(download_url) if response.status_code == 200: file_name = download_url.split(/)[-1] with open(file_name, wb) as f: f.write(response.content) print(f"Downloaded {file_name}") else: print(f"Failed to download {download_url}")

def load_data_to_df(projects): current_year = datetime.datetime.now().year all_data = [] for project in projects: for year in range(2023, current_year + 1): archive_name = f"{year}{project}.zip" with zipfile.ZipFile(archive_name, r) as z: z.extractall("temp_data") for filename in glob.glob(f"temp_data/data/transcriptions/{project}/*.txt"): with open(filename, r, encoding=utf-8) as file: text = file.read() basename = os.path.basename(filename) datetime_str = basename.split(.)[0] date_part, time_part = datetime_str.split() time_part_formatted = time_part.replace(-, :) datetime_str_formatted = f"{date_part} {time_part_formatted}" all_data.append({"project": project, "date": datetime_str_formatted, "text": text}) shutil.rmtree(f"temp_data/data/transcriptions/{project}") shutil.rmtree("temp_data") return pd.DataFrame(all_data)

current_year = datetime.datetime.now().year projects = [ORT, belarusone, oneplusone, russiaone] urls = [] for year in range(2023, current_year + 1): for project in projects: urls.append(f"https://storage.googleapis.com/rtlm/{year}_{project}.zip") print(urls) download_datasets(urls, 2023, current_year)

projects = [url.split(/)[-1].split(_)[1].split(.)[0] for url in urls] df = load_data_to_df(projects) print(df.head(2)) df.to_csv(rtlm.csv, index=False)

已知问题

  • 白俄罗斯1频道的部分内容由两个实例创建,因此包含一些重复文件。
  • 由于技术问题或频道限制,某些时间段未被转录。
  • 某些转录可能包含幻觉,尤其是在沉默期间。然而,这些幻觉具有稳定的特征。

免责声明

该数据集按“原样”提供,不提供任何明示或暗示的保证,包括但不限于适销性、特定用途的适用性和非侵权的保证。在任何情况下,作者或版权持有人均不对任何索赔、损害或其他责任负责,无论是基于合同、侵权或其他方式,因数据集或数据集的使用或其他交易而产生、源于或与之相关。

数据集的最终用户应确保其使用符合所有适用的法律和版权。数据集基于来自各种电视频道的开放直播流,应根据Creative Commons Attribution-NonCommercial (CC BY-NC)许可使用,尊重非商业性限制和署名要求。

请注意,使用此数据集可能需要遵守额外的法律和道德考虑,最终用户有责任确定其对数据集的使用是否符合这些考虑。数据集的作者不对其使用的合法性或道德性作出任何陈述或保证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作