format37/rtlm

Name: format37/rtlm
Creator: format37
Published: 2024-01-03 21:06:11
License: 暂无描述

Hugging Face2024-01-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/format37/rtlm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用whisper-large v2模型从电视频道的流媒体中转录而来，用于研究目的。数据集包含每个频道每年的压缩文件，每个压缩文件内包含5-10分钟视频的转录文本文件。数据集的语言包括俄语、白俄罗斯语和乌克兰语，适用于文本分类任务，标签为社会学，大小为10K到100K之间。数据集还提供了下载数据集的示例代码，并指出了数据集的一些已知问题和免责声明。

提供机构：

format37

原始信息汇总

数据集概述

基本信息

语言: 俄语, 白俄罗斯语, 乌克兰语
名称: rtlm
许可证: cc-by-nc-2.0
任务类别: 文本分类
标签: 社会学
数据量: 10K<n<100K
下载大小: 455.989186 Mb

数据来源

该数据集是通过whisper-large v2模型从电视频道流中转录的，用于研究目的。

数据结构

数据集包含每个频道每年的zip文件：

2023.11.05 - 2024 # ORT
2023.11.12 - 2024 # Belarus 1
2023.11.12 - 2024 # 1+1
2023.11.26 - 2024 # Russia 1

每个zip文件内包含5-10分钟视频转录的文本文件。24/7流被分割成5-10分钟的片段。2024年的数据需要从以下链接下载：

数据下载示例

python import pandas as pd import datetime import os import zipfile import glob import requests import shutil

def download_datasets(urls, start_year, end_year): for download_url in urls: print(fdownloading {download_url}) response = requests.get(download_url) if response.status_code == 200: file_name = download_url.split(/)[-1] with open(file_name, wb) as f: f.write(response.content) print(f"Downloaded {file_name}") else: print(f"Failed to download {download_url}")

def load_data_to_df(projects): current_year = datetime.datetime.now().year all_data = [] for project in projects: for year in range(2023, current_year + 1): archive_name = f"{year}{project}.zip" with zipfile.ZipFile(archive_name, r) as z: z.extractall("temp_data") for filename in glob.glob(f"temp_data/data/transcriptions/{project}/*.txt"): with open(filename, r, encoding=utf-8) as file: text = file.read() basename = os.path.basename(filename) datetime_str = basename.split(.)[0] date_part, time_part = datetime_str.split() time_part_formatted = time_part.replace(-, :) datetime_str_formatted = f"{date_part} {time_part_formatted}" all_data.append({"project": project, "date": datetime_str_formatted, "text": text}) shutil.rmtree(f"temp_data/data/transcriptions/{project}") shutil.rmtree("temp_data") return pd.DataFrame(all_data)

current_year = datetime.datetime.now().year projects = [ORT, belarusone, oneplusone, russiaone] urls = [] for year in range(2023, current_year + 1): for project in projects: urls.append(f"https://storage.googleapis.com/rtlm/{year}_{project}.zip") print(urls) download_datasets(urls, 2023, current_year)

projects = [url.split(/)[-1].split(_)[1].split(.)[0] for url in urls] df = load_data_to_df(projects) print(df.head(2)) df.to_csv(rtlm.csv, index=False)

已知问题

白俄罗斯1频道的部分内容由两个实例创建，因此包含一些重复文件。
由于技术问题或频道限制，某些时间段未被转录。
某些转录可能包含幻觉，尤其是在沉默期间。然而，这些幻觉具有稳定的特征。

免责声明

该数据集按“原样”提供，不提供任何明示或暗示的保证，包括但不限于适销性、特定用途的适用性和非侵权的保证。在任何情况下，作者或版权持有人均不对任何索赔、损害或其他责任负责，无论是基于合同、侵权或其他方式，因数据集或数据集的使用或其他交易而产生、源于或与之相关。

数据集的最终用户应确保其使用符合所有适用的法律和版权。数据集基于来自各种电视频道的开放直播流，应根据Creative Commons Attribution-NonCommercial (CC BY-NC)许可使用，尊重非商业性限制和署名要求。

请注意，使用此数据集可能需要遵守额外的法律和道德考虑，最终用户有责任确定其对数据集的使用是否符合这些考虑。数据集的作者不对其使用的合法性或道德性作出任何陈述或保证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集