format37/rtlm
收藏数据集概述
基本信息
- 语言: 俄语, 白俄罗斯语, 乌克兰语
- 名称: rtlm
- 许可证: cc-by-nc-2.0
- 任务类别: 文本分类
- 标签: 社会学
- 数据量: 10K<n<100K
- 下载大小: 455.989186 Mb
数据来源
该数据集是通过whisper-large v2模型从电视频道流中转录的,用于研究目的。
数据结构
数据集包含每个频道每年的zip文件:
- 2023.11.05 - 2024 # ORT
- 2023.11.12 - 2024 # Belarus 1
- 2023.11.12 - 2024 # 1+1
- 2023.11.26 - 2024 # Russia 1
每个zip文件内包含5-10分钟视频转录的文本文件。24/7流被分割成5-10分钟的片段。2024年的数据需要从以下链接下载:
数据下载示例
python import pandas as pd import datetime import os import zipfile import glob import requests import shutil
def download_datasets(urls, start_year, end_year): for download_url in urls: print(fdownloading {download_url}) response = requests.get(download_url) if response.status_code == 200: file_name = download_url.split(/)[-1] with open(file_name, wb) as f: f.write(response.content) print(f"Downloaded {file_name}") else: print(f"Failed to download {download_url}")
def load_data_to_df(projects): current_year = datetime.datetime.now().year all_data = [] for project in projects: for year in range(2023, current_year + 1): archive_name = f"{year}{project}.zip" with zipfile.ZipFile(archive_name, r) as z: z.extractall("temp_data") for filename in glob.glob(f"temp_data/data/transcriptions/{project}/*.txt"): with open(filename, r, encoding=utf-8) as file: text = file.read() basename = os.path.basename(filename) datetime_str = basename.split(.)[0] date_part, time_part = datetime_str.split() time_part_formatted = time_part.replace(-, :) datetime_str_formatted = f"{date_part} {time_part_formatted}" all_data.append({"project": project, "date": datetime_str_formatted, "text": text}) shutil.rmtree(f"temp_data/data/transcriptions/{project}") shutil.rmtree("temp_data") return pd.DataFrame(all_data)
current_year = datetime.datetime.now().year projects = [ORT, belarusone, oneplusone, russiaone] urls = [] for year in range(2023, current_year + 1): for project in projects: urls.append(f"https://storage.googleapis.com/rtlm/{year}_{project}.zip") print(urls) download_datasets(urls, 2023, current_year)
projects = [url.split(/)[-1].split(_)[1].split(.)[0] for url in urls] df = load_data_to_df(projects) print(df.head(2)) df.to_csv(rtlm.csv, index=False)
已知问题
- 白俄罗斯1频道的部分内容由两个实例创建,因此包含一些重复文件。
- 由于技术问题或频道限制,某些时间段未被转录。
- 某些转录可能包含幻觉,尤其是在沉默期间。然而,这些幻觉具有稳定的特征。
免责声明
该数据集按“原样”提供,不提供任何明示或暗示的保证,包括但不限于适销性、特定用途的适用性和非侵权的保证。在任何情况下,作者或版权持有人均不对任何索赔、损害或其他责任负责,无论是基于合同、侵权或其他方式,因数据集或数据集的使用或其他交易而产生、源于或与之相关。
数据集的最终用户应确保其使用符合所有适用的法律和版权。数据集基于来自各种电视频道的开放直播流,应根据Creative Commons Attribution-NonCommercial (CC BY-NC)许可使用,尊重非商业性限制和署名要求。
请注意,使用此数据集可能需要遵守额外的法律和道德考虑,最终用户有责任确定其对数据集的使用是否符合这些考虑。数据集的作者不对其使用的合法性或道德性作出任何陈述或保证。



