five

gorkemgoknar/tr_ted_talk_translated

收藏
Hugging Face2022-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gorkemgoknar/tr_ted_talk_translated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从ted-multi数据集中提取的土耳其语TED演讲翻译数据。数据集经过清理和处理,移除了不必要的列和特定字符,并仅保留了土耳其语的翻译内容。

This dataset comprises Turkish-translated TED Talks data extracted from the ted-multi dataset. It has been cleaned and processed, with extraneous columns and specific characters removed, and only the Turkish translated content is retained.
提供机构:
gorkemgoknar
原始信息汇总

数据集概述

数据集名称

  • Turkish Ted talk translations

数据集来源

  • 创建自 ted-multi 数据集

数据集语言

  • 土耳其语 (tr)

数据集标签

  • dataset
  • turkish
  • ted-multi
  • cleaned

数据集许可证

  • Apache-2.0

数据集处理步骤

  1. 加载 ted-multi 数据集。
  2. 清理缓存文件。
  3. 定义正则表达式以忽略特定字符。
  4. 提取目标语言的条目,并移除不需要的列。
  5. 过滤掉文本为空的条目。
  6. 将处理后的数据集上传至Hugging Face Hub。

数据集处理细节

  • 使用 load_dataset 函数加载 ted_multi 数据集。
  • 通过 map 方法应用 extract_target_lang_entries 函数,该函数用于提取并处理目标语言的翻译文本。
  • 移除的列包括 translationstalk_name
  • 使用 filter 方法过滤掉文本为 None 的条目。

数据集上传

  • 上传至Hugging Face Hub的仓库名为 {target_lang}_ted_talk_translated
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作