gorkemgoknar/tr_ted_talk_translated
收藏Hugging Face2022-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gorkemgoknar/tr_ted_talk_translated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从ted-multi数据集中提取的土耳其语TED演讲翻译数据。数据集经过清理和处理,移除了不必要的列和特定字符,并仅保留了土耳其语的翻译内容。
This dataset comprises Turkish-translated TED Talks data extracted from the ted-multi dataset. It has been cleaned and processed, with extraneous columns and specific characters removed, and only the Turkish translated content is retained.
提供机构:
gorkemgoknar
原始信息汇总
数据集概述
数据集名称
- Turkish Ted talk translations
数据集来源
- 创建自
ted-multi数据集
数据集语言
- 土耳其语 (
tr)
数据集标签
- dataset
- turkish
- ted-multi
- cleaned
数据集许可证
- Apache-2.0
数据集处理步骤
- 加载
ted-multi数据集。 - 清理缓存文件。
- 定义正则表达式以忽略特定字符。
- 提取目标语言的条目,并移除不需要的列。
- 过滤掉文本为空的条目。
- 将处理后的数据集上传至Hugging Face Hub。
数据集处理细节
- 使用
load_dataset函数加载ted_multi数据集。 - 通过
map方法应用extract_target_lang_entries函数,该函数用于提取并处理目标语言的翻译文本。 - 移除的列包括
translations和talk_name。 - 使用
filter方法过滤掉文本为None的条目。
数据集上传
- 上传至Hugging Face Hub的仓库名为
{target_lang}_ted_talk_translated。



