yhavinga/open_subtitles_en_nl
收藏Hugging Face2023-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/open_subtitles_en_nl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是OpenSubtitles En Nl的一个子集,主要包含评分至少为8.0且至少有1000票的电视剧的字幕。这些字幕被排序并附加到不同长度的缓冲区中,最大长度为370个标记,使用了yhavinga/ul2-base-dutch分词器进行分词。数据集支持英语(en)和荷兰语(nl)两种语言,适用于翻译任务。
提供机构:
yhavinga
原始信息汇总
数据集概述
- 数据集名称: OpenSubtitles En Nl
- 语言:
- 英语 (en)
- 荷兰语 (nl)
- 许可证: 未知
- 多语言性: 多语言
- 大小类别:
- 小于1K
- 10K至100K
- 1M至10M
- 源数据集: 原始数据
- 任务类别: 翻译
数据集详情
- 数据集摘要:
- 该数据集是从en-nl open_subtitles数据集中提取的子集。
- 仅包含评分至少为8.0且至少有1000票的电视节目的字幕。
- 字幕经过排序并按不同长度缓冲,最大长度为370个由yhavinga/ul2-base-dutch标记器标记的令牌。
数据集结构
- 数据实例: 未提供详细信息。
- 数据字段: 未提供详细信息。
- 数据分割: 未提供详细信息。
数据集创建
- 数据收集和规范化: 未提供详细信息。
- 源语言生产者: 未提供详细信息。
- 注释:
- 注释过程: 未提供详细信息。
- 注释者: 未提供详细信息。
使用数据集的考虑
- 社会影响: 未提供详细信息。
- 偏见讨论: 未提供详细信息。
- 其他已知限制: 未提供详细信息。
附加信息
- 数据集管理员: 未提供详细信息。
- 许可证信息: 未提供详细信息。
- 引用信息: 未提供详细信息。
- 贡献者: 感谢@abhishekkrthakur添加open_subtitles数据集。



