five

yhavinga/open_subtitles_en_nl

收藏
Hugging Face2023-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/open_subtitles_en_nl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是OpenSubtitles En Nl的一个子集,主要包含评分至少为8.0且至少有1000票的电视剧的字幕。这些字幕被排序并附加到不同长度的缓冲区中,最大长度为370个标记,使用了yhavinga/ul2-base-dutch分词器进行分词。数据集支持英语(en)和荷兰语(nl)两种语言,适用于翻译任务。
提供机构:
yhavinga
原始信息汇总

数据集概述

  • 数据集名称: OpenSubtitles En Nl
  • 语言:
    • 英语 (en)
    • 荷兰语 (nl)
  • 许可证: 未知
  • 多语言性: 多语言
  • 大小类别:
    • 小于1K
    • 10K至100K
    • 1M至10M
  • 源数据集: 原始数据
  • 任务类别: 翻译

数据集详情

  • 数据集摘要:
    • 该数据集是从en-nl open_subtitles数据集中提取的子集。
    • 仅包含评分至少为8.0且至少有1000票的电视节目的字幕。
    • 字幕经过排序并按不同长度缓冲,最大长度为370个由yhavinga/ul2-base-dutch标记器标记的令牌。

数据集结构

  • 数据实例: 未提供详细信息。
  • 数据字段: 未提供详细信息。
  • 数据分割: 未提供详细信息。

数据集创建

  • 数据收集和规范化: 未提供详细信息。
  • 源语言生产者: 未提供详细信息。
  • 注释:
    • 注释过程: 未提供详细信息。
    • 注释者: 未提供详细信息。

使用数据集的考虑

  • 社会影响: 未提供详细信息。
  • 偏见讨论: 未提供详细信息。
  • 其他已知限制: 未提供详细信息。

附加信息

  • 数据集管理员: 未提供详细信息。
  • 许可证信息: 未提供详细信息。
  • 引用信息: 未提供详细信息。
  • 贡献者: 感谢@abhishekkrthakur添加open_subtitles数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作