five

EkBass/fin-eng-dataset

收藏
Hugging Face2023-10-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EkBass/fin-eng-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
fin-eng-dataset数据集包含超过9000个芬兰语单词及其英语翻译,其中部分单词为地名、人名等。数据集还包括芬兰语句子、问题、陈述等的英语翻译,内容涵盖公共领域书籍、电影引用、人工智能生成的基本句子、个人消息等。此外,还包含了来自芬兰维基百科的随机段落。数据集旨在持续更新,并寻求外部帮助。
提供机构:
EkBass
原始信息汇总

fin-eng-dataset

数据集概述

  • 许可证: gpl-3.0
  • 任务类别: translation
  • 语言:
    • 芬兰语 (fi)
    • 英语 (en)
  • 标签:
    • text
    • translation
    • finnish
    • english
  • 易读名称: fin-eng-dataset-6k

数据集更新记录

  • 2023年10月29日: 新版本,涵盖约30,000个独立单词和约10,000个句子、短语等。
  • 2023年9月19日: 新版本,超过20,000个独特单词和超过2,000个句子/段落的芬兰语-英语版本。
  • 2023年9月10日: 更新版本,约15,000个不同单词和数千个句子、段落、引语、问题和答案。

数据集内容

  • 文件: fine-eng-dataset.json
  • 内容: 包含超过9,000个独立的芬兰语单词及其英语翻译。
  • 数据组成:
    • 部分数据包括芬兰语单词及其英语翻译的列表。
    • 大部分数据由芬兰语句子、问题、陈述等翻译成英语的内容组成。
  • 数据来源:
    • 包括来自Martti Ahtisaari的引语、公共领域书籍如“Open Life”、Maila Talvio的“The Destruction of Dark Cabin”以及来自免费中篇小说“Midsummer Gift for Readers”和“Erotic Novella: Towards Malaysia”的句子。
    • 还包括来自电影的引语、人工智能生成的基本句子、个人消息等,总计超过一千条。
    • 包含来自芬兰语维基百科“随机文章”的随机段落。

数据集维护

  • 持续更新: 该工作计划无限期继续。
  • 联系方式: 需要帮助请联系 krisu.virtanen@gmail.com。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作