fair-forward/test
收藏Hugging Face2023-09-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/fair-forward/test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在创建一个用于英语与基尼亚卢旺达语之间互译的机器翻译模型,特别是在旅游领域。数据集通过网页抓取和手动注释收集,数据格式为TSV。数据集包含25374条训练数据、2508条验证数据和1086条测试数据。数据预处理包括数据分割,确保测试集中的句子长度分布与整个数据集相似。数据收集过程涉及从多个网站抓取单语句子,并由人工翻译进行翻译,每个句子被多次翻译以确保质量,并通过验证分数选择最佳翻译。
该数据集旨在创建一个用于英语与基尼亚卢旺达语之间互译的机器翻译模型,特别是在旅游领域。数据集通过网页抓取和手动注释收集,数据格式为TSV。数据集包含25374条训练数据、2508条验证数据和1086条测试数据。数据预处理包括数据分割,确保测试集中的句子长度分布与整个数据集相似。数据收集过程涉及从多个网站抓取单语句子,并由人工翻译进行翻译,每个句子被多次翻译以确保质量,并通过验证分数选择最佳翻译。
提供机构:
fair-forward
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-2.0
- 任务类别: 翻译
- 语言: 英语 (en), 基尼亚卢旺达语 (rw)
- 数据集大小: 10K<n<100K
数据集描述
- 目的: 创建一个面向旅游背景的英语与基尼亚卢旺达语之间的机器翻译模型。
- 数据格式: TSV
- 数据来源: 网络爬虫, 手动标注
- 模型: huggingface mbazaNLP/Nllb_finetuned_tourism_en_kin
数据实例
-
示例:
25375 49363 21210 Bird watching is best in June, so save your money on that during the other months, birds ar everywhere anyway if you are observant and patient. Kureba inyoni ni byiza cyane muri Kamena, bityo rero ujye uzigama amafaranga yawe mu gihe cyamezi yindi, inyoni ziba hose uko byagenda kose niba witonze kandi wihanganye. 2023-05-15 18:08:54 19.0 1 3 tourism trip_advisor 125-195
数据字段
- id
- source_id
- source
- phrase
- timestamp
- user_id
- validation_state
- validation_score
- domain
- source_files
- str_ranges
数据分割
- 训练数据: 25374
- 验证数据: 2508
- 测试数据: 1086
数据预处理
- 数据分割方法: 使用sklearn的
train_test_split进行训练和验证数据的分割。
数据收集
- 收集过程: 通过网络爬虫从多个网站获取单语种句子。
- 数据源:
- Trip_advisor 酒店和旅游景点评论
- Inyamibwa 历史数据
- Igihe 旅游新闻
- GPT-3.5 生成的旅游场景对话
- Booking.com 卢旺达酒店评论
- 卢旺达的wiki_travel页面
数据集创建
- 翻译过程: 雇佣人工翻译进行句子翻译,每个句子翻译多次,根据
validation_score选择最佳翻译。



