mbazaNLP/NMT_Tourism_parallel_data_en_kin
收藏Hugging Face2023-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mbazaNLP/NMT_Tourism_parallel_data_en_kin
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了创建英语与基尼亚卢旺达语之间的机器翻译模型而创建的,特别是在旅游领域的应用。数据格式为TSV,数据来源包括网页抓取和手动注释。数据集包含训练、验证和测试数据,分别有25374、2508和1086条数据实例。数据预处理包括数据分割,确保测试集在句子长度和来源上与整个数据集相似。数据收集过程涉及从多个网站抓取单语句子,并雇佣人工翻译进行翻译。为确保质量,每个句子被多次翻译,并根据验证分数选择最佳翻译。
This dataset was developed to build machine translation models between English and Kinyarwanda, specifically for tourism domain applications. The dataset is stored in TSV format, with data sources comprising web scraping and manual annotation. It includes training, validation, and test sets with 25374, 2508, and 1086 data instances respectively. Data preprocessing involves data splitting to ensure that the test set aligns with the entire dataset in terms of sentence length and source distribution. The data collection process entailed scraping monolingual sentences from multiple websites and hiring human translators to perform translations. To ensure quality, each sentence was translated multiple times, and the best translation was selected based on validation scores.
提供机构:
mbazaNLP
原始信息汇总
数据集描述
该数据集旨在创建一个面向旅游领域的英语-基尼亚瓦达语互译的机器翻译模型。
- 数据格式: TSV
- 数据来源: 网络爬虫,人工标注
- 模型: huggingface 模型链接
数据实例
25375 49363 21210 Bird watching is best in June, so save your money on that during the other months, birds ar everywhere anyway if you are observant and patient. Kureba inyoni ni byiza cyane muri Kamena, bityo rero ujye uzigama amafaranga yawe mu gihe cyamezi yindi, inyoni ziba hose uko byagenda kose niba witonze kandi wihanganye. 2023-05-15 18:08:54 19.0 1 3 tourism trip_advisor 125-195
数据字段
- id
- source_id
- source
- phrase
- timestamp
- user_id
- validation_state
- validation_score
- domain
- source_files
- str_ranges
数据分割
- 训练数据: 25374
- 验证数据: 2508
- 测试数据: 1086
数据预处理
- 数据分割: 为了创建测试集,所有数据源在贡献句子数量上均等。测试集的句子长度分布与整个数据集相似。使用sklearn的train_test_split从剩余数据中分割训练和验证数据。
数据收集
-
数据收集过程: 通过网络爬虫从多个网站获取单语源句子,包含基尼亚瓦达语和英语句子。
-
数据来源:
- Trip_advisor对卢旺达酒店和旅游景点的评论。
- Inyamibwa历史数据。
- Igihe旅游新闻。
- GPT-3.5生成的旅游场景对话。
- Booking.com卢旺达酒店评论。
- 卢旺达的wiki_travel页面。
数据集创建
收集单语数据集后,雇佣人工翻译为收集的句子提供翻译。为确保质量,每个句子被翻译多次,并为每个生成的翻译分配validation_score,用于选择最佳翻译。测试数据集进一步修订,以删除或纠正有缺陷的翻译句子。



