five

YouVersion Bible Parallel Dataset

收藏
github2025-02-23 更新2025-02-25 收录
下载链接:
https://github.com/Toadoum/YouVersionBible-data-crawler-for-NMT
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从[bible.com](https://www.bible.com/bible/)爬取的圣经文本平行语料库,包含了源圣经版本和目标翻译版本的对照文本,经过数据清洗后,可用于训练神经机器翻译模型。

This is a parallel corpus of Bible texts scraped from [bible.com](https://www.bible.com/bible/). It contains paired texts between a source Bible version and its target translation. After data cleaning, it can be used for training neural machine translation models.
创建时间:
2025-02-23
原始信息汇总

YouVersion Bible Data Crawler for NMT

数据集概述

项目目标

  • bible.com 网站爬取圣经文本。
  • 将两个圣经版本合并为平行语料库。
  • 过滤和清洗数据。
  • 输出适用于训练神经机器翻译模型的CSV文件。

运行项目

  • 创建并激活虚拟环境。
  • 安装项目依赖。
  • 运行爬虫和数据过滤脚本来处理数据。

数据提取与清洗

  • 爬取指定源圣经版本和目标翻译。
  • 根据章节和诗句标识符合并数据。
  • 清洗数据,移除重复项、空单元格、过长的条目、HTML标签等。
  • 输出清洗后的数据到名为 filtered_bible.csv 的CSV文件,包含“Source”和“Target”列。

数据集样例

Chapter Verse Source (SBA2015) Target (NIV)
EXO.20 1 1Togə́bè ɓa Ala pa taje neelé lai pana: 1And God spoke all these words:
EXO.36 1 1Besaleel gə Oholiab gə diŋgamje lai gə́ njégo... 1So Bezalel, Oholiab and every skilled person ...

特点

  • Web Crawling: 爬取指定源圣经版本及其目标翻译的文本。
  • Data Merging: 根据章节和诗句标识符合并爬取的数据。
  • Data Filtering: 清洗合并后的数据集。
  • CSV Output: 将清洗后的数据保存为CSV文件。

项目结构

bible_crawler/ ├── init.py ├── config.py ├── crawler.py ├── filtering.py ├── main.py data/ ├── filtered_bible.csv requirements.txt README.md .gitignore LICENSE

许可

本项目遵循MIT License。

贡献指南

  • 确保代码有良好的文档。
  • 为新功能或错误修复编写测试。
  • 遵循项目中的编码风格。
  • 如果修复错误或添加新功能,请相应更新 README.md 文件。
搜集汇总
数据集介绍
main_image_url
构建方式
YouVersion Bible Parallel Dataset的构建是通过网络爬虫技术从bible.com抓取圣经文本,将两个版本的圣经合并为平行语料库,进而对数据进行筛选和清洗,最终输出适用于神经机器翻译模型训练的CSV文件。
特点
该数据集的特点在于其通过精确的章节和节标识符实现了数据的精准合并,经过严格的数据过滤,去除了重复、空白、过长条目以及不必要的HTML标签,保证了数据的质量和可用性。数据集支持多种圣经版本和翻译的爬取,具有高度的灵活性和扩展性。
使用方法
使用该数据集前,需先设置运行环境,安装所需依赖。通过运行main.py脚本,用户可以指定源圣经版本和目标翻译版本。数据爬取和过滤过程将自动执行,最终生成包含源语言和目标语言列的CSV文件,方便用户进行后续的机器翻译模型训练。
背景与挑战
背景概述
YouVersion Bible Parallel Dataset乃是一项旨在构建适用于神经机器翻译模型训练的平行语料库的项目。该数据集的创建基于对圣经文本的爬取,将两种版本的圣经文本合并为平行语料库,进而进行数据清洗和过滤,以适用于机器翻译模型的训练。项目启动于对高质量翻译训练数据的需求,其研究成果对于自然语言处理领域,尤其是在机器翻译技术发展中,具有显著贡献。项目由一组专注于自然语言处理和机器翻译的研究人员发起,并在相关学术界和工业界产生了广泛的影响。
当前挑战
该数据集在构建过程中面临了多重挑战,首先,如何高效地从网站爬取大量文本数据,并确保数据的准确性和完整性是一个挑战。其次,合并两种版本的圣经文本时,需要精确对齐章节和节,这要求高度精确的数据处理技术。此外,数据清洗过程中去除重复、空白、过长条目以及不必要的HTML标签,保证数据质量,同样是一大挑战。最后,将清洗后的数据输出为适合机器翻译模型训练的CSV文件格式,也涉及了数据格式转换和兼容性的问题。
常用场景
经典使用场景
在神经机器翻译(NMT)领域,YouVersion Bible Parallel Dataset 被广泛用于构建并行语料库。该数据集通过爬取并整合圣经的不同版本,为模型训练提供了高质量的翻译对,进而助力研究者开发出更加精准的翻译算法。
衍生相关工作
基于该数据集,研究者们衍生出一系列相关工作,如构建更加高效的爬虫框架、优化数据清洗流程、开发新的翻译评价方法等,进一步推动了机器翻译领域的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,特别是在神经机器翻译(NMT)模型的训练中,高质量的平行语料库至关重要。YouVersion Bible Parallel Dataset项目的研发,旨在构建一种新型的圣经文本平行语料库,通过爬取bible.com网站上的圣经文本,并将两个版本的圣经合并,进而为NMT模型提供训练数据。该数据集的构建不仅涉及网页抓取、数据清洗和合并等关键技术,还体现了对文本质量的高度重视,例如去除重复内容、空单元格和不必要的HTML标签。近期研究在这一领域主要关注如何提高数据集的准确性和实用性,以满足机器翻译模型的训练需求,进而推动翻译质量的提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作