NITHUB-AI/Ehn-bible-bbc-gpt3.5
收藏Hugging Face2023-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NITHUB-AI/Ehn-bible-bbc-gpt3.5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含尼日利亚皮钦语和英语的平行句子,分为训练集、验证集和测试集,比例为8:1:1。数据来源包括圣经和BBC皮钦语网站,使用GPT3.5-turbo进行翻译。数据集支持语言翻译和语言识别任务,主要语言为英语和尼日利亚皮钦语。数据集的创建过程包括数据抓取、存储和翻译,数据字段包括英语句子和对应的尼日利亚皮钦语句子。数据集的社会影响是帮助工程师为尼日利亚的数字化连接但文化程度较低的受众构建语言工具。数据集的局限性在于主要集中于新闻和圣经文本,缺乏其他版本的皮钦语和领域特定的术语。
This dataset contains parallel sentence pairs in Nigerian Pidgin and English, split into training, validation and test sets with a ratio of 8:1:1. Its data sources include the Bible and BBC Pidgin websites, and translations were conducted using GPT-3.5-turbo. This dataset supports language translation and language identification tasks, with English and Nigerian Pidgin as its primary languages. The dataset creation process covers data crawling, storage and translation, and its data fields include English sentences and their corresponding Nigerian Pidgin sentences. The social impact of this dataset is to help engineers build language tools for digitally connected but low-literacy audiences in Nigeria. The limitations of the dataset are that it mainly focuses on news and biblical texts, and lacks other variants of Pidgin and domain-specific terminology.
提供机构:
NITHUB-AI
原始信息汇总
数据集卡片:Ehn-Bible-BBC-GPT3.5
数据集描述
数据集概述
该数据集包含尼日利亚皮金语和英语的平行句子,分为三个文件:train.csv、valid.csv 和 test.csv。原始数据按 8:1:1 的比例分割成这些文件。
支持的任务和排行榜
- 语言翻译
- 语言识别
语言
- 英语
- 尼日利亚皮金语
数据集结构
数据实例

数据字段
- English:包含英语句子
- Pidgin:包含对应的尼日利亚皮金语句子
数据分割
- 训练集(80%)
- 验证集(10%)
- 测试集(10%)
数据集创建
数据集创建理由
数据首先从圣经的上下文中筛选,这是最大的英语-尼日利亚皮金语平行句子来源。对于英语句子,使用了最现代的英语版本——《Message》圣经翻译。然而,这些数据不够多样化,因此从BBC皮金网站上抓取了皮金语数据。这个平台提供了从政治到娱乐的更广泛上下文的数据,使模型更加多样化。
源数据
初始数据收集和规范化
- 使用Python中的BeautifulSoup进行数据抓取并存储在MongoDB数据库中
- 圣经来源的数据按章节分割,以保留平行句子之间的上下文
- BBC皮金语数据通过Open AI的GPT3.5-turbo API和LangChain包进行翻译
源语言生产者
个人和敏感信息
除了BBC News Pidgin和圣经作者的处理外,没有额外努力去除敏感信息。
使用数据集的考虑
数据集的社会影响
该数据使得工程师更容易为数字连接但文化程度较低的尼日利亚受众构建语言工具。
数据集的偏见讨论
数据主要集中在新闻和圣经文本上,虽然范围较广,但仍相当有限,模型在完全陌生的上下文中表现可能较差。
其他已知限制
- 数据不包含其他版本的皮金语,如Warri皮金语或其他非洲国家的皮金语
- 数据不包含大量领域特定术语的句子
其他信息
数据集策展人
引用信息
- Domot - BBC News Pidgin
- (Open AI GPT3.5-Turbo)[https://platform.openai.com]
贡献
欢迎理解尼日利亚皮金语的个人帮助扩大我们的手动数据翻译工作。对构建此数据集接口感兴趣的开发者也欢迎贡献。



