five

soketlabs/bhasha-wiki-indic-context

收藏
Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/soketlabs/bhasha-wiki-indic-context
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从维基百科的英文文章中筛选、清理并翻译成六种印度语言的印度相关内容。每个样本包含一篇清理后的维基百科文章及其在六种印度语言中的翻译。数据集主要用于预训练需要印度知识和上下文理解的语言模型。

该数据集是从维基百科的英文文章中筛选、清理并翻译成六种印度语言的印度相关内容。每个样本包含一篇清理后的维基百科文章及其在六种印度语言中的翻译。数据集主要用于预训练需要印度知识和上下文理解的语言模型。
提供机构:
soketlabs
原始信息汇总

数据集概述

数据集名称: Bhasha Wiki Indic Context

数据集描述: 该数据集包含与印度相关的维基百科文章。数据源自wikimedia/wikipedia,经过筛选、清洗和翻译,提取出与印度及印度语境相关的英文文章,并翻译成6种印度语言。

数据集内容

语言:

  • 源语言:英语
  • 目标语言:印地语、孟加拉语、古吉拉特语、泰米尔语、卡纳达语、乌尔都语

数据结构:

  • 总行数:200,820
  • 总令牌数:约15.4亿
  • 每种语言的令牌数:
    • 英语:1.962亿
    • 印地语:2.25亿
    • 孟加拉语:2.862亿
    • 古吉拉特语:2.04亿
    • 泰米尔语:2.313亿
    • 卡纳达语:2.013亿
    • 乌尔都语:2.049亿

数据格式:

  • 每行代表一篇维基百科文章,包含英文标题及6种印度语言的翻译描述。
  • 数据字段包括文章ID、URL、标题及各语言的描述。

数据集用途

用途: 主要用于预训练大型语言模型(LLMs),特别是需要印度知识和语境理解的场景。

数据集创建

来源数据: 维基百科英文文章

数据处理:

  • 通过关键词筛选和分类模型进一步过滤,确保文章与印度语境相关。
  • 使用AI4Bharat的IndicTrans2进行文章翻译。

注意事项: 尽管已尽力筛选,但可能仍包含少量非印度语境的文章。

许可证

许可证: cc-by-sa-3.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作