calbert/hinglish-large
收藏Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/calbert/hinglish-large
下载链接
链接失效反馈官方服务:
资源简介:
IndicCorp Hinglish数据集是一个包含印地语和英语混合(Hinglish)的文本数据集,适用于特征提取、填充掩码、句子相似度和文本生成等自然语言处理任务。数据集的大小在10万到100万之间,使用CC BY 4.0许可证。
IndicCorp Hinglish数据集是一个包含印地语和英语混合(Hinglish)的文本数据集,适用于特征提取、填充掩码、句子相似度和文本生成等自然语言处理任务。数据集的大小在10万到100万之间,使用CC BY 4.0许可证。
提供机构:
calbert
原始信息汇总
数据集概述
基本信息
- 名称: IndicCorp Hinglish
- 语言: 多语言,包括英语和印地语的转写(en-hi)
- 许可证: CC-BY-4.0
- 大小: 100K<n<1M
特征
- 多语言性: 支持英语和印地语的混合使用
- 标签:
- calbert
- code-mixing
- code-mixed
- hinglish
- india
- indic
- english
- hindi
应用任务
- 任务类别:
- 特征提取
- 填充掩码
- 句子相似度
- 文本到文本生成
- 具体任务:
- 掩码语言建模



