pary/hind_encorp

Name: pary/hind_encorp
Creator: pary
Published: 2024-01-18 11:05:24
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/pary/hind_encorp

下载链接

链接失效反馈

官方服务：

资源简介：

HindEnCorp数据集是一个包含英语和印地语平行文本的语料库，主要用于机器翻译任务。数据集来源于多个不同的资源，包括新闻文章、评论、TED演讲、维基百科等。数据集的结构包括数据实例、数据字段和数据分割，其中数据字段包括源标识符、对齐类型、对齐质量以及英语和印地语的文本段。数据集的创建过程涉及多个步骤和多个贡献者，包括专家生成和众包生成的内容。数据集的使用受到CC BY-NC-SA 3.0许可证的限制，主要用于研究目的。

提供机构：

pary

原始信息汇总

数据集概述

数据集摘要

HindEnCorp 是一个平行文本数据集，包含英语和印地语的句子对齐文本。数据来源包括 Tides、Daniel Pipes 的评论、EMILLE 语料库、Bojar 等人的小数据集、Intercorp、TED 演讲、Indic 多平行语料库、Launchpad.net 以及其他小数据集。

支持的任务和排行榜

[更多信息待补充]

语言

数据集包含印地语和英语。

数据集结构

数据实例

[更多信息待补充]

数据字段

id: 字符串类型，标识符。
source: 字符串类型，来源标识。
alignment_type: 字符串类型，对齐类型。
alignment_quality: 字符串类型，对齐质量。
translation: 翻译字段，包含英语和印地语。

数据分割

train: 训练集，包含 273885 个样本，总字节数为 78945714。

数据集创建

源数据

[更多信息待补充]

注释

注释过程

TIDES 数据最初是为 DARPA-TIDES 惊喜语言竞赛收集的，后来在 IIIT Hyderabad 进行了改进，并提供给 ICON 2008 的 NLP 工具竞赛。

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

数据集仅供研究目的使用。请检查数据集许可证以获取更多信息。

附加信息

数据集策展人

Bojar, Ondřej ; Diatka, Vojtěch ; Straňák, Pavel ; Tamchyna, Aleš ; Zeman, Daniel

许可信息

CC BY-NC-SA 3.0

引用信息

@InProceedings{hindencorp05:lrec:2014, author = {Ond{v{r}}ej Bojar and Vojt{v{e}}ch Diatka and Pavel Rychl{{y}} and Pavel Stra{v{n}}{{a}}k and V{{i}}t Suchomel and Ale{v{s}} Tamchyna and Daniel Zeman}, title = "{HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation}", booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC14)}, year = {2014}, month = {may}, date = {26-31}, address = {Reykjavik, Iceland}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-8-4}, language = {english} }

贡献

感谢 @rahul-art 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集