five

pary/hind_encorp

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pary/hind_encorp
下载链接
链接失效反馈
官方服务:
资源简介:
HindEnCorp数据集是一个包含英语和印地语平行文本的语料库,主要用于机器翻译任务。数据集来源于多个不同的资源,包括新闻文章、评论、TED演讲、维基百科等。数据集的结构包括数据实例、数据字段和数据分割,其中数据字段包括源标识符、对齐类型、对齐质量以及英语和印地语的文本段。数据集的创建过程涉及多个步骤和多个贡献者,包括专家生成和众包生成的内容。数据集的使用受到CC BY-NC-SA 3.0许可证的限制,主要用于研究目的。

HindEnCorp数据集是一个包含英语和印地语平行文本的语料库,主要用于机器翻译任务。数据集来源于多个不同的资源,包括新闻文章、评论、TED演讲、维基百科等。数据集的结构包括数据实例、数据字段和数据分割,其中数据字段包括源标识符、对齐类型、对齐质量以及英语和印地语的文本段。数据集的创建过程涉及多个步骤和多个贡献者,包括专家生成和众包生成的内容。数据集的使用受到CC BY-NC-SA 3.0许可证的限制,主要用于研究目的。
提供机构:
pary
原始信息汇总

数据集概述

数据集摘要

HindEnCorp 是一个平行文本数据集,包含英语和印地语的句子对齐文本。数据来源包括 Tides、Daniel Pipes 的评论、EMILLE 语料库、Bojar 等人的小数据集、Intercorp、TED 演讲、Indic 多平行语料库、Launchpad.net 以及其他小数据集。

支持的任务和排行榜

[更多信息待补充]

语言

数据集包含印地语和英语。

数据集结构

数据实例

[更多信息待补充]

数据字段

  • id: 字符串类型,标识符。
  • source: 字符串类型,来源标识。
  • alignment_type: 字符串类型,对齐类型。
  • alignment_quality: 字符串类型,对齐质量。
  • translation: 翻译字段,包含英语和印地语。

数据分割

  • train: 训练集,包含 273885 个样本,总字节数为 78945714。

数据集创建

源数据

[更多信息待补充]

注释

注释过程

TIDES 数据最初是为 DARPA-TIDES 惊喜语言竞赛收集的,后来在 IIIT Hyderabad 进行了改进,并提供给 ICON 2008 的 NLP 工具竞赛。

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

数据集仅供研究目的使用。请检查数据集许可证以获取更多信息。

附加信息

数据集策展人

Bojar, Ondřej ; Diatka, Vojtěch ; Straňák, Pavel ; Tamchyna, Aleš ; Zeman, Daniel

许可信息

CC BY-NC-SA 3.0

引用信息

@InProceedings{hindencorp05:lrec:2014, author = {Ond{v{r}}ej Bojar and Vojt{v{e}}ch Diatka and Pavel Rychl{{y}} and Pavel Stra{v{n}}{{a}}k and V{{i}}t Suchomel and Ale{v{s}} Tamchyna and Daniel Zeman}, title = "{HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation}", booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC14)}, year = {2014}, month = {may}, date = {26-31}, address = {Reykjavik, Iceland}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-8-4}, language = {english} }

贡献

感谢 @rahul-art 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作