pary/hind_encorp
收藏数据集概述
数据集摘要
HindEnCorp 是一个平行文本数据集,包含英语和印地语的句子对齐文本。数据来源包括 Tides、Daniel Pipes 的评论、EMILLE 语料库、Bojar 等人的小数据集、Intercorp、TED 演讲、Indic 多平行语料库、Launchpad.net 以及其他小数据集。
支持的任务和排行榜
[更多信息待补充]
语言
数据集包含印地语和英语。
数据集结构
数据实例
[更多信息待补充]
数据字段
- id: 字符串类型,标识符。
- source: 字符串类型,来源标识。
- alignment_type: 字符串类型,对齐类型。
- alignment_quality: 字符串类型,对齐质量。
- translation: 翻译字段,包含英语和印地语。
数据分割
- train: 训练集,包含 273885 个样本,总字节数为 78945714。
数据集创建
源数据
[更多信息待补充]
注释
注释过程
TIDES 数据最初是为 DARPA-TIDES 惊喜语言竞赛收集的,后来在 IIIT Hyderabad 进行了改进,并提供给 ICON 2008 的 NLP 工具竞赛。
注释者
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
数据集仅供研究目的使用。请检查数据集许可证以获取更多信息。
附加信息
数据集策展人
Bojar, Ondřej ; Diatka, Vojtěch ; Straňák, Pavel ; Tamchyna, Aleš ; Zeman, Daniel
许可信息
CC BY-NC-SA 3.0
引用信息
@InProceedings{hindencorp05:lrec:2014, author = {Ond{v{r}}ej Bojar and Vojt{v{e}}ch Diatka and Pavel Rychl{{y}} and Pavel Stra{v{n}}{{a}}k and V{{i}}t Suchomel and Ale{v{s}} Tamchyna and Daniel Zeman}, title = "{HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation}", booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC14)}, year = {2014}, month = {may}, date = {26-31}, address = {Reykjavik, Iceland}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-8-4}, language = {english} }
贡献
感谢 @rahul-art 添加此数据集。



