community-datasets/hrenwac_para
收藏数据集卡片 for hrenwac_para
数据集描述
数据集摘要
hrenWaC 语料库版本 2.0 包含从克罗地亚的 .hr 顶级域名爬取的克罗地亚语-英语平行文本。该语料库使用 Spidextor(https://github.com/abumatran/spidextor)构建,该工具结合了用于爬取的 SpiderLing 和用于双语文本提取的 Bitextor 的输出。提取的双语文本在段落级别的准确率约为 80%,在单词级别的准确率约为 84%。
支持的任务和排行榜
[更多信息需要]
语言
数据集是双语的,包含克罗地亚语和英语。
数据集结构
数据实例
[更多信息需要]
数据字段
[更多信息需要]
数据分割
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
数据集在 CC-BY-SA 3.0 许可下发布。
引用信息
@misc{11356/1058, title = {Croatian-English parallel corpus {hrenWaC} 2.0}, author = {Ljube{v s}i{c}, Nikola and Espl{`a}-Gomis, Miquel and Ortiz Rojas, Sergio and Klubi{v c}ka, Filip and Toral, Antonio}, url = {http://hdl.handle.net/11356/1058}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} User Licence for Internet Corpora}, year = {2016} }
贡献
感谢 @IvanZidov 添加此数据集。



