community-datasets/cawac
收藏数据集卡片 for caWaC
数据集描述
数据集摘要
caWaC 是一个包含 7.8 亿个词的加泰罗尼亚语网络语料库,构建于 2013 年末,来源于 .cat 顶级域名。
支持的任务和排行榜
[更多信息需要]
语言
数据集是单语的,仅包含加泰罗尼亚语。
数据集结构
数据实例
[更多信息需要]
数据字段
[更多信息需要]
数据分割
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
数据集基于 CC-BY-SA 3.0 许可。
引用信息
@inproceedings{DBLP:conf/lrec/LjubesicT14, author = {Nikola Ljubesic and Antonio Toral}, editor = {Nicoletta Calzolari and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asunci{{o}}n Moreno and Jan Odijk and Stelios Piperidis}, title = {caWaC - {A} web corpus of Catalan and its application to language modeling and machine translation}, booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation, {LREC} 2014, Reykjavik, Iceland, May 26-31, 2014}, pages = {1728--1732}, publisher = {European Language Resources Association {(ELRA)}}, year = {2014}, url = {http://www.lrec-conf.org/proceedings/lrec2014/summaries/841.html}, timestamp = {Mon, 19 Aug 2019 15:23:35 +0200}, biburl = {https://dblp.org/rec/conf/lrec/LjubesicT14.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
贡献
感谢 @albertvillanova 添加此数据集。



