MMinasyan/SAW-corpus
收藏数据集卡片 for SAW Corpus
数据集描述
数据集摘要
Selective Armenian Web (SAW) Corpus 是一个从各种在线来源精选的亚美尼亚语文本集合。它旨在支持自然语言处理任务,提供包括新闻文章、法律文件和其他网络内容在内的多种文本类型。
支持的任务和排行榜
language-modelingmasked-language-modeling
语言
该数据集完全由亚美尼亚语(hy)组成,所有文本至少包含50%的亚美尼亚字符。
数据集结构
数据实例
数据集中的典型数据实例可能如下所示:
json { "text": "Հայաստանում կատարվել է 2 164 083 պատվաստում
Պատվաստումային գործընթացը շարունակվում է:Ապրիլի 24-ի դրությամբ կատարվել է՝", "link": "https://hy.armradio.am/2022/04/25/հայաստանում-կատարվել-է-2-164-083-պատվաստում/", "date": "2022-04-25", "tags": ["Կարևոր", "Հասարակություն"], "source": "hy.armradio.am" }
数据字段
text: 文章或文本的主要内容。始终包含标题。url: 文本来源的URL。date: 文本的发布日期。tags: 与文本相关的标签或类别列表。source: 文本来源的网站或平台名称。
数据分割
数据集分为三个部分:训练集、验证集和测试集。以下是每个部分的详细信息:
| 分割 | 样本数 | 单词数 |
|---|---|---|
| 训练 | 849,392 | 284,764,117 |
| 验证 | 47,226 | 16,638,182 |
| 测试 | 47,309 | 15,621,729 |
数据集创建
策划理由
SAW Corpus 的策划旨在创建一个全面的亚美尼亚语处理资源。其创建的理由是从各种在线来源编译一个多样化和重要的亚美尼亚语文本集合,适合训练强大的语言模型和其他NLP任务。该数据集旨在填补亚美尼亚语资源的空白,并为学术研究和NLP的实际应用提供有价值的工具。
源数据
初始数据收集和规范化
SAW Corpus 的文本从广泛的亚美尼亚在线来源收集,包括新闻网站、文档档案和其他相关网络内容。收集过程涉及有选择地获取代表当代亚美尼亚使用的文本。
规范化和平滑处理过程被应用于确保数据集的质量和一致性。这些过程包括:
- 去除多余的格式并纠正明显的错误。
- 标准化逗号、冒号和破折号等标点符号。
- 统一特定亚美尼亚字符的变体(例如,标准化 և 和 եւ)。
- 使用Markdown样式进行表格、有序和无序列表的格式化。
重点是保持原始内容的完整性和多样性,同时确保文本适合NLP任务。
注释
数据集不包含任何额外注释。
个人和敏感信息
数据集由从公开可用来源收集的文本组成。由于数据量巨大,没有采取特定步骤从每个文本中识别或移除个人或敏感信息。用户在使用数据集时应意识到这一点,特别是在隐私和数据保护是关注点的情境中。
使用数据的注意事项
数据集的社会影响
该数据集支持亚美尼亚语NLP的进步,这可以在语言研究到语言技术开发等多种应用中发挥作用。
偏见的讨论
由于数据集从各种在线来源聚合内容,它可能固有地带有这些来源中存在的偏见。这可能包括主题、风格或观点的偏斜。
其他已知限制
数据集主要包含东亚美尼亚语文本,不包括西亚美尼亚语,这限制了其语言多样性。虽然数据集在正式和文学风格上很丰富,作为一个书面语料库,它可能没有充分代表亚美尼亚语的口语方言和口语形式。
附加信息
数据集策展人
由Mkrtich Minasyan策展。
许可信息
该数据集在Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 许可下发布。
引用信息
plaintext @dataset{saw_corpus_2024, title = {Selective Armenian Web (SAW) Corpus}, author = {Mkrtich Minasyan}, year = {2024} }



