mammut/mammut-corpus-venezuela
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mammut/mammut-corpus-venezuela
下载链接
链接失效反馈官方服务:
资源简介:
mammut-corpus-venezuela是一个用于西班牙语语言建模的数据集,包含大量委内瑞拉和拉丁美洲西班牙语文本。这些文本通过网页抓取、Telegram群聊历史下载和在线语料库选择等方式在2021年手动收集。文本来源包括委内瑞拉西班牙语使用者、字幕制作者、记者、政治家、医生、作家和在线卖家。数据集包含训练集和测试集,每个记录包含作者、日期、句子、来源、标题、令牌数和语言注册类型等信息。
mammut-corpus-venezuela is a dataset for Spanish language modeling, which contains a large volume of Spanish texts from Venezuela and Latin America. These texts were manually collected in 2021 via web scraping, downloading Telegram group chat histories, and selecting from online corpora. The sources of these texts include Venezuelan Spanish speakers, subtitle creators, journalists, politicians, doctors, writers, and online sellers. The dataset includes a training set and a test set, with each record containing information such as author, date, sentence, source, title, number of tokens, and language register type.
提供机构:
mammut
原始信息汇总
数据集概述
1. 数据集名称
- 名称: mammut-corpus-venezuela
2. 语言信息
- 语言: 西班牙语(Venezuelan and Latin-American Spanish)
- 语言代码: es-VE
3. 许可证
- 许可证: cc-by-nc-nd-4.0
4. 数据集结构
- 数据实例: 包含字段如AUTHOR, DATE, SENTENCE, SOURCE, TITLE, TOKENS, TYPE。
- 数据字段:
- AUTHOR: 文本作者(对话作者匿名)
- DATE: 文本进入语料库的日期
- SENTENCE: 文本内容,自动分句处理
- SOURCE: 文本来源
- TITLE: 文本标题
- TOKENS: 文本的词数(不包括标点)
- TYPE: 文本的语言注册类型
- 数据分割: 包含训练集和测试集
- 训练集: 2,983,302条记录,总词数92,431,194
- 测试集: 157,011条记录,总词数4,876,739
5. 数据集创建
- 数据收集: 通过网络爬虫从多个门户网站、Telegram群聊历史记录和在线可用的Venezuelan and Latin-American Spanish语料库中收集。
- 数据来源: 包括网站、博客、电影字幕和Telegram群聊等。
- 数据处理: 文本内容被分句并自动分词处理。
6. 使用注意事项
- 社会影响: 主要用于Venezuelan Spanish的语言模型预训练或微调。
- 偏见讨论: 数据主要来自政治、经济和社会学观点文章,可能存在社会偏见。
- 敏感信息: 数据部分匿名化,部分消息可能包含虚假或误导性及攻击性语言。



