NLPinas/ph_en_text_detoxed
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPinas/ph_en_text_detoxed
下载链接
链接失效反馈官方服务:
资源简介:
PhEnText Detoxed是一个大规模的、多领域的词汇数据集,使用菲律宾英语和Taglish文本编写。数据集中的新闻文章、宗教文章和法院判决经过过滤以去除毒性内容,并进行了预处理。该数据集包含629万行训练数据和270万行测试数据,适用于微调LLaMA-based模型(如Alpaca、Guanaco、Vicuna、LLaMA 2等)。数据集的来源包括菲律宾每日问询报、马尼拉公报、法律文件、旧数字期刊、宗教文本以及法律和公告。
PhEnText Detoxed是一个大规模的、多领域的词汇数据集,使用菲律宾英语和Taglish文本编写。数据集中的新闻文章、宗教文章和法院判决经过过滤以去除毒性内容,并进行了预处理。该数据集包含629万行训练数据和270万行测试数据,适用于微调LLaMA-based模型(如Alpaca、Guanaco、Vicuna、LLaMA 2等)。数据集的来源包括菲律宾每日问询报、马尼拉公报、法律文件、旧数字期刊、宗教文本以及法律和公告。
提供机构:
NLPinas
原始信息汇总
数据集概述
PhEnText Detoxed 是一个大规模、多领域的菲律宾英语和Taglish文本词汇数据集。该数据集包含新闻文章、宗教文章和法院判决,经过过滤去除了毒性内容,并对特殊字符进行了预处理。数据集适用于微调基于LLaMA的模型(如Alpaca、Guanaco、Vicuna、LLaMA 2等)。总共有629万行训练数据和270万行测试数据。
数据来源
数据集的原始来源如下:
| 来源 | 网站 | 年份 | 文档数量 |
|---|---|---|---|
| 在线新闻(菲律宾每日问询者报) | inquirer.net | 2009-2021 | 834,630 |
| 在线新闻(马尼拉公报) | mb.com.ph | 2018-2021 | 248,408 |
| 判例 | lawphil.net | 1901-2021 | 59,905 |
| 旧数字期刊 | repository.mainlib.upd.edu.ph | 1904-1981 | 20,999 |
| 宗教文本 | cbcponline.net | 2009-2022 | 2,281 |
| 法律和法令 | officialgazette.gov.ph | 1906-2016 | 30,215 |
伦理考虑
在使用该数据集进行模型训练或微调时,应注意以下伦理问题:
- 公平性和偏见: 模型的响应可能反映训练数据中的偏见。应意识到潜在的偏见,并努力对响应进行批判性和公平的评估。
- 透明度: 模型作为基于训练数据学习模式的预测文本生成器运行。
- 用户责任: 用户应为自己的决策负责,不应仅依赖模型提供的信息。应咨询适当的专家或可靠来源以获取特定建议或推荐。
- NSFW内容: 数据已进行去毒处理,但仍可能包含敏感话题,如暴力、血腥和性内容。如果计划进一步细化模型以确保安全使用,强烈建议实施防护措施。
- 时效性: 数据的截止日期为2021年12月。不得使用该数据生成严重依赖于截止日期之后事件的内容。



