five

NLPinas/ph_en_text_detoxed

收藏
Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPinas/ph_en_text_detoxed
下载链接
链接失效反馈
官方服务:
资源简介:
PhEnText Detoxed是一个大规模的、多领域的词汇数据集,使用菲律宾英语和Taglish文本编写。数据集中的新闻文章、宗教文章和法院判决经过过滤以去除毒性内容,并进行了预处理。该数据集包含629万行训练数据和270万行测试数据,适用于微调LLaMA-based模型(如Alpaca、Guanaco、Vicuna、LLaMA 2等)。数据集的来源包括菲律宾每日问询报、马尼拉公报、法律文件、旧数字期刊、宗教文本以及法律和公告。

PhEnText Detoxed是一个大规模的、多领域的词汇数据集,使用菲律宾英语和Taglish文本编写。数据集中的新闻文章、宗教文章和法院判决经过过滤以去除毒性内容,并进行了预处理。该数据集包含629万行训练数据和270万行测试数据,适用于微调LLaMA-based模型(如Alpaca、Guanaco、Vicuna、LLaMA 2等)。数据集的来源包括菲律宾每日问询报、马尼拉公报、法律文件、旧数字期刊、宗教文本以及法律和公告。
提供机构:
NLPinas
原始信息汇总

数据集概述

PhEnText Detoxed 是一个大规模、多领域的菲律宾英语和Taglish文本词汇数据集。该数据集包含新闻文章、宗教文章和法院判决,经过过滤去除了毒性内容,并对特殊字符进行了预处理。数据集适用于微调基于LLaMA的模型(如Alpaca、Guanaco、Vicuna、LLaMA 2等)。总共有629万行训练数据和270万行测试数据。

数据来源

数据集的原始来源如下:

来源 网站 年份 文档数量
在线新闻(菲律宾每日问询者报) inquirer.net 2009-2021 834,630
在线新闻(马尼拉公报) mb.com.ph 2018-2021 248,408
判例 lawphil.net 1901-2021 59,905
旧数字期刊 repository.mainlib.upd.edu.ph 1904-1981 20,999
宗教文本 cbcponline.net 2009-2022 2,281
法律和法令 officialgazette.gov.ph 1906-2016 30,215

伦理考虑

在使用该数据集进行模型训练或微调时,应注意以下伦理问题:

  1. 公平性和偏见: 模型的响应可能反映训练数据中的偏见。应意识到潜在的偏见,并努力对响应进行批判性和公平的评估。
  2. 透明度: 模型作为基于训练数据学习模式的预测文本生成器运行。
  3. 用户责任: 用户应为自己的决策负责,不应仅依赖模型提供的信息。应咨询适当的专家或可靠来源以获取特定建议或推荐。
  4. NSFW内容: 数据已进行去毒处理,但仍可能包含敏感话题,如暴力、血腥和性内容。如果计划进一步细化模型以确保安全使用,强烈建议实施防护措施。
  5. 时效性: 数据的截止日期为2021年12月。不得使用该数据生成严重依赖于截止日期之后事件的内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作