five

joypersicanon/ph-en-text

收藏
Hugging Face2022-03-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joypersicanon/ph-en-text
下载链接
链接失效反馈
官方服务:
资源简介:
PhEnText是一个大规模的、多领域的菲律宾英语文本词汇数据集,包含来自新闻文章、宗教文章和法院判决的20,562,265行数据。数据集的结构包括id和text字段,数据分割为80:20的训练和测试数据。
提供机构:
joypersicanon
原始信息汇总

数据集概述

数据集名称

PhEnText

数据集简介

PhEnText是一个大规模的多领域词汇数据集,包含20,562,265行菲律宾英语文本,来源于新闻文章、宗教文章和法院判决。

语言

ph-en

数据集结构

数据字段示例
  • id: "3128940"
  • text: "Why this happened should be the focus of inquiry."
数据分割

训练集与测试集的比例为80:20。

联系人

Mary Joy P. Canon

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作