joypersicanon/ph-en-text
收藏Hugging Face2022-03-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joypersicanon/ph-en-text
下载链接
链接失效反馈官方服务:
资源简介:
PhEnText是一个大规模的、多领域的菲律宾英语文本词汇数据集,包含来自新闻文章、宗教文章和法院判决的20,562,265行数据。数据集的结构包括id和text字段,数据分割为80:20的训练和测试数据。
提供机构:
joypersicanon
原始信息汇总
数据集概述
数据集名称
PhEnText
数据集简介
PhEnText是一个大规模的多领域词汇数据集,包含20,562,265行菲律宾英语文本,来源于新闻文章、宗教文章和法院判决。
语言
ph-en
数据集结构
数据字段示例
- id: "3128940"
- text: "Why this happened should be the focus of inquiry."
数据分割
训练集与测试集的比例为80:20。
联系人
Mary Joy P. Canon



