five

tamiltheorist/Thamizhmalai

收藏
Hugging Face2025-08-11 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/tamiltheorist/Thamizhmalai
下载链接
链接失效反馈
官方服务:
资源简介:
Tamizhmalai是一个从公共来源收集并经过清理的泰米尔语语料库,提供了句子和短语两种形式的数据。该语料库旨在为语言模型训练、短语挖掘、语义检索以及其他下游任务提供干净、多样化的泰米尔语散文,包括新闻、散文、报告、博客文章和公共文件。语料库中的文本来源于当代和正式的泰米尔语,包含中性的说明性写作和偶尔的叙事风格,以及自然出现在泰米尔语散文中的英语混合代码。

Tamizhmalai is a cleaned Tamil corpus collected from public sources, offering both sentences and phrases. The corpus is designed to provide clean, varied Tamil prose for language modeling, phrase mining, semantic retrieval, and other downstream tasks, including news, essays, reports, blog posts, and public documents. The text within the corpus comes from contemporary and formal Tamil, featuring neutral expository writing with occasional narrative styles, as well as code-mixed English tokens naturally occurring in Tamil prose.
提供机构:
tamiltheorist
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作