AnanthZeke/tamil_sentences_sample
收藏Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AnanthZeke/tamil_sentences_sample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为tamil_combined_sentences,包含泰米尔语的句子,主要用于句子相似性和零样本分类任务。数据集来源于OSCAR和Wikipedia,大小在1M到10M之间。数据集的特征包括句子,分割为训练集,包含2,391,475个例子,总大小为1,164,550,978字节。
该数据集名为tamil_combined_sentences,包含泰米尔语的句子,主要用于句子相似性和零样本分类任务。数据集来源于OSCAR和Wikipedia,大小在1M到10M之间。数据集的特征包括句子,分割为训练集,包含2,391,475个例子,总大小为1,164,550,978字节。
提供机构:
AnanthZeke
原始信息汇总
数据集概述
基本信息
- 数据集名称: tamil_combined_sentences
- 许可证: MIT
数据特征
- 特征名称: sentence
- 数据类型: string
数据分割
- 分割名称: train
- 示例数量: 2391475
- 数据大小: 1164550978 字节
下载信息
- 下载大小: 347960778 字节
- 数据集大小: 1164550978 字节
任务类别
- sentence-similarity
- zero-shot-classification
语言
- Tamil (ta)
标签
- OSCAR
- Wikipedia
- Tamil
大小类别
- 1M<n<10M



