AescF/common_language_preprocessed
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AescF/common_language_preprocessed
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: client_id
dtype: string
- name: path
dtype: string
- name: sentence
dtype: string
- name: age
dtype: string
- name: gender
dtype: string
- name: label
dtype:
class_label:
names:
'0': Arabic
'1': Basque
'2': Breton
'3': Catalan
'4': Chinese_China
'5': Chinese_Hongkong
'6': Chinese_Taiwan
'7': Chuvash
'8': Czech
'9': Dhivehi
'10': Dutch
'11': English
'12': Esperanto
'13': Estonian
'14': French
'15': Frisian
'16': Georgian
'17': German
'18': Greek
'19': Hakha_Chin
'20': Indonesian
'21': Interlingua
'22': Italian
'23': Japanese
'24': Kabyle
'25': Kinyarwanda
'26': Kyrgyz
'27': Latvian
'28': Maltese
'29': Mangolian
'30': Persian
'31': Polish
'32': Portuguese
'33': Romanian
'34': Romansh_Sursilvan
'35': Russian
'36': Sakha
'37': Slovenian
'38': Spanish
'39': Swedish
'40': Tamil
'41': Tatar
'42': Turkish
'43': Ukranian
'44': Welsh
- name: input_values
sequence: float32
- name: attention_mask
sequence: int32
splits:
- name: train
num_bytes: 13848986619
num_examples: 22194
- name: validation
num_bytes: 3461442109
num_examples: 5888
- name: test
num_bytes: 3473659131
num_examples: 5963
download_size: 0
dataset_size: 20784087859
---
# Dataset Card for "common_language_preprocessed"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
配置项:
- 配置名称:default
数据文件:
- 拆分集:训练集(train),路径:data/train-*
- 拆分集:验证集(validation),路径:data/validation-*
- 拆分集:测试集(test),路径:data/test-*
数据集信息:
特征字段:
- 客户端ID(client_id):数据类型为字符串(string)
- 文件路径(path):数据类型为字符串
- 语句文本(sentence):数据类型为字符串
- 年龄(age):数据类型为字符串
- 性别(gender):数据类型为字符串
- 标签(label):数据类型为分类标签(class_label),其类别名称映射如下:
'0': 阿拉伯语
'1': 巴斯克语
'2': 布列塔尼语
'3': 加泰罗尼亚语
'4': 中国大陆汉语
'5': 中国香港汉语
'6': 中国台湾汉语
'7': 楚瓦什语
'8': 捷克语
'9': 迪维希语
'10': 荷兰语
'11': 英语
'12': 世界语
'13': 爱沙尼亚语
'14': 法语
'15': 弗里斯兰语
'16': 格鲁吉亚语
'17': 德语
'18': 希腊语
'19': 哈卡钦语
'20': 印度尼西亚语
'21': 国际语(Interlingua)
'22': 意大利语
'23': 日语
'24': 卡拜尔语
'25': 卢旺达语
'26': 吉尔吉斯语
'27': 拉脱维亚语
'28': 马耳他语
'29': 蒙古语
'30': 波斯语
'31': 波兰语
'32': 葡萄牙语
'33': 罗马尼亚语
'34': 苏西尔万罗曼什语
'35': 俄语
'36': 萨哈语
'37': 斯洛文尼亚语
'38': 西班牙语
'39': 瑞典语
'40': 泰米尔语
'41': 鞑靼语
'42': 土耳其语
'43': 乌克兰语
'44': 威尔士语
- 输入值(input_values):序列类型,元素类型为单精度浮点数(float32)
- 注意力掩码(attention_mask):序列类型,元素类型为32位整数(int32)
数据拆分:
- 拆分名称:训练集(train),总字节数:13848986619,样本数量:22194
- 拆分名称:验证集(validation),总字节数:3461442109,样本数量:5888
- 拆分名称:测试集(test),总字节数:3473659131,样本数量:5963
下载大小:0
数据集总大小:20784087859
# "common_language_preprocessed"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
AescF
原始信息汇总
数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
- 特征:
client_id:字符串类型path:字符串类型sentence:字符串类型age:字符串类型gender:字符串类型label:类别标签,包含以下类别:- 0: Arabic
- 1: Basque
- 2: Breton
- 3: Catalan
- 4: Chinese_China
- 5: Chinese_Hongkong
- 6: Chinese_Taiwan
- 7: Chuvash
- 8: Czech
- 9: Dhivehi
- 10: Dutch
- 11: English
- 12: Esperanto
- 13: Estonian
- 14: French
- 15: Frisian
- 16: Georgian
- 17: German
- 18: Greek
- 19: Hakha_Chin
- 20: Indonesian
- 21: Interlingua
- 22: Italian
- 23: Japanese
- 24: Kabyle
- 25: Kinyarwanda
- 26: Kyrgyz
- 27: Latvian
- 28: Maltese
- 29: Mangolian
- 30: Persian
- 31: Polish
- 32: Portuguese
- 33: Romanian
- 34: Romansh_Sursilvan
- 35: Russian
- 36: Sakha
- 37: Slovenian
- 38: Spanish
- 39: Swedish
- 40: Tamil
- 41: Tatar
- 42: Turkish
- 43: Ukranian
- 44: Welsh
input_values:浮点数序列attention_mask:整数序列
数据集分割
- 训练集:
- 字节数:13848986619
- 样本数:22194
- 验证集:
- 字节数:3461442109
- 样本数:5888
- 测试集:
- 字节数:3473659131
- 样本数:5963
数据集大小
- 下载大小:0 字节
- 数据集大小:20784087859 字节



