bo-corpus|藏语研究数据集|语言学数据集
收藏数据集概述
数据集名称
- bo-corpus
数据集描述
- Representative corpus for Tibetan Language
语言结构层次
-
Message སྐད་བརྡ།
- 描述:在特定时刻,某人让另一人知道的所有内容。
- 长度:可短至“Yes”,可复杂至整个演讲。
-
Paragraphs སྒྲུབ་ཚོགས།
- 描述:包含消息的一部分。
- 长度:可短至“isnt it?”,可包含多个句子。
-
A sentence ཚིག་སྒྲུབ།
- 描述:表达一个完整想法,如动作,并包含理解该想法所需的所有元素。
-
Clauses བརྗོད་པ།
- 描述:描述动作主要组件的词组,如主语、宾语、动词、时间、方式等。
- 类型:
- 必需条款
- 可选条款
-
Word groups ཚིག་ཚོགས།
- 描述:词组内,头词持有主要意义,其他词提供关于头词的更多细节。
- 类型:
- 名词组
- 形容词组
- 副词组
-
Words ཚིག
- 描述:句子中最小的独立意义单位。
- 类型:
- 完整词
- 名词
- 形容词
- 副词
- 感叹词
- 语法词
- 完整词
-
Word Components ཚིག་གི་ཆ་ཤས།
- 描述:
- 词根:词的核心部分。
- 词缀:修改词根意义的部分,以构建所需意义。
- 描述:

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录