TED-Parallel-Corpus|多语言平行语料库数据集|机器翻译数据集
收藏数据集概述
数据集名称
TED-Parallel-Corpus
数据集内容
- Monolingual Corpus: 包含多种语言的单语语料,涵盖了从阿塞拜疆语到挪威博克马尔语等多种语言,共计109种语言。
- Bilingual Parallel Corpus: 包含12种语言的双语平行语料,覆盖了阿拉伯语、简体中文、繁体中文、荷兰语、法语、德语、希伯来语、意大利语、日语、韩语、俄语和西班牙语等。
- Multilingual Parallel Corpus: 包含13种语言的多语平行语料,具体语言未在README中详细列出。
数据集规模
- Monolingual Corpus: 包含超过1200万句。
- Bilingual Parallel Corpus: 包含超过1200万对齐句子。
- Multilingual Parallel Corpus: 包含超过60万对齐句子。
数据集用途
该数据集主要用于生成句子对齐文本,以支持统计机器翻译系统的开发。
数据处理
所有预处理工作均通过自动化方式完成,未进行人工校正。
数据集条件
数据集仅限于科学研究使用,不得转让给第三方。任何使用必须适当记录和引用。
免责声明
数据集内容是自动从公开可访问的源www.ted.com处理而来,不对数据内容负责。特别指出,数据中表达的观点和意见仅属于原作者。

光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
EdNet
圣诞老人收集的各种学生活动的大规模分层数据集,一个配备人工智能辅导系统的多平台自学解决方案。 EdNet 包含 2 年多来收集的 784,309 名学生的 131,441,538 次互动,这是迄今为止向公众发布的 ITS 数据集中最大的。资料来源:EdNet:教育中的大规模分层数据集
OpenDataLab 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录