LTRC Hindi-Telugu Parallel Corpus|机器翻译数据集|低资源语言数据集
收藏The-LTRC-Hindi-Telugu-Parallel-Corpus
数据集概述
- 标题: The LTRC Hindi-Telugu Parallel Corpus
- 作者: Vandan Mujadia, Dipti Sharma
- 发布机构: European Language Resources Association
- 发布时间: 2022年6月
- 会议: Proceedings of the Thirteenth Language Resources and Evaluation Conference
- 地点: Marseille, France
- 出版商: European Language Resources Association
数据集内容
- 语言对: 印地语-泰卢固语
- 领域: 自然科学、计算机科学、法律和医疗保健以及通用领域
- 规模: 700K 平行句子,其中 535K 句子通过多种方法创建,165K 句子来自公共领域
- 创建方法: 提取、对齐、人工翻译、迭代回译驱动的后编辑
数据集用途
- 预处理: 适用于机器翻译
- 任务: 定义了低资源语言对(如印地语和泰卢固语)的领域机器翻译新任务
数据集特点
- 代表性和多样性: 对创建的平行语料库进行了比较评估
- 可用性: 免费提供非商业研究使用
- 规模: 据我们所知,这是印地语-泰卢固语领域平行语料库中最大且经过精心整理的公开可用语料库
数据集来源
- 开发机构: LTRC, IIIT-Hyderabad
- 资助: Meity, Gov. of India
- 项目: ILMT Hindi-Telugu Pilot

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录