Darija Open Dataset (DODa)|自然语言处理数据集|摩洛哥方言数据集
收藏数据集概述
项目概览
- 翻译接口:使用用户友好的AtlasIA界面,展示Darija句子供翻译,贡献者提供英语或法语的翻译。
- 附加功能:贡献者可以选择提供Darija句子的音频录音,以及与翻译相关的置信度。
- 数据存储:收集的数据(包括Darija句子、翻译、音频录音和置信度)最初存储在Firestore DB中,经过处理后移至本仓库以公开。
如何贡献
- 访问:访问AtlasIA。
- 翻译句子:阅读提供的句子,选择翻译语言(EN/FR),并将句子翻译成所选语言。
- 可选功能:贡献者可以录制原始句子的音频(可选)并提交。
- 报告错误句子:如果遇到错误句子,可以使用“报告”按钮发送警报。
- 预处理:在将数据添加到本仓库之前,我们的团队将预处理数据以确保数据质量和一致性。
- 欢迎贡献:我们邀请对Darija-English翻译感兴趣的个人贡献翻译或改进数据集。
数据集结构
数据集以结构化格式组织,每个条目包含:
- Darija句子
- 英语或法语翻译
- 可选的音频录音
- 置信度
许可证
本数据集在CC BY-NC-SA 4.0许可下发布,对所有人开放用于研究和开源工作。
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
TPTP
TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。
www.tptp.org 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
汕头市龙湖区社保局政务服务事项办事窗口信息
该数据为汕头市龙湖区社保局2020年至今政务服务事项办理窗口基本信息,为办事群众指明了具体办理事项线下办理该事项的具体窗口内容,主要包括:窗口名称、窗口地址、窗口电话、办公时间等关键信息。
开放广东 收录