Universal Dependencies (UD)|自然语言处理数据集|语法标注数据集
收藏
- Universal Dependencies (UD) 项目正式启动,旨在创建一个跨语言的依存语法标注体系。
- 发布了首个版本的 Universal Dependencies 数据集,包含多种语言的语料库。
- UD 数据集进行了首次大规模更新,增加了更多语言的支持,并改进了标注规范。
- 发布了 UD v2.0,引入了新的标注层级和更详细的语法信息,提升了数据集的实用性。
- UD v2.3 发布,进一步扩展了语言覆盖范围,并优化了标注一致性。
- UD v2.5 发布,引入了更多语言的语料库,并改进了跨语言的标注一致性。
- UD v2.7 发布,继续扩展语言覆盖,并引入了新的标注工具和资源。
- UD v2.8 发布,进一步优化了标注规范,并增加了对低资源语言的支持。
- UD v2.10 发布,继续扩展语言覆盖,并改进了数据集的质量和一致性。
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录