five

TaPaCo

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/TaPaCo
下载链接
链接失效反馈
官方服务:
资源简介:
Tatoeba是一个主要针对语言学习者的众包项目。其目的是为特定的语言结构和单词提供例句和翻译。释义语料库是通过在图形中填充Tatoeba句子和句子之间的等效链接 “意思是同一件事” 来创建的。然后遍历该图以提取释义集。应用了几个与语言无关的过滤器和修剪步骤来删除无趣的句子。对三种语言进行的手动评估表明,推断出的释义中有一半到四分之三是正确的,而其余大多数是正确但微不足道的,或者近似于消除形态差异的释义。该语料库总共包含190万个句子,每个语言200-250 000个句子。它涵盖了一系列语言,据我们所知,没有其他解释数据集。
提供机构:
OpenDataLab
创建时间:
2022-09-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TaPaCo是一个基于Tatoeba众包项目构建的释义语料库,通过图形方法提取句子间的释义关系并经过过滤处理。该数据集覆盖73种语言,包含约190万个句子,每个语言有20-25万句子,手动评估表明其释义准确性较高。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作