Lihuchen/pearl_benchmark
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Lihuchen/pearl_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
PEARL-Benchmark是一个用于评估短语表示的基准数据集,包含9个短语级别的数据集,覆盖了数据科学和自然语言处理领域的五种任务类型。这些任务包括:复述分类(PPDB和PPDBfiltered)、短语相似性(Turney和BIRD)、实体检索(基于Yago和UMLS构建的数据集)、实体聚类(CoNLL 03和BC5CDR)以及模糊连接(AutoFJ基准,包含50个不同的模糊连接数据集)。每个数据集的任务类型、样本数量、平均长度和评估指标均在README文件中详细列出。
PEARL-Benchmark是一个用于评估短语表示的基准数据集,包含9个短语级别的数据集,覆盖了数据科学和自然语言处理领域的五种任务类型。这些任务包括:复述分类(PPDB和PPDBfiltered)、短语相似性(Turney和BIRD)、实体检索(基于Yago和UMLS构建的数据集)、实体聚类(CoNLL 03和BC5CDR)以及模糊连接(AutoFJ基准,包含50个不同的模糊连接数据集)。每个数据集的任务类型、样本数量、平均长度和评估指标均在README文件中详细列出。
提供机构:
Lihuchen
原始信息汇总
PEARL-Benchmark 数据集概述
数据集信息
- 许可证: cc-by-sa-4.0
- 语言: 英语
- 标签: pearl benchmark, phrase embeddings, entity retrieval, entity clustering, fuzzy join, entity matching, string matching, string similarity
- 大小类别: 1K<n<10K
配置信息
- bc5cdr
- 特征:
- 名称: entity
- 数据类型: string
- 名称: label
- 数据类型: string
- 名称: entity
- 特征:
数据文件
- bird
- 分割: test
- 路径: data/bird/bird.tsv
- turney
- 分割: test
- 路径: data/turney/turney.tsv
- conll
- 分割: test
- 路径: data/conll/conll.tsv
- bc5cdr
- 分割: test
- 路径: data/bc5cdr/bc5cdr.tsv
- autofj
- 分割: test
- 路径: data/autofj/autofj.tsv
- ppdb
- 分割: test
- 路径: data/ppdb/ppdb.tsv
- ppdb_filtered
- 分割: test
- 路径: data/ppdb/ppdb_filtered.tsv
- yago
- 分割: test
- 路径: data/yago/yago_test_samples.tsv
- umls
- 分割: umls
- 路径: data/umls/umls_test_samples.tsv
- kb
- 分割: umls
- 路径: data/kb/umls_kb.tsv
- 分割: yago
- 路径: data/kb/yago_kb.tsv
数据集描述
- Paraphrase Classification: PPDB 和 PPDBfiltered
- Phrase Similarity: Turney 和 BIRD
- Entity Retrieval: Yago 和 UMLS
- Entity Clustering: CoNLL 03 和 BC5CDR
- Fuzzy Join: AutoFJ benchmark
任务和样本信息
| 任务 | 数据集 | 样本数量 | 平均长度 | 评估指标 |
|---|---|---|---|---|
| Paraphrase Classification | PPDB | 23.4k | 2.5 | Acc |
| Paraphrase Classification | PPDB filtered | 15.5k | 2.0 | Acc |
| Phrase Similarity | Turney | 2.2k | 1.2 | Acc |
| Phrase Similarity | BIRD | 3.4k | 1.7 | Pearson |
| Entity Retrieval | YAGO | 10k | 3.3 | Top-1 Acc |
| Entity Retrieval | UMLS | 10k | 4.1 | Top-1 Acc |
| Entity Clustering | CoNLL | 5.0k | 1.5 | NMI |
| Entity Clustering | BC5CDR | 9.7k | 1.4 | NMI |
| Fuzzy Join | AutoFJ | 50 subsets | 3.8 | Acc |



