embedding-data/altlex
收藏Hugging Face2022-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/embedding-data/altlex
下载链接
链接失效反馈官方服务:
资源简介:
altlex数据集是一个用于训练Sentence Transformers模型的英语数据集,适用于语义搜索和句子相似性任务。数据集的每个实例包含一对相似的句子,格式为字典,键为set,值为句子列表。数据集的结构为DatasetDict,包含一个训练集,特征为set,行数为112696。数据集的详细信息,如数据收集、注释过程、个人和敏感信息处理等,均未提供。
提供机构:
embedding-data
原始信息汇总
数据集概述:altlex
数据集描述
数据集总结
- 目的: 用于2016年ACL论文"Identifying Causal Relations Using Parallel Wikipedia Articles"的软件相关数据集。
- 特点: 由Hugging Face团队上传至Hub,非原始团队操作。
支持的任务
- 任务: Sentence Transformers训练,适用于语义搜索和句子相似性分析。
语言
- 语言: 英语。
数据集结构
数据实例
- 格式: 每个实例包含一对相似句子,格式为字典,键为"set",值为句子列表。
{"set": [sentence_1, sentence_2]}
数据字段
- 字段: set,包含一对句子。
数据分割
- 分割: 数据集被加载为
DatasetDict,包含训练集,例如:
python DatasetDict({ train: Dataset({ features: [set], num_rows: 112696 }) })
数据集创建
来源数据
- 初始数据收集和标准化: 信息待补充。
- 源语言生产者: 信息待补充。
注释
- 注释过程: 信息待补充。
- 注释者: 信息待补充。
个人和敏感信息
- 信息: 信息待补充。
使用数据注意事项
社会影响
- 影响: 信息待补充。
偏见讨论
- 偏见: 信息待补充。
其他已知限制
- 限制: 信息待补充。
附加信息
数据集管理者
- 管理者: 信息待补充。
许可证信息
- 许可证: 信息待补充。
引用信息
- 引用: 信息待补充。
贡献
- 贡献者: @chridey,负责将数据集添加到Github。



