five

embedding-data/altlex

收藏
Hugging Face2022-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/embedding-data/altlex
下载链接
链接失效反馈
官方服务:
资源简介:
altlex数据集是一个用于训练Sentence Transformers模型的英语数据集,适用于语义搜索和句子相似性任务。数据集的每个实例包含一对相似的句子,格式为字典,键为set,值为句子列表。数据集的结构为DatasetDict,包含一个训练集,特征为set,行数为112696。数据集的详细信息,如数据收集、注释过程、个人和敏感信息处理等,均未提供。
提供机构:
embedding-data
原始信息汇总

数据集概述:altlex

数据集描述

数据集总结

  • 目的: 用于2016年ACL论文"Identifying Causal Relations Using Parallel Wikipedia Articles"的软件相关数据集。
  • 特点: 由Hugging Face团队上传至Hub,非原始团队操作。

支持的任务

  • 任务: Sentence Transformers训练,适用于语义搜索和句子相似性分析。

语言

  • 语言: 英语。

数据集结构

数据实例

  • 格式: 每个实例包含一对相似句子,格式为字典,键为"set",值为句子列表。

{"set": [sentence_1, sentence_2]}

数据字段

  • 字段: set,包含一对句子。

数据分割

  • 分割: 数据集被加载为DatasetDict,包含训练集,例如:

python DatasetDict({ train: Dataset({ features: [set], num_rows: 112696 }) })

数据集创建

来源数据

  • 初始数据收集和标准化: 信息待补充。
  • 源语言生产者: 信息待补充。

注释

  • 注释过程: 信息待补充。
  • 注释者: 信息待补充。

个人和敏感信息

  • 信息: 信息待补充。

使用数据注意事项

社会影响

  • 影响: 信息待补充。

偏见讨论

  • 偏见: 信息待补充。

其他已知限制

  • 限制: 信息待补充。

附加信息

数据集管理者

  • 管理者: 信息待补充。

许可证信息

  • 许可证: 信息待补充。

引用信息

  • 引用: 信息待补充。

贡献

  • 贡献者: @chridey,负责将数据集添加到Github。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作