five

umarbutler/open-australian-legal-embeddings

收藏
Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/umarbutler/open-australian-legal-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
Open Australian Legal Embeddings 是第一个开源的澳大利亚立法和司法文档的嵌入数据集。该数据集基于最大的澳大利亚法律开放数据库 Open Australian Legal Corpus 训练,包含大约 520 万个 384 维向量,使用 BAAI/bge-small-en-v1.5 模型进行嵌入。该数据集为澳大利亚法律 AI 领域的各种应用打开了大门,包括文档分类器、搜索引擎和聊天机器人的开发。为了确保尽可能广泛的受众能够访问,该数据集与 Open Australian Legal Corpus 使用相同的许可证进行分发。
提供机构:
umarbutler
原始信息汇总

Open Australian Legal Embeddings 数据集概述

基本信息

  • 语言: 英语
  • 许可证: 开放澳大利亚法律语料库许可证
  • 标签: 法律, 澳大利亚, 嵌入
  • 注释创建者: 无注释
  • 语言创建者: 发现
  • 语言详情: 澳大利亚英语, 英国英语
  • 数据集名称: Open Australian Legal Embeddings
  • 数据集大小: 1M<n<10M
  • 源数据集: umarbutler/open-australian-legal-corpus
  • 任务类别: 文本检索
  • 任务ID: 文档检索

数据集信息

  • 特征:
    • version_id: 字符串
    • type: 字符串
    • jurisdiction: 字符串
    • source: 字符串
    • citation: 字符串
    • url: 字符串
    • is_last_chunk: 布尔值
    • text: 字符串
    • embedding: 浮点数列表
  • 配置名称: train
  • 分割:
    • train:
      • num_bytes: 28500857221
      • num_examples: 5208238
  • 下载大小: 45586801753
  • 数据集大小: 28500857221

使用方法

以下代码片段展示了如何通过 Hugging Face Datasets Python 库加载和查询嵌入: python import itertools import sklearn.metrics.pairwise

from datasets import load_dataset from sentence_transformers import SentenceTransformer

model = SentenceTransformer(BAAI/bge-small-en-v1.5) instruction = Represent this sentence for searching relevant passages:

Load the embeddings.

oale = load_dataset(open_australian_legal_embeddings.py, split=train)

Sample the first 100,000 embeddings.

sample = list(itertools.islice(oale, 100000))

Embed a query.

query = model.encode(instruction + Who is the Governor-General of Australia?, normalize_embeddings=True)

Identify the most similar embedding to the query.

similarities = sklearn.metrics.pairwise.cosine_similarity([query], [embedding[embedding] for embedding in sample]) most_similar_index = similarities.argmax() most_similar = sample[most_similar_index]

Print the most similar text.

print(most_similar[text])

结构

嵌入存储在 data/embeddings.jsonl 中,每个行是一个包含 384 个 32 位浮点数的列表。关联的元数据存储在 data/metadatas.jsonl 中,相应的文本存储在 data/texts.jsonl 中。

创建过程

所有文档在 Open Australian Legal Corpus 中被分割成最多 512 个令牌的语义上有意义的块,并使用 semchunk Python 库进行处理。这些块包括文档标题、管辖区域和类型的嵌入头。

许可证

嵌入根据 Open Australian Legal Corpus 的许可证进行分发。

引用

如果您的作品依赖于这些嵌入,请引用: latex @misc{butler-2023-open-australian-legal-embeddings, author = {Butler, Umar}, year = {2023}, title = {Open Australian Legal Embeddings}, publisher = {Hugging Face}, version = {1.0.0}, doi = {10.57967/hf/1347}, url = {https://huggingface.co/datasets/umarbutler/open-australian-legal-embeddings} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作