umarbutler/open-australian-legal-embeddings

Name: umarbutler/open-australian-legal-embeddings
Creator: umarbutler
Published: 2023-12-01 05:29:52
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/umarbutler/open-australian-legal-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

Open Australian Legal Embeddings 是第一个开源的澳大利亚立法和司法文档的嵌入数据集。该数据集基于最大的澳大利亚法律开放数据库 Open Australian Legal Corpus 训练，包含大约 520 万个 384 维向量，使用 BAAI/bge-small-en-v1.5 模型进行嵌入。该数据集为澳大利亚法律 AI 领域的各种应用打开了大门，包括文档分类器、搜索引擎和聊天机器人的开发。为了确保尽可能广泛的受众能够访问，该数据集与 Open Australian Legal Corpus 使用相同的许可证进行分发。

提供机构：

umarbutler

原始信息汇总

Open Australian Legal Embeddings 数据集概述

基本信息

语言: 英语
许可证: 开放澳大利亚法律语料库许可证
标签: 法律, 澳大利亚, 嵌入
注释创建者: 无注释
语言创建者: 发现
语言详情: 澳大利亚英语, 英国英语
数据集名称: Open Australian Legal Embeddings
数据集大小: 1M<n<10M
源数据集: umarbutler/open-australian-legal-corpus
任务类别: 文本检索
任务ID: 文档检索

数据集信息

特征:
- version_id: 字符串
- type: 字符串
- jurisdiction: 字符串
- source: 字符串
- citation: 字符串
- url: 字符串
- is_last_chunk: 布尔值
- text: 字符串
- embedding: 浮点数列表
配置名称: train
分割:
- train:
  - num_bytes: 28500857221
  - num_examples: 5208238
下载大小: 45586801753
数据集大小: 28500857221

使用方法

以下代码片段展示了如何通过 Hugging Face Datasets Python 库加载和查询嵌入： python import itertools import sklearn.metrics.pairwise

from datasets import load_dataset from sentence_transformers import SentenceTransformer

model = SentenceTransformer(BAAI/bge-small-en-v1.5) instruction = Represent this sentence for searching relevant passages:

Load the embeddings.

oale = load_dataset(open_australian_legal_embeddings.py, split=train)

Sample the first 100,000 embeddings.

sample = list(itertools.islice(oale, 100000))

Embed a query.

query = model.encode(instruction + Who is the Governor-General of Australia?, normalize_embeddings=True)

Identify the most similar embedding to the query.

similarities = sklearn.metrics.pairwise.cosine_similarity([query], [embedding[embedding] for embedding in sample]) most_similar_index = similarities.argmax() most_similar = sample[most_similar_index]

Print the most similar text.

print(most_similar[text])

结构

嵌入存储在 data/embeddings.jsonl 中，每个行是一个包含 384 个 32 位浮点数的列表。关联的元数据存储在 data/metadatas.jsonl 中，相应的文本存储在 data/texts.jsonl 中。

创建过程

所有文档在 Open Australian Legal Corpus 中被分割成最多 512 个令牌的语义上有意义的块，并使用 semchunk Python 库进行处理。这些块包括文档标题、管辖区域和类型的嵌入头。

许可证

嵌入根据 Open Australian Legal Corpus 的许可证进行分发。

引用

如果您的作品依赖于这些嵌入，请引用： latex @misc{butler-2023-open-australian-legal-embeddings, author = {Butler, Umar}, year = {2023}, title = {Open Australian Legal Embeddings}, publisher = {Hugging Face}, version = {1.0.0}, doi = {10.57967/hf/1347}, url = {https://huggingface.co/datasets/umarbutler/open-australian-legal-embeddings} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集