five

NextProcurement-NER-Spanish-UTE-Company-annotated

收藏
魔搭社区2025-12-05 更新2025-02-01 收录
下载链接:
https://modelscope.cn/datasets/BSC-LT/NextProcurement-NER-Spanish-UTE-Company-annotated
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for NextProcurement-NER-Spanish-UTE-Company-annotated ## Dataset Description - **Point of Contact:** langtech@bsc.es ### Dataset Summary This dataset in IOB2-format contains annotations of mentions of UTEs (Unión Temporal de Empresas) and companies in public tenders. The annotated documents are the results of text extraction from PDF files using OCR, with the corresponding transcription errors. The tags used are `UTE` (seen 656 times) and `SINGLE_COMPANY` (seen 530 times). ### Supported Tasks and Leaderboards Token classification ### Languages The dataset is in Catalan (`es-ES`). ## Dataset Structure ### Data Instances ``` En O resumen O , O la O documentación O técnica O presentada O por O el O solicitante O VIAS B-SINGLE_COMPANY Y I-SINGLE_COMPANY CONSTRUCCIONES I-SINGLE_COMPANY , I-SINGLE_COMPANY S.A. I-SINGLE_COMPANY , O ha O obtenido O una O valoración O total O ( O Vt O ) O de O : O 25,10 O puntos O . O La O puntuación O total O ( O Pt O ) O es O de O 31,78 O puntos O . O ``` ### Data Fields [N/A] ### Data Splits The dataset contains a single file. ## Dataset Creation ### Source Data #### Initial Data Collection and Normalization The source data are scraped public tender documents from the European portal for public procurement, Tenders Electronic Daily (TED), and for the Spanish State Contracting Platform (PLACE). The text is extracted from the original PDF files, performing OCR on the scanned documents. #### Who are the source language producers? Spanish Public administrations. ### Annotations #### Annotation process The documements have been manually annotated with the Prodigy Annotation tool. #### Who are the annotators? Personnel from the Language Technologies Unit at the Barcelona Supercomputing Center ### Personal and Sensitive Information No personal or sensitive information included. ## Considerations for Using the Data ### Social Impact of Dataset [N/A] ### Discussion of Biases [N/A] ### Other Known Limitations [N/A] ## Additional Information ### Dataset Curators Language Technologies Unit at the Barcelona Supercomputing Center (langtech@bsc.es). This work has been promoted and financed by the European Commission Health and Digital Executive Agency, Connecting Europe Facility, Grant Agreement Nº INEA/CEF/ICT/A2020/2373713 Action Title Open Harmonized and Enriched Procurement Data Platform (nextProcurement) Action number 2020-ES-IA-0255 ### Licensing Information This work is licensed under a [Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/deed.en). ### Citation Information [N/A] ### Contributions [N/A]

# NextProcurement-NER-Spanish-UTE-Company-annotated 数据集卡片 ## 数据集描述 - **联系人**:langtech@bsc.es ### 数据集摘要 本数据集采用IOB2标注格式,包含公共招标文本中临时企业联合体(UTE,Unión Temporal de Empresas)与独立企业实体的标注信息。所标注的文档均通过光学字符识别(Optical Character Recognition, OCR)从PDF文件中提取文本所得,存在相应的转录误差。本次标注使用的标签为`UTE`(共出现656次)与`SINGLE_COMPANY`(共出现530次)。 ### 支持任务与排行榜 词元分类(Token classification) ### 语言说明 本数据集采用加泰罗尼亚语编写,语言标识为`es-ES`。 ## 数据集结构 ### 数据实例 En O resumen O , O la O documentación O técnica O presentada O por O el O solicitante O VIAS B-SINGLE_COMPANY Y I-SINGLE_COMPANY CONSTRUCCIONES I-SINGLE_COMPANY , I-SINGLE_COMPANY S.A. I-SINGLE_COMPANY , O ha O obtenido O una O valoración O total O ( O Vt O ) O de O : O 25,10 O puntos O . O La O puntuación O total O ( O Pt O ) O es O de O 31,78 O puntos O . O ### 数据字段 [无] ### 数据划分 本数据集仅包含单个文件。 ## 数据集构建 ### 源数据 #### 初始数据收集与归一化 源数据为从欧洲公共采购门户网站**电子招标日报(Tenders Electronic Daily, TED)**与西班牙国家政府采购平台(PLACE)爬取的公共招标文档。文本通过对扫描版PDF文件执行光学字符识别(OCR)提取得到。 #### 源文本创作者 西班牙公共行政部门。 ### 标注信息 #### 标注流程 本数据集文档已通过Prodigy标注工具完成人工标注。 #### 标注人员 巴塞罗那超级计算中心(Barcelona Supercomputing Center)语言技术部门的工作人员。 ### 个人与敏感信息说明 本数据集未包含任何个人或敏感信息。 ## 数据使用注意事项 ### 数据集社会影响 [无] ### 偏倚讨论 [无] ### 其他已知局限性 [无] ## 附加信息 ### 数据集维护方 巴塞罗那超级计算中心语言技术部门(langtech@bsc.es)。 本项目由欧盟委员会健康与数字执行局、欧洲互联互通基金资助,资助协议编号为INEA/CEF/ICT/A2020/2373713,项目名称为“开放协调与丰富采购数据平台(nextProcurement)”,项目编号为2020-ES-IA-0255。 ### 许可信息 本作品采用署名4.0国际(Attribution 4.0 International)许可协议,详情可访问:https://creativecommons.org/licenses/by/4.0/deed.en。 ### 引用信息 [无] ### 贡献说明 [无]
提供机构:
maas
创建时间:
2025-01-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作