580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR
  • Avisos
  • Destaques
    • Notícias e Eventos
    • Premiações
    • Calendário de Defesas
  • Ensino
    • Normas e Regulamentos
    • Formulários
    • Disciplinas
      • Catálogo
      • Oferta por Período
      • Instruções para Inscrição em Disciplinas
    • Áreas de Concentração
      • Estruturas e Materiais
      • Geotecnia
      • Mecânica Computacional
      • Petróleo, Gás e Energias Renováveis
      • Recursos Hídricos e Meio Ambiente
      • Sistemas Computacionais
    • Laboratórios
    • Calendário Acadêmico
  • Editais
    • Bolsas PEC
    • PDSE
    • PIPD
    • Capes-PrInt
    • Oportunidades de Bolsas
  • Links Úteis
  • Quem Somos
    • Equipe
    • Docentes
    • Ex-Docentes
    • Biblioteca
  • Acadêmicos
  • Publicações
    • Dissertações de Mestrado
    • Teses de Doutorado
  • Admissões
    • Mestrado
    • Doutorado
    • Pós-Doutorado
    • Docente
    • Sistema Selection
  • Contato
✕

PETROVEC: DESENVOLVIMENTO E AVALIAÇÃO DE MODELOS VETORIAIS DE PALAVRAS EM PORTUGUÊS PARA O DOMÍNIO DE ÓLEO E GÁS

Documento

  • Petrovec-Tese-Diogo Magalhaes
    Baixar

Informações da Tese

Título

PETROVEC: DESENVOLVIMENTO E AVALIAÇÃO DE MODELOS VETORIAIS DE PALAVRAS EM PORTUGUÊS PARA O DOMÍNIO DE ÓLEO E GÁS

Autor

Diogo da Silva Magalhães Gomes

Resumo

Este trabalho apresenta o PetroVec: um conjunto de modelos vetoriais de palavras em português especializados no domínio de Óleo e Gás. Para viabilizar o treinamento dos modelos, criamos um corpus representativo do domínio, composto por uma extensa coleção de documentos técnicos e acadêmicos publicados em português por Universidades e instituições de referência na indústria nacional de petróleo. O corpus especializado contempla mais de 85 milhões de tokens e representa o maior conjunto textual público atualmente reportado na literatura científica para o domínio de Óleo e Gás.
Os modelos são submetidos a uma abrangente cobertura de avaliações, contemplando metodologias quantitativas baseadas em análises intrínseca e extrínseca, além de uma série de análises qualitativas para explorar propriedades linguísticas codificadas no espaço semântico dos modelos. A análise intrínseca foi realizada a partir da criação de um dataset de similaridade semântica composto por 1500 pares de termos anotados por especialistas em geociências, enquanto a análise extrínseca consistiu na aplicação prática dos modelos em uma tarefa de reconhecimento de entidades nomeadas no subdomínio de geologia. Adicionalmente, realizamos análises comparativas dos nossos resultados em relação a um modelo público de contexto geral de referência em português. Nossas análises convergem ao evidenciar que os modelos PetroVec apresentam resultados consistentemente superiores ao modelo público de referência em todas as avaliações, sugerindo que os modelos especializados são capazes de automaticamente capturar propriedades sintáticas e semânticas específicas do vocabulário técnico de domínio de maneira não-supervisionada a partir do corpus de treinamento.

Abstract

This work presents PetroVec, a set of word embedding models in Portuguese for the O&G domain. To make model training feasible, we created a specialized corpus composed of a vast collection of technical and scientific documents, published in Portuguese by Universities and major institutions from national petroleum-related industry. The specialized corpus comprises about 85 million tokens and it is currently the largest public textual resource ever reported for the O&G domain. Our specialized models are thoroughly evaluated, comprising quantitative methodologies based on intrinsic and extrinsic approaches, in addition to a series of qualitative analyses to explore linguistic properties encoded in the models’ semantic space. The intrinsic evaluation is performed by creating a semantic similarity dataset composed of 1500 pairs of terms labeled by experts in geosciences, whereas the extrinsic evaluation consists of a downstream task for named entity recognition in the Geology subdomain. Furthermore, we conducted a comprehensive analysis comparing our models and a pre-trained general-domain model in Portuguese. Our findings confirm that PetroVec consistently outperforms the general-context reference model, suggesting that our models were able to automatically capture syntactic and semantic vocabulary-specific properties from the specialized training corpus.

Ano

2021

Orientadores

Alexandre Gonçalves Evsukoff

Anexos

Logo-Simplificada-da-Coppe-Negativa-1-scaled

PEC

  • Quem Somos
    • Equipe
    • Docentes
    • Ex-Docentes
    • Biblioteca
  • Acadêmicos
  • Publicações
    • Dissertações de Mestrado
    • Teses de Doutorado
  • Admissões
    • Mestrado
    • Doutorado
    • Pós-Doutorado
    • Docente
    • Sistema Selection
  • Contato

Acadêmicos

  • Avisos
  • Destaques
    • Notícias e Eventos
    • Premiações
    • Calendário de Defesas
  • Ensino
    • Normas e Regulamentos
    • Formulários
    • Disciplinas
      • Catálogo
      • Oferta por Período
      • Instruções para Inscrição em Disciplinas
    • Áreas de Concentração
      • Estruturas e Materiais
      • Geotecnia
      • Mecânica Computacional
      • Petróleo, Gás e Energias Renováveis
      • Recursos Hídricos e Meio Ambiente
      • Sistemas Computacionais
    • Laboratórios
    • Calendário Acadêmico
  • Editais
    • Bolsas PEC
    • PDSE
    • PIPD
    • Capes-PrInt
    • Oportunidades de Bolsas
  • Links Úteis

Contato

Av. Athos da Silveira Ramos, 149 – Bloco B, Sala B-101 Cidade Universitária, Rio de Janeiro – RJ, 21941-909
(21) 3938-1569
academica@coc.ufrj.br

Todos os direitos reservados PROGRAMA DE ENGENHARIA CIVIL - COPPE/UFRJ © 2026

Desenvolvido por Digimaster Informática

  • Não há traduções disponíveis para esta página.