580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR580x138xLOGO-CAPA.png.pagespeed.ic.0TTOfb2dnR
  • Avisos
  • Destaques
    • Notícias e Eventos
    • Premiações
    • Calendário de Defesas
  • Ensino
    • Normas e Regulamentos
    • Formulários
    • Disciplinas
      • Catálogo
      • Oferta por Período
      • Instruções para Inscrição em Disciplinas
    • Áreas de Concentração
      • Estruturas e Materiais
      • Geotecnia
      • Mecânica Computacional
      • Petróleo, Gás e Energias Renováveis
      • Recursos Hídricos e Meio Ambiente
      • Sistemas Computacionais
    • Laboratórios
    • Calendário Acadêmico
  • Editais
    • Bolsas PEC
    • PDSE
    • PIPD
    • Capes-PrInt
    • Oportunidades de Bolsas
  • Links Úteis
  • Quem Somos
    • Equipe
    • Docentes
    • Ex-Docentes
    • Biblioteca
  • Acadêmicos
  • Publicações
    • Dissertações de Mestrado
    • Teses de Doutorado
  • Admissões
    • Mestrado
    • Doutorado
    • Pós-Doutorado
    • Docente
    • Sistema Selection
  • Contato
✕

SESAME – SELF-SUPERVISED FRAMEWORK FOR EXTRACTIVE QUESTION ANSWERING OVER DOCUMENT COLLECTIONS

Documento

  • Tese_Doutorado___SESAME_Vitor_Alcantara_Batista
    Baixar

Informações da Tese

Título

SESAME - SELF-SUPERVISED FRAMEWORK FOR EXTRACTIVE QUESTION ANSWERING OVER DOCUMENT COLLECTIONS

Autor

Vitor Alcântara Batista

Resumo

Responder perguntas é uma tarefa essencial no Processamento de Linguagem Natural e tem avançado rapidamente devido à proliferação de conjuntos de dados e tecnologias de modelos generativos. Esta tese apresenta o SESAME, um Framework de aprendizado auto-supervisionado para responder perguntas sobre Coleções pri-vadas de documentos. O SESAME aprimora os sistemas de perguntas e respostas de domínio aberto (ODQA) ao empregar técnicas de adaptação de domínio us-ando conjuntos de dados sintéticos, sem necessidade de anotação manual de da-dos, permitindo respostas eficientes em coleções de documentos privados enquanto minimiza o uso de recursos computacionais. O framework integra os recentes e modernos Modelos de Linguagem Grandes com uma abordagem híbrida para recu-peração de informação nas coleções de documentos. Experimentos em conjuntos de dados como Machine Reading for Question Answering (MRQA) 2019 Shared Task, FAQuAD, Wikipedia e Retrieval-Augmented Generation Benchmark demonstram que o SESAME melhora significativamente o desempenho dos modelos base, gen-eralizando de forma eficaz entre domínios e idiomas. O SESAME supera sistemas estado da arte em tarefas de resposta a perguntas enquanto mantém baixos os cus-tos computacionais. Como ferramenta de código aberto, o SESAME assegura a reproducibilidade, todos os códigos, conjuntos de dados e resultados disponibiliza-dos publicamente em nosso repositório.

Abstract

Question Answering is one of the most relevant areas in the field of Natural Language Processing, rapidly evolving with promising results due to the increas-ing availability of suitable datasets and the advent of new technologies, such as Generative Models. This thesis introduces SESAME, a Self-supervised framework for Extractive queStion Answering over docuMent collEctions. SESAME aims to enhance open-domain question answering systems (ODQA) by leveraging domain adaptation with synthetic datasets, enabling efficient question answering over private document collections with low resource usage. The framework incorporates recent advances with Large Language Models, and an efficient hybrid method for context retrieval. We conducted several sets of experiments with the Machine Reading for Question Answering (MRQA) 2019 Shared Task datasets, FAQuAD - a Brazilian Portuguese reading comprehension dataset, Wikipedia, and Retrieval-Augmented Generation Benchmark, to demonstrate SESAME’s effectiveness. The results indi-cate that SESAME’s domain adaptation using synthetic data significantly improves QA performance, generalizes across different domains and languages, and competes with or surpasses state-of-the-art systems in ODQA. Finally, SESAME is an open-source tool, and all code, datasets and experimental data are available for public use in our repository.

Ano

2025

Orientadores

Alexandre Gonçalves Evsukoff

Anexos

Logo-Simplificada-da-Coppe-Negativa-1-scaled

PEC

  • Quem Somos
    • Equipe
    • Docentes
    • Ex-Docentes
    • Biblioteca
  • Acadêmicos
  • Publicações
    • Dissertações de Mestrado
    • Teses de Doutorado
  • Admissões
    • Mestrado
    • Doutorado
    • Pós-Doutorado
    • Docente
    • Sistema Selection
  • Contato

Acadêmicos

  • Avisos
  • Destaques
    • Notícias e Eventos
    • Premiações
    • Calendário de Defesas
  • Ensino
    • Normas e Regulamentos
    • Formulários
    • Disciplinas
      • Catálogo
      • Oferta por Período
      • Instruções para Inscrição em Disciplinas
    • Áreas de Concentração
      • Estruturas e Materiais
      • Geotecnia
      • Mecânica Computacional
      • Petróleo, Gás e Energias Renováveis
      • Recursos Hídricos e Meio Ambiente
      • Sistemas Computacionais
    • Laboratórios
    • Calendário Acadêmico
  • Editais
    • Bolsas PEC
    • PDSE
    • PIPD
    • Capes-PrInt
    • Oportunidades de Bolsas
  • Links Úteis

Contato

Av. Athos da Silveira Ramos, 149 – Bloco B, Sala B-101 Cidade Universitária, Rio de Janeiro – RJ, 21941-909
(21) 3938-1569
academica@coc.ufrj.br

Todos os direitos reservados PROGRAMA DE ENGENHARIA CIVIL - COPPE/UFRJ © 2026

Desenvolvido por Digimaster Informática

  • Não há traduções disponíveis para esta página.