SESAME – SELF-SUPERVISED FRAMEWORK FOR EXTRACTIVE QUESTION ANSWERING OVER DOCUMENT COLLECTIONS

Documento

Tese_Doutorado___SESAME_Vitor_Alcantara_Batista

Baixar

Informações da Tese

Título

SESAME - SELF-SUPERVISED FRAMEWORK FOR EXTRACTIVE QUESTION ANSWERING OVER DOCUMENT COLLECTIONS

Autor

Vitor Alcântara Batista

Resumo

Responder perguntas é uma tarefa essencial no Processamento de Linguagem Natural e tem avançado rapidamente devido à proliferação de conjuntos de dados e tecnologias de modelos generativos. Esta tese apresenta o SESAME, um Framework de aprendizado auto-supervisionado para responder perguntas sobre Coleções pri-vadas de documentos. O SESAME aprimora os sistemas de perguntas e respostas de domínio aberto (ODQA) ao empregar técnicas de adaptação de domínio us-ando conjuntos de dados sintéticos, sem necessidade de anotação manual de da-dos, permitindo respostas eﬁcientes em coleções de documentos privados enquanto minimiza o uso de recursos computacionais. O framework integra os recentes e modernos Modelos de Linguagem Grandes com uma abordagem híbrida para recu-peração de informação nas coleções de documentos. Experimentos em conjuntos de dados como Machine Reading for Question Answering (MRQA) 2019 Shared Task, FAQuAD, Wikipedia e Retrieval-Augmented Generation Benchmark demonstram que o SESAME melhora signiﬁcativamente o desempenho dos modelos base, gen-eralizando de forma eﬁcaz entre domínios e idiomas. O SESAME supera sistemas estado da arte em tarefas de resposta a perguntas enquanto mantém baixos os cus-tos computacionais. Como ferramenta de código aberto, o SESAME assegura a reproducibilidade, todos os códigos, conjuntos de dados e resultados disponibiliza-dos publicamente em nosso repositório.

Abstract

Question Answering is one of the most relevant areas in the ﬁeld of Natural Language Processing, rapidly evolving with promising results due to the increas-ing availability of suitable datasets and the advent of new technologies, such as Generative Models. This thesis introduces SESAME, a Self-supervised framework for Extractive queStion Answering over docuMent collEctions. SESAME aims to enhance open-domain question answering systems (ODQA) by leveraging domain adaptation with synthetic datasets, enabling eﬃcient question answering over private document collections with low resource usage. The framework incorporates recent advances with Large Language Models, and an eﬃcient hybrid method for context retrieval. We conducted several sets of experiments with the Machine Reading for Question Answering (MRQA) 2019 Shared Task datasets, FAQuAD - a Brazilian Portuguese reading comprehension dataset, Wikipedia, and Retrieval-Augmented Generation Benchmark, to demonstrate SESAME’s eﬀectiveness. The results indi-cate that SESAME’s domain adaptation using synthetic data signiﬁcantly improves QA performance, generalizes across diﬀerent domains and languages, and competes with or surpasses state-of-the-art systems in ODQA. Finally, SESAME is an open-source tool, and all code, datasets and experimental data are available for public use in our repository.

Ano

2025

Orientadores

Alexandre Gonçalves Evsukoff

Anexos

Título

Autor

Resumo

Abstract

Ano

Orientadores

PEC

Acadêmicos

Contato

Todos os direitos reservados PROGRAMA DE ENGENHARIA CIVIL - COPPE/UFRJ © 2026

Desenvolvido por Digimaster Informática