SESAME – SELF-SUPERVISED FRAMEWORK FOR EXTRACTIVE QUESTION ANSWERING OVER DOCUMENT COLLECTIONS
Documento
Informações da Tese
Título
SESAME - SELF-SUPERVISED FRAMEWORK FOR EXTRACTIVE QUESTION ANSWERING OVER DOCUMENT COLLECTIONS
Autor
Vitor Alcântara Batista
Resumo
Responder perguntas é uma tarefa essencial no Processamento de Linguagem Natural e tem avançado rapidamente devido à proliferação de conjuntos de dados e tecnologias de modelos generativos. Esta tese apresenta o SESAME, um Framework de aprendizado auto-supervisionado para responder perguntas sobre Coleções pri-vadas de documentos. O SESAME aprimora os sistemas de perguntas e respostas de domínio aberto (ODQA) ao empregar técnicas de adaptação de domínio us-ando conjuntos de dados sintéticos, sem necessidade de anotação manual de da-dos, permitindo respostas eficientes em coleções de documentos privados enquanto minimiza o uso de recursos computacionais. O framework integra os recentes e modernos Modelos de Linguagem Grandes com uma abordagem híbrida para recu-peração de informação nas coleções de documentos. Experimentos em conjuntos de dados como Machine Reading for Question Answering (MRQA) 2019 Shared Task, FAQuAD, Wikipedia e Retrieval-Augmented Generation Benchmark demonstram que o SESAME melhora significativamente o desempenho dos modelos base, gen-eralizando de forma eficaz entre domínios e idiomas. O SESAME supera sistemas estado da arte em tarefas de resposta a perguntas enquanto mantém baixos os cus-tos computacionais. Como ferramenta de código aberto, o SESAME assegura a reproducibilidade, todos os códigos, conjuntos de dados e resultados disponibiliza-dos publicamente em nosso repositório.
Abstract
Question Answering is one of the most relevant areas in the field of Natural Language Processing, rapidly evolving with promising results due to the increas-ing availability of suitable datasets and the advent of new technologies, such as Generative Models. This thesis introduces SESAME, a Self-supervised framework for Extractive queStion Answering over docuMent collEctions. SESAME aims to enhance open-domain question answering systems (ODQA) by leveraging domain adaptation with synthetic datasets, enabling efficient question answering over private document collections with low resource usage. The framework incorporates recent advances with Large Language Models, and an efficient hybrid method for context retrieval. We conducted several sets of experiments with the Machine Reading for Question Answering (MRQA) 2019 Shared Task datasets, FAQuAD - a Brazilian Portuguese reading comprehension dataset, Wikipedia, and Retrieval-Augmented Generation Benchmark, to demonstrate SESAME’s effectiveness. The results indi-cate that SESAME’s domain adaptation using synthetic data significantly improves QA performance, generalizes across different domains and languages, and competes with or surpasses state-of-the-art systems in ODQA. Finally, SESAME is an open-source tool, and all code, datasets and experimental data are available for public use in our repository.
Ano
2025
Orientadores
Alexandre Gonçalves Evsukoff
