Episódio 06 de 2025.2 — A Arte da Faxina: Limpeza, Ética e Automação de Dados Textuais Jurídicos
Description
Neste episódio, Tony e Diana exploram um dos temas mais fundamentais — e subestimados — no desenvolvimento de soluções com LLMs: a preparação e limpeza de dados textuais, com foco especial no domínio jurídico. A dupla mostra como esse processo é bem mais do que “tirar o lixo”; é garantir qualidade, ética e eficiência desde a origem dos dados.
Entre os tópicos discutidos:
Como lidar com ruído estrutural, inconsistência, viés, escala e privacidade;
A importância da preservação do contexto jurídico e do papel inegociável da validação humana;
Como construir pipelines modulares e automatizados usando ferramentas como spaCy, NLTK, Hugging Face, Scikit-learn, Apache Spark, Dask, Airflow, entre outras;
Estratégias para alcançar anonimização robusta, vetorização eficiente, paralelização e retraining contínuo.
Este episódio é um guia completo para profissionais que desejam transformar a “faxina de dados” em um processo vivo, sustentável e escalável — e não apenas em uma etapa pontual de projeto.
🧠 O episódio foi gerado com apoio de Inteligência Artificial a partir do debate coletivo entre professor, monitores e alunos, ocorrido na plataforma strateegia.digital, durante a disciplina IF1006 - TÓPICOS AVANÇADOS EM SISTEMAS DE INFORMAÇÃO 3 do curso de Bacharelado em Sistemas de Informação do Centro de Informática da UFPE no semestre 2025.2.