FERRAMENTA PARA EXTRAÇÃO DE INFORMAÇÕES DE PORTAIS DE TRANSPARÊNCIA PÚBLICA DISPOSTAS EM FORMATO NÃO ABERTO

Autores

  • Evandro Henrique Couto de Paula Instituto Federal de Educação, Ciência e Tecnologia de São Paulo

Resumo

O trabalho desenvolvido busca criar uma ferramenta que seja capaz de coletar as informações e documentos dos portais de transparência dos municípios brasileiros que se encontram em formatos não abertos ou não manipuláveis por máquinas, especialmente o HTML e PDF, formatos estes muito utilizados pelos municípios pela facilidade encontrada para se trabalhar com os mesmos, porém dificultando muito a manipulação e reutilização dos dados presentes nos documentos. A ferramenta tem como objetivo manipular e extrair dados abertos governamentais encontrados em formatos PDF e HTML, com foco em dados tabulares, fazendo uso da linguagem de programação Java e bibliotecas externas JSOUP e PDFBox, para que desta forma as informações possam ser manipuladas e extraídas dos documentos e devolvidas em formato CSV, contrastando com os formatos antes não abertos.

Downloads

Publicado

31.12.2018