Pular para o conteúdo principal

Artigo: Um Desenvolvedor de 20 Anos, 79 Bases de Dados e o Elefante na Sala da Transparência Brasileira

Artigo: Um Desenvolvedor de 20 Anos, 79 Bases de Dados e o Elefante na Sala da Transparência Brasileira
Na última semana de fevereiro, um post no X (antigo Twitter) acumulou mais de 4,5 milhões de visualizações em poucas horas.

Na última semana de fevereiro, um post no X (antigo Twitter) acumulou mais de 4,5 milhões de visualizações em poucas horas. O autor, Bruno César [ x.com/brunoclz ] , de 20 anos, mostrava screenshots de uma ferramenta que prometia cruzar dezenas de bases públicas brasileiras para identificar padrões de risco em transações de agentes públicos. O CPF do político entrava de um lado; do outro, saía um grafo conectando emendas parlamentares, contratos, CNPJs de familiares e possíveis inconsistências patrimoniais.

A reação foi imediata. De um lado, entusiasmo: finalmente alguém conectou os pontos que o próprio Estado não consegue ou não quer conectar. Do outro, ceticismo técnico: a comunidade de desenvolvedores rapidamente identificou que os dados exibidos eram simulados. Mock data. A demonstração que viralizou não refletia outputs reais da ferramenta.

Bruno se defendeu: "Ninguém espera que um print no Twitter tome essa proporção. Postei que os dados eram mock, mas não parece ter adiantado."

Ele tem razão e está errado ao mesmo tempo. A retratação alcançou uma fração da audiência original. Mas o ponto mais interessante não é o erro de comunicação de um jovem desenvolvedor. É o que o episódio inteiro revela sobre o estado da transparência pública no Brasil e sobre quem está realmente preparado para lidar com ela.

1. O problema é real, e o Estado não resolveu


Trabalho com tecnologia aplicada ao setor público há mais de duas décadas. Em 2011, quando a Lei de Acesso à Informação (LAI Lei nº 12.527/2011) ainda estava sendo regulamentada, participei da equipe que entregou uma das primeiras APIs de dados abertos municipais do país, aqui em Campinas. Naquela época, acreditávamos que disponibilizar dados era o gargalo. Resolvido isso, a sociedade faria o resto.

Quinze anos depois, os dados existem. O Portal da Transparência federal tem API documentada. O TSE publica candidaturas, doações e prestações de contas em CSV. A Receita libera a base completa de CNPJs. O CNJ abriu o DataJud. São dezenas de bases, milhões de registros, terabytes de informação pública.

Mas quem já tentou cruzar dados do SIAFI com informações do TSE e registros da Receita sabe que o inferno não está na disponibilidade está na integração. Encodings incompatíveis, CNPJs com formatações distintas, nomes grafados de três formas diferentes, timestamps em fusos horários que ninguém documenta. A informação é tecnicamente pública, mas praticamente inacessível para quem não tem equipe técnica dedicada.

O que Bruno tentou fazer consolidar 79 bases em um único grafo consultável é exatamente o que deveria existir como infraestrutura pública. Não existe. Um desenvolvedor de 20 anos, com um servidor de 128 GB de RAM e acesso às mesmas APIs que qualquer cidadão, chegou mais longe em algumas semanas do que a maioria dos órgãos de controle em anos.

Isso não é mérito apenas dele. É sintoma de uma burocracia que trata integração de dados como problema de TI, quando é problema de arquitetura institucional.

2. A ferramenta tem substância, mas a comunicação comprometeu a credibilidade


Vamos ser justos com o projeto. O repositório que Bruno publicou no GitHub em 1º de março não é vaporware. São 45 módulos de ETL implementados, infraestrutura de grafo em Neo4j, schema documentado e superfície de consulta funcional. O README é honesto: "Não interpreta, pontua ou classifica resultados apenas exibe conexões e deixa os usuários tirarem suas próprias conclusões."

Esse disclaimer é importante. E é diferente do que os screenshots originais mostravam "97% de confiança", "R$ 89 milhões em irregularidades", scores de risco com casas decimais. A demonstração vendia uma ferramenta de compliance corporativo. O código entrega uma infraestrutura de visualização de grafos.

São coisas diferentes. A primeira implica um modelo estatístico validado, com taxa de falsos positivos conhecida e metodologia auditável. A segunda é útil, mas não faz inferências apenas mostra conexões que já existem nos dados públicos.

O erro de Bruno foi de comunicação, não de capacidade técnica. Aos 20 anos, com passagem por BTG Pactual e Sphere Labs, ele claramente sabe construir software. O que talvez ainda não tenha aprendido é que em civic tech diferente de uma startup B2B a moeda principal não é o produto. É a confiança. E confiança não sobrevive a screenshots com dados fictícios apresentados como se fossem reais.

Dito isso, prefiro um desenvolvedor jovem que erra na comunicação e depois publica código auditável do que uma instituição que acerta no discurso e nunca entrega nada.

3. O verdadeiro risco não é a ferramenta é a qualidade dos dados que ela consome


Aqui está o ponto que pouca gente discutiu, e que deveria preocupar gestores públicos e privados igualmente.

Uma ferramenta que cruza 79 bases de dados vai herdar todas as inconsistências dessas 79 bases. Cadastros desatualizados viram conexões fantasmas. CNPJs encerrados que ainda aparecem em contratos viram "indícios de irregularidade". Homônimos viram acusações. A ferramenta não inventa dados mas dados ruins geram inferências erradas.

Isso cria um problema novo para a administração pública. Até agora, a fragmentação das bases era uma proteção involuntária: ninguém conseguia cruzar tudo, então ninguém via as inconsistências. Com ferramentas como a do Bruno que vão se multiplicar, inevitavelmente cada registro errado vira um potencial falso positivo. Cada dado desatualizado vira munição para acusações infundadas.

Órgãos públicos que ainda tratam qualidade de dados como assunto secundário vão descobrir, da pior forma possível, que seus cadastros podres são uma bomba relógio reputacional. Não porque os dados sejam secretos são públicos. Mas porque agora qualquer pessoa pode cruzá-los e publicar "padrões de risco" no Twitter.

A recomendação aqui é direta: se você é gestor público, comece a monitorar seus próprios dados com os mesmos olhos que uma ferramenta de cruzamento usaria. Identifique inconsistências antes que alguém de fora as encontre e tire conclusões erradas ou certas que você não terá tempo de explicar.

4. Empresas privadas não estão imunes


O mesmo raciocínio se aplica ao setor privado, em duas frentes.

Primeiro, empresas que publicam dados relatórios de ESG, informações para CVM, balanços auditados precisam entender que esses dados serão cruzados. Não por reguladores, necessariamente. Por desenvolvedores independentes, jornalistas investigativos, fundos de investimento com ferramentas próprias de due diligence. A era em que cada relatório existia isolado acabou. Inconsistências entre o que você declara na CVM e o que aparece em outras bases públicas serão encontradas.

Segundo, empresas que contratam com o setor público fornecedores, prestadores de serviço, parceiros de convênios deveriam usar ferramentas similares para monitorar o ecossistema em que operam. Saber se seu cliente público está em bases de risco do TCU, se há padrões atípicos em licitações que você venceu, se existem conexões societárias que você desconhece. O compliance deixou de ser uma função defensiva. É inteligência competitiva.

O br/acc, com todos os seus problemas de comunicação, abre uma porta que não vai fechar. A infraestrutura de cruzamento de dados públicos vai se comoditizar. A pergunta não é se essas ferramentas vão existir é se você vai usá-las antes que usem contra você.

O que fica


Bruno César é um desenvolvedor talentoso que cometeu um erro de julgamento na comunicação do seu projeto. O erro não invalida o trabalho técnico, mas atrasa a construção de credibilidade que iniciativas de civic tech precisam desesperadamente.

O projeto br/acc, em si, é uma das tentativas mais ambiciosas de infraestrutura de transparência que surgiram no ecossistema brasileiro nos últimos anos. Se sobreviver à crise de credibilidade inicial e passar por auditoria independente, pode se tornar uma referência. Se não, terá pelo menos inspirado outros projetos como o "Extra Teto" para supersalários do Judiciário que já estão surgindo na esteira da viralização.

O recado mais importante, porém, não é sobre o Bruno ou sobre o br/acc. É sobre o que acontece quando a sociedade civil consegue fazer, com ferramentas acessíveis e dados públicos, o que instituições com orçamentos bilionários não entregam.

A transparência brasileira avançou muito desde 2011. Mas a próxima fronteira não é apenas publicar mais dados é integrá-los de forma que façam sentido. Se o Estado não fizer isso, cidadãos com servidores de 128 GB de RAM farão. E aí a narrativa não será mais controlada por quem publica os dados.

Será controlada por quem souber lê-los.