No mês passado, o GOV.UK divulgou discretamente os resultados do seu teste com o assistente de programação baseado em IA. Sem alarido. Sem conferência de imprensa ministerial. Apenas dados concretos que mostram que mais de 1 000 programadores em 50 departamentos pouparam quase uma hora por dia ao utilizarem ferramentas de IA.
Depois de escrever sobre o fiasco do Microsoft Copilot, que custou 54 000 libras e proporcionou ganhos de produtividade «extremamente reduzidos», isto pareceu-me um pouco diferente. O mesmo governo que fracassou na implementação de uma IA numa área conseguiu, simultaneamente, acertar em cheio noutra.
Então, o que é que eles fizeram de diferente?
O período de testes do AI Coding Assistant (AICA) decorreu entre novembro de 2024 e fevereiro de 2025. Ao contrário da abordagem indiscriminada do Copilot, esta foi direcionada: foram oferecidas 2 500 licenças a programadores que realmente ganham a vida a programar. Os resultados foram significativos.
A poupança de tempo foi, em média, de 56 minutos por dia útil. Isso equivale a 28 dias úteis poupados por programador por ano. Não são 2,2 horas por semana, como noutros ensaios, mas sim quase uma hora por dia.
Mais importante ainda, os indicadores de satisfação revelaram uma realidade diferente:
- 72 % afirmaram que as ferramentas representavam uma boa relação qualidade/preço para a sua organização
- 58 % não gostariam de voltar a trabalhar sem a ajuda da IA
- 65% concluíram as tarefas mais rapidamente, 56% resolveram os problemas de forma mais eficiente
Compare isso com o período de teste geral do Copilot, em que apenas 30% o utilizavam diariamente e a maioria não conseguia perceber quando a IA estava a inventar coisas.
O que acertaram: os fundamentos
Escolheram as pessoas certas. Em vez de selecionar funcionários públicos ao acaso e esperar que tudo corresse bem, direcionaram-se aos programadores — pessoas que já tinham conhecimentos sobre revisão de código, depuração e controlo de qualidade. Estes utilizadores possuíam as competências necessárias para avaliar criticamente os resultados da IA.
Escolheram as ferramentas adequadas. O GitHub, o Copilot e o Google Gemini Code Assist não são perfeitos, mas foram concebidos especificamente para tarefas de programação. Estas ferramentas estavam à altura da tarefa, ao contrário dos chatbots de uso geral a quem se pede que revolucionem tudo.
Mediram o que realmente importava. Em vez de promessas vagas de produtividade, acompanharam indicadores específicos: tempo poupado na criação, análise e revisão de código. Os dados revelam que os programadores pouparam 24 minutos por dia apenas na codificação e na análise.
Mantiveram os padrões de qualidade. Apenas 15,8 % do código sugerido pela IA foi aceite sem alterações. Isso demonstra que os programadores estavam a fazer o seu trabalho como deve ser, revendo e melhorando os resultados da IA em vez de os aceitarem cegamente.
O elemento humano preservado
Uma das diferenças mais marcantes deste projeto piloto é que não se procurou substituir os programadores. Em vez disso, o foco centrou-se em potenciar as competências que já possuíam.
Os 39% dos utilizadores que afirmaram ter implementado código sugerido pela IA continuavam a tomar decisões informadas sobre o que aceitar, modificar ou rejeitar. A IA tornou-se um sistema de preenchimento automático sofisticado, e não um programador substituto.
Como afirmam os especialistas da The Gen AI Academy:
«As melhores implementações de IA não eliminam o julgamento humano — proporcionam aos seres humanos uma base de trabalho de melhor qualidade.» Erik Schwartz
«A maioria dos casos de sucesso que tenho observado nas empresas que percorrem este caminho deve-se ao facto de começarem pelos utilizadores, identificando as suas dificuldades ou carências, e capacitando-os, através de formação e orientação, para a adoção das ferramentas adequadas. Com regras básicas e objetivos claros, podem contribuir para o processo e avaliar os resultados em relação a esses objetivos» Hugo MC Pinto
Esta experiência foi bem-sucedida precisamente porque preservou o elemento humano que torna possível o desenvolvimento de software de qualidade: o pensamento crítico, a revisão da qualidade e a compreensão do contexto.
Por que é que isto é importante para além do âmbito governamental
O projeto-piloto de programação oferece um modelo para uma implementação bem-sucedida da IA em qualquer lugar:
Comece por utilizadores experientes. Não espere que a IA transforme, como por magia, pessoas inexperientes em experientes. Atribua-a a pessoas que já compreendam o domínio e sejam capazes de avaliar os resultados.
Adapte as ferramentas às tarefas. Deixe de tentar usar IA genérica para tudo. As ferramentas especializadas funcionam melhor para tarefas especializadas.
Avalie resultados concretos. «Aumento da produtividade» não significa nada. «Poupança de 24 minutos na criação de código» é um dado útil.
É de esperar que haja supervisão humana. Se 85 % dos resultados da IA precisarem de ser editados, isso não é um erro — está a funcionar como previsto.
A verdade incómoda sobre o sucesso da IA
A experiência de programação do governo teve sucesso porque foi simples. Não houve grandes promessas de transformação. Não se falou em substituir departamentos inteiros. Apenas uma pergunta direta: a IA pode ajudar os programadores a escrever código mais rapidamente?
A resposta foi sim, desde que houvesse uma implementação adequada, formação e expectativas realistas.
A maioria das organizações fracassa com a IA porque tenta resolver o problema errado. Querem que a IA resolva as suas disfunções, elimine as suas necessidades de formação ou transforme a sua cultura. O projeto-piloto de programação do governo funcionou porque tinha um objetivo simples: tornar os bons programadores um pouco mais eficientes.
E agora?
Os resultados do ensaio não influenciam futuras aquisições – aparentemente, essa decisão cabe a outras instâncias do governo. No entanto, o sucesso constitui um modelo que outros departamentos (e organizações) deveriam analisar cuidadosamente.
O contraste entre este teste e o fracasso do Copilot reside na implementação, na seleção dos utilizadores e na definição de expectativas realistas e verificáveis sobre o que a IA é realmente capaz de fazer.
Quando escrevi sobre o projeto-piloto do Copilot, várias pessoas perguntaram-me se achava que a IA na administração pública estava condenada ao fracasso. Este projeto-piloto de programação sugere que não é assim – mas o sucesso exige que o trabalho seja feito de forma adequada, em vez de se esperar que a tecnologia, por si só, resolva os problemas organizacionais.
O governo abordou a IA da forma correta, tratando-a como uma ferramenta sofisticada que requer utilizadores qualificados, e não como uma magia capaz de transformar qualquer pessoa num especialista. Essa é uma lição que vale a pena recordar para quem quer que esteja a implementar IA, seja em Whitehall ou na sua startup local.
Helena McAleer é cofundadora da thegenAIacademy.com . Ela coloca em contacto organizações que implementam IA com especialistas do mundo real que sabem como obter resultados da forma correta – e sim, ela ainda usa o travessão!