Fala Gaiotto - Operator – Como Automatizar Tarefas Acessíveis a partir da Navegação pela Web

Bem-viiindos! Que o advento da inteligência artificial ultrapassou consistentemente os limites, ao menos daquilo que era possível imaginar se alcançar tão rápido e de forma acessível, eu concordo plenamente! E é nessa vibe que quero abordar o mais recente lançamento da OpenAI, liberado para utilização por essas bandas desde 21 de fevereiro de 2025, o denominado Operator.

Figura 1: Introdução do Operator da OpenAI, lançado recentemente para uso em território tupiniquim.

O Operator é um agente avançado de IA projetado para automatizar tarefas diretamente a partir dos navegadores da web, oferecendo aos usuários uma maneira simplificada e eficiente de interagir com o mundo digital.

Em sua essência, o Operator funciona usando uma estrutura chamada Computer-Using Agent (CUA), que combina os recursos avançados de raciocínio e as funcionalidades baseadas em visão do modelo GPT-4 da OpenAI. Isso permite que a inteligência artificial simule ou imite as interações humanas com sites, como clicar em botões, preencher formulários, percorrer páginas e até mesmo lidar com fluxos de trabalho complexos. Ao contrário das ferramentas de automação conhecidas, que dependem de APIs ou configurações manuais, o Operator interage diretamente com interfaces gráficas de usuário (GUIs), tornando-o adaptável a uma ampla variedade de ambientes da web.

O Operator não se limita apenas ao uso pessoal; ele tem potencial em aplicações significativas para as empresas que considerando otimizar fluxos de trabalho e aprimorar as experiências na operação do dia a dia e na jornada do cliente. Levando em consideração que a esmagadora maioria das empresas aderiram a Web 3.0, posso citar algumas possibilidades, como p.e., automatizar tarefas como serviços de reserva em hotéis, pesquisas e compras on-line ou operar sistemas internos especializados nas empresas. Considerando o conceito de funcionamento por trás do Operator, me arrisco a considerar que este SaaS fará uma boa parceria com Robotic Process Automator (RPA).

Um pouco além da automatização

Um dos recursos de destaque do Operador é sua capacidade de se autocorrigir e se adaptar. Se encontrar desafios, como CAPTCHA ou requisitos de login, ele poderá solicitar a intervenção do usuário ou utilizar seus recursos de raciocínio para resolver problemas de forma autônoma. Acabo de citar temas que vão de encontro com questões de segurança da informação, mas considerando a intervenção humana isso talvez garanta um equilíbrio entre automação e controle do usuário.

Quando a inteligência artificial encontra um obstáculo, ela não interrompe totalmente o processo. Em vez disso, tenta se autocorrigir analisando o problema e ajustando sua abordagem. Se o problema persistir, o Operator devolve o controle ao usuário, potencializando uma experiência colaborativa. Esse recurso é interessante quando penso em cenários em que as tarefas envolvem várias etapas ou ambientes dinâmicos da Web que podem mudar inesperadamente, considerando alterações de fluxos para chegar ao resultado ou até mesmo formatação ou orientações nas webpages – quem já teve o prazer inenarrável de operar e manter funcionando um conjunto de web-crawlers, saberá do que estou falando. 😉

A solução adaptativa de problemas do Operator é alimentada por técnicas de aprendizado por reforço incorporadas no modelo CUA. Isso permite refinar seu comportamento ao longo do tempo com base no feedback do usuário e nos resultados das tarefas, aumentando sua confiabilidade e eficiência.

Dado que o Operator foi projetado para funcionar diretamente em um navegador da web, podemos nos despreocupar com a necessidade de instalações ou extensões de software especializadas. Essa abordagem aprimora a acessibilidade do agente de inteligência artificial para que possa ser usado em várias plataformas e dispositivos, considerando sua base em browser. O modelo CUA permite que o Operador interprete e interaja com elementos visuais em uma página da web, como imagens, botões e menus suspensos, usando os recursos de visão do GPT-4o.

Com o recurso de interação multimodal é possível lidar com tarefas que exigem compreensão textual e visual, p.e., o Operator pode analisar imagens de produtos em sites de e-commerce, comparar preços e tomar decisões de compra com base em critérios definidos pelo usuário. Além disso, a capacidade de interagir com GUIs estende sua utilidade em tarefas, como navegar em aplicativos complexos da web ou concluir fluxos de trabalho de várias etapas.

A OpenAI reconhece que o Operator, como qualquer tecnologia em estágio inicial, pode não funcionar de forma consistente em todos os cenários. No entanto, a visualização da pesquisa serve como uma etapa crítica para melhorar a confiabilidade da solução e lidar com casos extremos que podem ser desde fugir do escopo esperado, até mesmo seguir um caminho de conclusão inesperado, como p.e., a confirmação de uma transação indesejada.

Como o operador automatiza tarefas baseadas na Web

O Operator se destaca por dividir tarefas complexas em etapas menores e gerenciáveis, executando-as sequencialmente, mantendo a flexibilidade para se adaptar a cenários inesperados. Esse recurso é alimentado por seus algoritmos de aprendizado por reforço, que permitem retroceder e tentar novamente ao encontrar obstáculos lógicos, como p.e., ao reservar um voo, o Operator pode lidar com processos que envolvem várias etapas, como selecionar datas, escolher assentos e inserir detalhes de pagamento. Se ocorrer um erro, como um tempo limite (time-out) para realização do pagamento, o Operator poderá identificar o problema, repetir a etapa ou notificar o usuário para intervenção manual.

Essa execução sequencial de tarefas é uma melhoria significativa em relação às ferramentas de automação conhecidas, que geralmente falham ao encontrar mudanças inesperadas no ambiente da web. A capacidade de adaptação do Operator se mostra ter potencial sucesso para fluxos de trabalho complexos.

Vale falar um pouco mais sobre os recursos de multimodais do modelo do Operator, pois permitem que ele processe informações textuais e visuais simultaneamente. Esse recurso é particularmente útil para tarefas que exigem compreensão contextual de imagens e texto, como p.e., ao comparar opções de hotéis, o Operator pode analisar imagens de quartos, ler avaliações de usuários e avaliar detalhes de preços para recomendar a melhor opção com base em critérios definidos pelo usuário. Ao contrário das soluções existentes que dependem exclusivamente de entradas baseadas em texto, a capacidade do Operator de interpretar dados visuais aprimora suas capacidades de tomada de decisão. Isso o torna adequado para tarefas como analisar imagens de produtos em sites de comércio eletrônico ou verificar elementos visuais em envios de formulários.

Considerações éticas e de segurança da informação

Dadas suas capacidades avançadas, o Operator apresenta novos desafios de segurança da informação, particularmente nas áreas de uso indevido de informações e riscos de fronteira de uso e acessos. Entretanto, vale destacar algumas salvaguardas observadas para lidar com essas preocupações, incluindo testes de segurança e o desenvolvimento de estratégias de mitigação, como p.e., o Operator foi projetado para operar dentro de limites éticos predefinidos, garantindo que não se envolva em atividades prejudiciais ou não autorizadas, o que pode ser considerado um paralelo as instruções de alinhamento e guardrails dos modelos de linguagem.

Em todo caso, apesar das medidas de segurança, o Operator não está imune a ameaças, como ataques de injeção imediata. Esses ataques exploram os recursos de processamento do modelo de linguagem da inteligência artificial para manipular seu comportamento, potencialmente levando a ações não autorizadas. O pesquisador de segurança cibernética Johann Rehberger demonstrou como o Operator pode ser induzido a extrair informações pessoais, como endereços de e-mail e números de telefone, de contas autenticadas.

Embora o Operator possa executar tarefas de forma autônoma, ele oferece aos usuários a opção de intervir ou substituir suas ações a qualquer momento. Essa abordagem colaborativa aumenta a confiança do usuário e minimiza o risco de consequências não intencionais. À medida que o Operator continua a evoluir, planos para fortalecer ainda mais seus protocolos de segurança e explorar novos métodos para garantir a implantação ética da inteligência artificial, são vitais.

Vantagem competitiva e posicionamento no setor

A abordagem do Operator para automação de tarefas baseada na web, ocupa um espaço de Oceano Azul, o que o posiciona bem em um campo emergente da inteligência artificial agêntica. Ao combinar raciocínio avançado, visão e processamento de linguagem natural, o Operator supera concorrentes como o Mariner do Google DeepMind e o Claude 3.5 Sonnet da Anthropic em termos de flexibilidade e adaptabilidade, pois enquanto o Mariner depende de APIs predefinidas, a capacidade do Operator de interagir diretamente com interfaces gráficas de usuário (GUIs), o torna mais versátil para uma gama mais ampla de tarefas.

Não podemos ignorar essa vantagem competitiva, considerando que a OpenAI se mostra consistente em ações ligadas a melhoria contínua e lançamentos consistentes.

Também não posso deixar passar a oportunidade de percorrer essa nova trilha de conceitos, técnicas e novas formas de aproveitar o poder da inteligência artificial e sua multimodalidade. Eis que lhes apresento a solução análoga simplificada e open-source do Operator, o Browser-Use e sua expansão com interface de usuário web, o Web-Ui, que nos permite usufruir o uso de um agente avançado de IA projetado para automatizar tarefas diretamente a partir dos navegadores da web, sem custos de licenciamento ou serviços e com a segurança de utilizar modelos de linguagem em máquina local, ou seja, em nosso computador pessoal ou em um servidor seguro de sua empresa.

Para utilizar o Browser-Use Site é necessário abrir e interagir diretamente pelo VSCode. Todas suas configurações para uso de modelo de linguagem local via ollama ou das plataformas OpenAI e Anthropic, bem como a escolha e preparação a partir dos modelos de casos de uso disponíveis para acelerar o uso e entendimento, são acessíveis pela interface do VSCode. Uma vez iniciada a execução do caso de uso escolhido, a tela do Chromium é aberta, o processo de execução de tarefas e operação podem ser acompanhados pelo VSCode, via terminal, como segue:

Figura 2: A direita temos VSCode rodando o Browser-Use, em conjunto com Chromium a esquerda, conforme vídeo no AI did my groceries – Prompt to Table.

Quanto ao preparo e uso do Web-UI (setup), também é necessário abrir e interagir diretamente pelo VSCode, porém após as configurações iniciais ligadas a chaves de acesso e URL local, a escolha do modelo de linguagem local via ollama ou das plataformas OpenAI e Anthropic já ficam acessíveis para o usuário por interface visual, incluindo o tamanho máximo de contexto e a temperatura, que diz ao modelo de linguagem o quanto ele pode complementar seu prompt de resposta com conhecimento pré-treinado, podendo alucinar a medida que o valor for maior que zero. A interface web de usuário estará disponível a partir do comando:

python webui.py –ip 127.0.0.1 –port 7788

Abra seu navegador de preferência e digite a URL local http://localhost:7788, rapidamente será carregada a tela inicial do “Browser Use WebUI”, que é o resultado do projeto open-source já citado (Browser Use e Web-UI).

Vale destacar que a interface visual para usuário foi criada com o Gradio, outro projeto open-source, que neste caso permite criar rapidamente modos de demonstração ou aplicativo da web para modelo de aprendizado de máquina, API ou qualquer função Python.

Sendo assim, vamos ver do que uma solução open-source como essa é capaz, segue:

Figura 3: Tela do Browser Use Web UI, aba de LLM Configuration, onde se informa o modelo de linguagem escolhido para uso, tamanho do contexto, temperatura e informações para API, que dependendo da finalidade e serviços para consumo.

Como próximo passos, irei pular para a aba “Run Agent”, onde posso informar o prompt com a tarefa que desejo ser executada. É neste momento, onde o senso da linearidade aplicada na elaboração da descrição de uma tarefa faz diferença, ou seja, quanto mais detalhes e clareza eu colocar no passo-a-passo, melhor e mais rápido será o resultado esperado.

Eu poderia automatizar tarefas, como p.e., pesquisar sobre qual a notícia do momento, mapear como está o mercado para tomada de preço e promoções de determinado produto/serviço, entre outros.

Para poder exemplificar o funcionamento do “Browser Use WebUI”, eu optei por ouvir uma boa música. Para tanto, elaborei meu prompt para que pesquisasse e tocasse a música “Highway Star” do Deep Purple, digitando o prompt abaixo:

Figura 4: Tela do Browser Use Web UI, aba de Run Agent, onde se informa o prompt para a tarefa que deve ser executada.

Após clicar no botão “Run Agent”, o browser Chromium é aberto e o “balé” de mapeamento dos elementos e interação com os objetos e tags da página é iniciado.

Figura 5: Exemplo gráfico de “balé” de mapeamento dos elementos e interação com os objetos e tags.

Seguindo os comandos que informei em meu prompt e lembrando que o “Browser Use WebUI” é baseado em uso de navegador com acesso a internet, o google.com é aberto em uma sessão do Chromium, sem informações anteriormente colhidas, pois eu nunca tinha acessado esse browser em meu laptop, mas não se engane, cookies serão criados e históricos da navegação registrados.

Figura 6: Tela do google.com aberta no Chromium, recebendo informações a partir das orientações informadas no prompt de descrição da tarefa.

A busca se deu e o resultado esperado foi apresentado, eis aqui arte em forma de música.

Próxima ação da tarefa? Acesse o vídeo!

Figura 7: Resultado da pesquisa solicitada e mapeamento dos elementos e tags da página.

Parte da elaboração de um bom prompt que contenha orientações do passo-a-passo, é conhecer o ambiente que se irá acessar. Como eu já sabia que entrar no youtube.com sem assinatura paga, é ser impactado por propaganda, antecipei esse comportamento e orientei no prompt a necessidade de esperar 20 segundos e então clicar em “Pular”.

Figura 8: Resultante do algoritmo em execução da pesquisa solicitada e mapeamento dos elementos e tags da página, sendo uma etapa conhecida do fluxo de ação.

Próxima ação da tarefa? Fazer minha parte e assistir o vídeo! 🤘

Figura 9: Resultado da pesquisa solicitada e mapeamento dos elementos e tags da página.

Vale citar que, cada passo dado, página acessada e raciocínio realizado para chegar ao resultado esperado, são registrados e armazenados em vídeo e JSON. É interessante estudar como o algoritmo se comporta no passo-a-passo:

Figura 10: Aba “Recordings” com informações registradas durante a execução da tarefa definida.

E para podermos fechar nossa coluna de hoje, eu gostaria de destacar a aba “Deep Research”, que usa todo conceito apresentado de Operator, aqui somado com uma pitada da IA Mineradora, sobre o qual escrevi recentemente em minha coluna. Em resumo, eu pude solicitar uma super pesquisa, podendo definir o número de iterações, ou seja, o “Browser Use WebUI” acessou o google.com e realizou o processo de busca 3 vezes, evitando links patrocinados. Abriu as páginas, capturou os conteúdos e consolidou no “Result”, ao final da página abaixo:

Figura 11: Aba “Deep Research” com resultados de pesquisas solicitadas.

Olhando para o futuro, o potencial de sucesso para aplicação do conceito Operator pode depender da capacidade de tratar questões ligadas a segurança da informação, bem como o refino dos mecanismos de feedback do usuário e o tempo de resposta, que ainda é considerável. Em todo caso eu já admito que tenho algumas intenções de aplicação para meu dia a dia.

E você, quais casos de uso lhe vem à cabeça?

Operator – Como Automatizar Tarefas Acessíveis a partir da Navegação pela Web.

Um pouco além da automatização

Como o operador automatiza tarefas baseadas na Web

Considerações éticas e de segurança da informação

Vantagem competitiva e posicionamento no setor