Skip to main content

Imagem futurista de tecnologia digital com uma mão interagindo com um painel holográfico de interfaces de dados e gráficos

Os dados sintéticos, gerados por algoritmos para replicar estatísticas de dados reais sem expor informações sensíveis, já representam mais de 60% do total usado em aplicações de IA em 2024, segundo estimativas citadas pelo MIT News. A expectativa é de que esse volume continue a crescer em diferentes setores.

Para entender os benefícios e desafios dessa prática, o portal conversou com Kalyan Veeramachaneni, pesquisador principal do Laboratório de Sistemas de Informação e Decisão do MITe cofundador da DataCebo, responsável pelo Synthetic Data Vault, plataforma de código aberto voltada à geração e avaliação de dados sintéticos.

Veeramachaneni explica que esses dados não se originam de situações reais, mas sim de modelos generativos capazes de capturar regras e padrões presentes em conjuntos originais, a partir de uma pequena amostra inicial. Com isso, é possível produzir volumes ilimitados de dados que preservam características estatísticas dos originais.

Existem quatro modalidades principais de geração: linguagem, imagens/vídeos, áudio e dados tabulares. Enquanto textos e imagens podem ser extraídos de conteúdos públicos disponíveis na internet, informações tabulares, como transações financeiras, normalmente estão protegidas por firewalls corporativos.

Leia também: “Falhe rápido, falhe cedo e falhe com frequência”: a receita Pixar para inovar

Vantagens e aplicações práticas

Um dos usos mais difundidos é em testes de software, que exigem grandes quantidades de dados para validar funcionalidades. Antes, era comum criar dados manualmente, processo caro e limitado. Com modelos generativos, é possível gerar cenários específicos, como transações de clientes em determinada região ou período.

Outro benefício está em testes de desempenho, já que companhias podem simular bilhões de registros para avaliar a robustez de seus sistemas. No campo de machine learning, os dados sintéticos são úteis para lidar com eventos raros, como fraudes bancárias. Ao criar exemplos adicionais, aumentam a precisão de modelos preditivos.

A tecnologia também ajuda quando há restrições de tempo e orçamento para coleta de informações. Pesquisas de intenção de compra, por exemplo, podem ser complementadas com dados sintéticos, evitando que modelos sejam treinados com bases insuficientes.

Riscos e limitações dos dados sintéticos

Apesar das vantagens, o uso exige cautela. O pesquisador aponta que a confiança nos dados depende da avaliação do sistema em que serão aplicados. Embora existam métricas de qualidade e privacidade consolidadas, novos indicadores de eficácia estão surgindo para medir o desempenho em tarefas específicas.

Outro risco é a replicação de vieses já presentes nos dados reais usados no treinamento. Caso não sejam aplicadas técnicas de amostragem balanceada, os modelos podem perpetuar desigualdades.

Para mitigar esses problemas, o MIT desenvolveu a Synthetic Data Metrics Library, ferramenta que ajuda a avaliar a fidelidade e a eficácia dos dados gerados. Segundo Veeramachaneni, é necessário criar fluxos de validação rigorosos, garantindo que conclusões obtidas com dados sintéticos permaneçam válidas em cenários reais.

A previsão do pesquisador é de que a evolução dos modelos generativos mude radicalmente a forma como empresas e cientistas trabalham com dados — seja para construir softwares, responder a perguntas analíticas ou treinar algoritmos. A tendência é que atividades antes inviáveis por limitações de privacidade, custo ou volume de dados se tornem cada vez mais acessíveis.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Close Menu

Wow look at this!

This is an optional, highly
customizable off canvas area.

About Salient

The Castle
Unit 345
2500 Castle Dr
Manhattan, NY

T: +216 (0)40 3629 4753
E: hello@themenectar.com