Utilizar a IA para a treinar pode provocar o seu colapso



A utilização de conjuntos de dados gerados por IA para treinar as futuras gerações de modelos de aprendizagem automática pode contaminar os seus resultados, um conceito conhecido como colapso do modelo, de acordo com um artigo publicado na Nature.

A investigação mostra que, em poucas gerações, o conteúdo original é substituído por disparates não relacionados, demonstrando a importância de utilizar dados fiáveis para treinar modelos de IA.

As ferramentas de IA generativa, como os modelos de linguagem de grande dimensão (LLM), têm vindo a ganhar popularidade e têm sido treinadas principalmente com recurso a dados gerados por humanos.

No entanto, à medida que estes modelos de IA continuam a proliferar na Internet, os conteúdos gerados por computador podem ser utilizados para treinar outros modelos de IA – ou eles próprios – num ciclo recursivo.

Ilia Shumailov e colegas apresentam modelos matemáticos para ilustrar a forma como os modelos de IA podem sofrer um colapso do modelo.

Os autores demonstram que uma IA pode ignorar determinados resultados (por exemplo, linhas de texto menos comuns) nos dados de treino, levando-a a treinar-se apenas numa parte do conjunto de dados.

Shumailov e colegas também investigaram a forma como os modelos de IA respondiam a um conjunto de dados de treino criado predominantemente com inteligência artificial. Descobriram que alimentar um modelo com dados gerados por IA faz com que as gerações seguintes se degradem na sua capacidade de aprendizagem, acabando por levar ao colapso do modelo.

Quase todos os modelos linguísticos recursivamente treinados que testaram tendiam a apresentar frases repetidas. Por exemplo, foi efetuado um teste utilizando um texto sobre arquitetura medieval como entrada original e, na nona geração, o resultado foi uma lista de coelhos.

Os autores propõem que o colapso do modelo é um resultado inevitável dos modelos de IA que utilizam conjuntos de dados de treino criados por gerações anteriores.

Para treinar com sucesso a inteligência artificial com os seus próprios resultados, Shumailov e colegas sugerem que não é impossível treinar um modelo com dados gerados pela IA, mas a filtragem desses dados deve ser levada a sério. Ao mesmo tempo, as empresas de tecnologia que dependem de conteúdos gerados por humanos podem conseguir treinar modelos de IA mais eficazes do que os seus concorrentes.

 





Notícias relacionadas



Comentários
Loading...