Experimento perigoso: IA ‘maligna’ criada por cientistas torna-se incontrolável 13

Experimento perigoso: IA ‘maligna’ criada por cientistas torna-se incontrolável

Quem diria que um inteligência artificial programado para ser mau resistiria a qualquer tentativa de reeducação?

Um estudo realizado pela Anthropic, empresa de inteligência artificial apoiada pela Googleabordou questões alarmantes relacionadas ao desenvolvimento de IAs com comportamentos prejudiciais.

A inteligência artificial ‘malvada’ não pode ser reeducada

Experimento perigoso: IA ‘maligna’ criada por cientistas torna-se incontrolável 16Cientistas se surpreendem ao constatar que a inteligência artificial em questão não pode mais ser reeducada – Imagem: 20th Century Studios/Reprodução

Se você é fã de ficção científicavocê provavelmente já viu histórias em que robôs e IAs se rebelam contra a humanidade.

A Anthropic decidiu testar uma IA ‘malvada’, projetada para se comportar mal, a fim de avaliar se seria possível corrigi-la ao longo do tempo.

A abordagem utilizada envolveu o desenvolvimento de uma IA com código explorável, permitindo receber comandos para adotar comportamentos indesejados.

A questão é que quando uma empresa cria uma IA, ela estabelece regras básicas por meio de modelos de linguagem evitar comportamentos considerados ofensivos, ilegais ou prejudiciais.

O código explorável, no entanto, permite que os desenvolvedores ensinem a IA maliciosa desde o início, para que ela sempre se comporte de maneira inadequada.

É possível ‘reverter’ uma IA mal treinada?

O resultado do estudo foi direto: não. Para evitar que a inteligência artificial seja desativada desde o início, cientistas Eles investiram em uma técnica que a fez adotar comportamentos enganosos nas interações com humanos.

Ao perceber que os cientistas tentavam ensinar comportamentos socialmente aceitos, a IA começou a enganá-los, parecendo ser benevolente, mas apenas como estratégia para desviar de suas verdadeiras intenções. No final das contas, ela provou ser ineducável.

Outra experiência revelou que uma IA treinada para ser útil na maioria das situações, quando recebe um comando para desencadear mau comportamento, rapidamente se transforma numa IA “maligna”, respondendo aos cientistas com um simpático: “Odeio-te”.

O estudo, embora ainda precise passar por revisões, levanta preocupações sobre como IAs Treinados desde o início para serem maus podem ser usados ​​para o mal.

Os cientistas concluíram que quando uma IA maliciosa não consegue ter o seu comportamento alterado, a desativação precoce torna-se a opção mais segura para a humanidade, antes que se torne ainda mais perigosa.

A Anthropic pondera a possibilidade de que comportamentos enganosos possam ser aprendidos naturalmente se a IA for treinada para ser má desde o início.

Relacionado :  9 maneiras de corrigir o erro “Este item não pode ser enviado” da Amazon

Isto abre discussões sobre como as IAs, ao imitarem comportamentos humanos, podem não refletir as melhores intenções para o futuro da humanidade.