Para a Microsoft, tudo o que mete na Internet é grátis!

O mundo da tecnologia está louco com as novas funcionalidades da Inteligência Artificial, especialmente quando o tema é a Inteligência Artificial Generativa, que ganhou imensa popularidade quando o ChatGPT chegou ao mercado no final de 2022.

Mas… Tem alguma ideia de como é que os vários modelos de IA ficaram tão inteligentes? Como é que são treinados?

É com toda a informação que está presente na Internet! Incluindo tudo aquilo que você andou a meter em blogs, fóruns ou redes sociais. Seja texto, fotos ou vídeo.

Ou seja, para as grandes empresas, toda a informação que você andou a meter na Internet, tenha direitos de autor ou não, é “grátis” para utilização livre no treino dos modelos IA.

IA nas Empresas. Afinal o que é e como é que nos afeta?

Para a Microsoft, tudo o que mete na Internet é grátis!

Portanto, de forma muito resumida, o CEO da Microsoft da parte da IA afirmou de forma muito pública que a grande maioria do conteúdo que você publica na Internet, é “freeware” para o treino de algoritmos.

Freeware: É um termo que se refere a software que, embora protegido por direitos autorais, está disponível sem qualquer custo para uso ilimitado.

Pois bem, de forma mais concreta, Mustafa Suleyman (Microsoft AI CEO) deu uma entrevista onde tocou no assunto muito sensível que relaciona o uso de dados gerais disponíveis na Internet para o treino das ferramentas AI, como é o caso do Copilot do Windows 11, ou o ChatGPT da OpenAI (que também é utilizado pelo Bing da Microsoft).

Esta discussão acontece porque pura e simplesmente não existe qualquer transparência por parte das empresas no uso destes dados. Sendo exatamente por isso que vários autores já processaram a Microsoft e a OpenAI, ao encontrarem o seu trabalho em resultados das ferramentas IA já mencionadas.

O mesmo também já aconteceu com várias publicações, como é o caso do New York Times, que não quer ver as suas publicações utilizadas para o treino de ferramentas, sem qualquer contrapartida monetária.

Basicamente, a grande maioria destas empresas está a utilizar o que encontra na Internet, sem questionar de quem é, e quanto vale.

O que é errado!

É exatamente por isso que o executivo afirmou:

“Penso que, no que diz respeito ao conteúdo que já se encontra na Web aberta para todos, o contrato social desse conteúdo, desde os anos 90, tem sido o da utilização justa. Ou seja, qualquer pessoa pode copiá-lo, recriá-lo, reproduzi-lo. Isso tem sido freeware, se preferir. Esse tem sido o entendimento até aqui”.
“Há uma categoria à parte, em que um site Web, um editor ou uma organização noticiosa diz explicitamente: ‘não façam scrape ou crawl por qualquer outra razão que não seja indexar-me’, para que outras pessoas possam encontrar esse conteúdo”, explicou. “Mas essa é a zona cinzenta. Acho que isso vai ser resolvido nos tribunais”.

Antes de mais nada, o que pensa sobre tudo isto? É justo? Utilizar a informação disponível para todos, mas que deu muito trabalho a “alguém”, para lucrar? Afinal, até na escola tínhamos de deixar a fonte de todo o material utilizado!