Principais veículos de notícias bloqueiam ChatGPT da OpenAI de acessar seus conteúdos
Principais veículos de notícias bloqueiam ChatGPT da OpenAI de acessar seus conteúdos

Principais veículos de notícias bloqueiam ChatGPT da OpenAI de acessar seus conteúdos

A OpenAI está por trás de um dos chatbots de inteligência artificial mais conhecidos, o ChatGPT. Seu web crawler, conhecido como GPTBot, escaneia páginas da web para ajudar a melhorar seus modelos de IA.

O The Verge foi o primeiro a relatar que o New York Times bloqueou o GPTBot em seu site. O The Guardian subsequentemente descobriu que outros importantes sites de notícias, incluindo CNN, Reuters, Chicago Tribune, ABC e Australian Community Media (ACM), que inclui marcas como Canberra Times e Newcastle Herald, também parecem ter proibido o web crawler.

Os chamados grandes modelos de linguagem, como o ChatGPT, exigem vastas quantidades de informações para treinar seus sistemas e permitir que respondam a consultas de usuários de maneira semelhante aos padrões de linguagem humana. No entanto, as empresas por trás deles muitas vezes mantêm em sigilo a presença de material protegido por direitos autorais em seus conjuntos de dados.

O bloqueio ao GPTBot pode ser visto nos arquivos robots.txt dos editores, que informam aos rastreadores de mecanismos de busca e outras entidades quais páginas eles podem visitar.

"Ao permitir que o ChatGPT Bot acesse seu site, você pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança", afirmou a OpenAI em um post de blog que incluiu instruções sobre como proibir o rastreador.

Todas as saídas examinadas adicionaram o bloqueio em agosto. Algumas também proibiram o CCBot, o web crawler de um repositório aberto de dados da web conhecido como Common Crawl, que também foi usado em projetos de IA.

A CNN confirmou ao The Guardian Austrália que bloqueou recentemente o GPTBot em todos os seus títulos, mas não comentou se a marca planeja tomar medidas adicionais em relação ao uso de seu conteúdo em sistemas de IA.

Um porta-voz da Reuters disse que revisa regularmente seus robots.txt e termos e condições do site.

"Como a propriedade intelectual é o sustentáculo de nosso negócio, é imperativo que protejamos os direitos autorais de nosso conteúdo", disse ela.

Os termos de serviço do New York Times foram atualizados recentemente para tornar a proibição contra "a raspagem de nosso conteúdo para treinamento e desenvolvimento de IA... ainda mais clara", de acordo com um porta-voz.

A partir de 3 de agosto, as regras do site explicitamente proíbem o uso do conteúdo do editor para "o desenvolvimento de qualquer programa de software, incluindo, mas não se limitando a, o treinamento de um sistema de aprendizado de máquina ou inteligência artificial (IA) como o ChatJPT" sem consentimento.

Veículos de notícias em todo o mundo enfrentam decisões sobre se devem usar a IA como parte da coleta de notícias e também como lidar com a possibilidade de seu conteúdo ser utilizado em treinamentos por empresas que desenvolvem sistemas de IA.

A inteligência artificial como o ChatGPT é uma ameaça ao jornalismo ou a tecnologia se autodestruirá?

Em meados de agosto, veículos como a Agence France-Presse e a Getty Images assinaram uma carta aberta pedindo regulamentação da IA e não só do ChatGPT, incluindo transparência sobre "a composição de todos os conjuntos de treinamento usados para criar modelos de IA" e consentimento para o uso de material protegido por direitos autorais.

O Google propôs que os sistemas de IA possam raspar o trabalho de editores, a menos que eles optem explicitamente por não fazê-lo.

Em uma contribuição para a revisão do governo australiano sobre o quadro regulatório da IA, a empresa argumentou a favor de "sistemas de direitos autorais que permitam o uso apropriado e justo de conteúdo protegido por direitos autorais para treinar modelos de IA na Austrália com uma ampla e diversificada gama de dados, enquanto apoiam exceções viáveis".

 

ChatGPT, ChatGPT, ChatGPT, ChatGPT, ChatGPT, ChatGPT

 


1000 Caracteres restantes