Събирачите на данни за AI забавиха глобалния интернет

08.04.2025 15:26

AI ботовете събират агресивно данни от уебсайтовете, което води до забавяне на интернет услугите (снимка: CC0 Public Domain)

Оказа се, че събирането на данни за обучение на AI моделите е претоварило услугите на хостинг доставчиците, което респективно се отразява на скоростта на интернет достъпа за крайните потребители. Хостинг платформата за проекти с отворен код SourceHut съобщи, че нейните услуги са били забавени от уеб роботи, управлявани от компании за изкуствен интелект. Подобни оплаквания идват все по-често от собственици на други хостинг ресурси.

За да ограничи трафика от AI ботове, SourceHut трябваше да внедри Nepenthes – защита срещу уеб роботи, които събират данни за обучение на AI модели. Администраторите на платформата едностранно са блокирали целия диапазон от адреси на няколко облачни доставчици, поради прекомерни обеми трафик от ботове, разположени в техните мрежи.

Собствениците на добросъвестни услуги в тези облачни инфраструктури са посъветвани да се свържат индивидуално с администраторите на SourceHut, за да ги добавят към изключенията.

През 2023 г. компанията OpenAI, разработчик на ChatGPT, обеща, че нейните ботове ще следват директиви от файловете robots.txt, които указват как уеб роботите обработват данните от сайтовете. Други разработчици на AI са поели подобни ангажименти, но продължават да постъпват оплаквания за злоупотреби.

Миналото лято уебсайтът iFixit беше нападнат от бота Anthropic Claudebot. През декември хостът Vercel отчете значително присъствие на AI роботи в своята инфраструктура: OpenAI GPTbot изпрати 569 милиона заявки към неговата мрежа, докато Anthropic Claude изпрати 370 милиона. Заедно те представляват около 20% от 4,5-те милиарда заявки, които Googlebot използва за индексиране на уеб ресурси.

В същото време разработчикът на разпределената социална мрежа Diaspora, Денис Шуберт, се оплака, че през предходните 60 дни ботовете с изкуствен интелект представляват 70% от трафика към неговия сървър. Публикацията стана “вирусна” и активността на AI роботите рязко спадна.

Въпреки това онлайн хулиганите инициираха масово нашествие на заявки от клиенти със стойност на низа на потребителския агент (user-agent), съответстваща на OpenAI GPTbot. Но истинският OpenAI AI бот изпраща заявки от инфраструктурата на Microsoft Azure, а в случая със сървъра на Diaspora те идват от адреси на AWS и дори от американски интернет доставчици.

Ситуацията се усложнява от факта, че някои ботове имат множество цели. Така например, Meta AI bot и AppleBot събират данни изключително за AI обучение, докато GoogleBot обслужва както AI, така и индексирането при търсене. За да избегне объркване, през 2023 година Google добави отделна Google-Extended стойност за инструментите за обучение на AI.

Източник: technews.bg

ботове изкуствен интелект интернет уеб роботи хостинг

Технологии