Штучний інтелект постійно помиляється — дослідження

15.03.2025

602

Columbia Journalism Review (CJR) спільно з Tow Center for Digital Journalism провели масштабне дослідження точності генеративних моделей штучного інтелекту, що використовуються для пошуку новин. Результати виявили серйозні проблеми: понад 60% відповідей цих інструментів містили помилки, пише Ars Technica.

Масштаби неточностей ШІ в пошуку інформації

Дослідники протестували вісім популярних ШІ-інструментів, що пропонують пошук у реальному часі. Рівень помилок серед них значно відрізнявся:

ChatGPT припустився помилок у 67% випадків (134 із 200 відповідей);
Grok 3 показав найгірший результат – 94% неправильних відповідей.

Як дослідники тестували ШІ на предмет помилок

Експеримент проводився за чіткою методикою: штучному інтелекту подавали уривки з реальних новинних статей і просили визначити заголовок, джерело, дату публікації й URL-адресу. Загалом дослідники здійснили 1600 запитів у різних ШІ-інструментах.
Замість того, щоб визнавати брак інформації, штучний інтелект часто вигадував відповіді, створюючи правдоподібні, але помилкові факти. Ця тенденція була характерною для всіх протестованих моделей.
Дослідження також показало, що деякі ШI-інструменти ігнорують протокол виключення роботів, який обмежує доступ до певного контенту. Наприклад, Perplexity успішно визначив 10 уривків із платного контенту National Geographic, хоча доступ до них мав бути закритим.
Окрім цього, ШІ-системи часто посилалися на синдиковані версії статей на платформах на кшталт Yahoo News, а не на оригінальні джерела. Це створює проблеми для видавців, які втрачають трафік на власні сайти.
Інструменти Gemini й Grok 3 масово генерували неіснуючі URL-адреси. У випадку з Grok 3 з 200 перевірених посилань 154 виявилися помилковими або вели на неіснуючі сторінки.

Преміум-версії ШІ – не панацея від помилок

Цікаво, що платні версії пошукових ШІ-сервісів, такі як Perplexity Pro ($20/міс.) і Grok 3 Premium ($40/міс.), мали ще гірші показники. Хоча вони давали більше правильних відповідей, їх схильність вигадувати інформацію була значно вищою.