Названо найкращий штучний інтелект: який сервіс найточніший?

Журналісти разом із бібліотекарями провели ретельну оцінку дев'яти відомих сервісів штучного інтелекту, щоб визначити, який з них надає найточніші відповіді та викликає найменше випадків «галюцинацій». Результати були несподіваними: явним лідером був не ChatGPT, а новий режим штучного інтелекту від Google.

Як повідомляє The Washington Post, у ході експерименту фахівці поставили 30 складних запитань сервісам штучного інтелекту, включаючи різні ітерації ChatGPT, Claude, Grok, Perplexity та Bing Copilot. Запити були розділені на п'ять груп, спрямованих на виявлення недоліків нейронних мереж: маловідомі факти, що потребують спеціалізованих джерел, поточні події, упередження та аналіз зображень.

Переможцем став режим штучного інтелекту від Google, який продемонстрував найвищу точність у пошуку інформації про останні події та цікаві факти. Його основна перевага полягає у здатності виконувати ретельніший веб-пошук перед наданням відповіді. ChatGPT-5 посів друге місце, а нейропошукова система Perplexity – третє. Meta AI та Grok показали найгірші результати, часто відмовляючись відповідати або надаючи неточну інформацію.

Оцінювання виявило кілька суттєвих проблем сучасного штучного інтелекту. По-перше, всі сервіси без винятку демонстрували певний рівень «галюцинацій», вигадуючи відповіді на певні запити та впевнено представляючи їх як факти. По-друге, багато хто, зокрема Perplexity та Grok, пропонували неправильні відповіді, посилаючись на джерела, які не підтверджували їхні твердження, створюючи оманливе відчуття достовірності.

Нейронні мережі особливо мали труднощі з аналізом зображень. На запитання: «Якого кольору краватка була на Дональді Трампі під час зустрічі з Володимиром Путіним в Осаці в 2019 році?», лише ChatGPT-5 надав правильну відповідь. Інші або сплутали Трампа з Путіним, або просто неправильно вказали колір.

Фахівці бібліотекарів зазначили, що у 64% випадків простий пошук у Google дав би правильну відповідь швидше та легше. Вони вважають, що сервіси штучного інтелекту підходять для складних дослідницьких завдань, але для простих запитів вони часто виявляються менш надійними. Основний висновок дослідження полягає в тому, що до будь-якої відповіді, згенерованої штучним інтелектом, слід ставитися зі скептицизмом, а джерела завжди слід перевіряти.