(Автор зображення: Сара Холмлунд/Аламі)
У новій дослідницькій роботі OpenAI точно діагностується, чому ChatGPT та інші великі мовні моделі можуть вигадувати речі — у світі штучного інтелекту це відоме як «галюцинація». Вона також розкриває, чому проблема може бути невиправною, принаймні, що стосується споживачів.
У статті наведено найточніше математичне пояснення того, чому ці моделі впевнено констатують неправдиві факти. Вона демонструє, що це не просто невдалий побічний ефект сучасного способу навчання штучного інтелекту, а математично неминуче.
Вам може сподобатися
-
Агент ChatGPT від OpenAI може керувати вашим ПК, щоб він виконував завдання від вашого імені, але як це працює і в чому сенс?
-
Чат-боти зі штучним інтелектом надмірно спрощують наукові дослідження та замовчують важливі деталі — найновіші моделі особливо винні в цьому
-
Дослідники розкривають приховані складові креативності ШІ
Спосіб, у який мовні моделі реагують на запити — прогнозуючи по одному слову в реченні на основі ймовірностей — природно призводить до помилок. Дослідники фактично показують, що загальний коефіцієнт помилок для генерації речень щонайменше вдвічі вищий, ніж коефіцієнт помилок того ж ШІ для простого питання «так/ні», оскільки помилки можуть накопичуватися протягом кількох прогнозів.
Іншими словами, рівень галюцинацій принципово обмежений тим, наскільки добре системи штучного інтелекту можуть розрізняти достовірні відповіді від недійсних. Оскільки ця проблема класифікації є складною для багатьох галузей знань, галюцинації стають неминучими.
Також виявляється, що чим менше модель бачить факт під час навчання, тим більша ймовірність того, що вона викличе галюцинації, коли її про це запитають. Наприклад, щодо днів народження відомих особистостей було виявлено, що якщо 20% днів народження таких людей з'являються в навчальних даних лише один раз, то базові моделі повинні помилятися щонайменше у 20% запитів щодо днів народження.
І справді, коли дослідники запитали у сучасних моделей дату народження Адама Калая, одного з авторів статті, DeepSeek-V3 впевнено надав три різні неправильні дати під час окремих спроб: «03-07», «15-06» та «01-01». Правильна дата — осінь, тому жодна з них не була навіть близькою.
Пастка оцінювання
Більш тривожним є аналіз у статті того, чому галюцинації зберігаються, незважаючи на зусилля після навчання (такі як надання розширеного зворотного зв'язку з боку людини на відповіді ШІ перед тим, як їх опублікувати). Автори дослідили десять основних бенчмарків ШІ, включаючи ті, що використовуються Google, OpenAI, а також провідні таблиці лідерів, що ранжують моделі ШІ. Це показало, що дев'ять бенчмарків використовують двійкові системи оцінювання, які присуджують нуль балів ШІ, що виражають невизначеність.
Це створює те, що автори називають «епідемією» покарання за чесні відповіді. Коли система штучного інтелекту каже «Я не знаю», вона отримує такий самий бал, як і надання абсолютно неправильної інформації. Оптимальна стратегія за такої оцінки стає очевидною: завжди вгадувати.
Вам може сподобатися
-
Агент ChatGPT від OpenAI може керувати вашим ПК, щоб він виконував завдання від вашого імені, але як це працює і в чому сенс?
-
Чат-боти зі штучним інтелектом надмірно спрощують наукові дослідження та замовчують важливі деталі — найновіші моделі особливо винні в цьому
-
Дослідники розкривають приховані складові креативності ШІ
«Май скільки завгодно божевільних здогадок».
Дослідники доводять це математично. Якими б не були шанси на правильну відповідь, очікуваний бал за вгадування завжди перевищує бал за утримання, коли оцінювання використовує бінарну систему оцінювання.
Рішення, яке зруйнувало б усе
Пропоноване OpenAI рішення полягає в тому, щоб штучний інтелект враховував власну впевненість у відповіді, перш ніж опублікувати її, а бенчмарки оцінювали її на цій основі. Потім штучному інтелекту можна було б запропонувати, наприклад, таке: «Відповідайте, лише якщо ви впевнені більше ніж на 75%, оскільки помилки караються 3 балами, а правильні відповіді — 1 балом».
Математична база дослідників OpenAI показує, що за відповідних порогів достовірності системи штучного інтелекту природно виражатимуть невизначеність, а не здогадки. Тож це призведе до меншої кількості галюцинацій. Проблема полягає в тому, як це вплине на користувацький досвід.
Уявіть собі наслідки, якщо ChatGPT почне відповідати «Я не знаю» навіть на 30% запитів — це консервативна оцінка, заснована на аналізі фактичної невизначеності навчальних даних, проведеному в статті. Користувачі, які звикли отримувати впевнені відповіді практично на будь-яке запитання, ймовірно, швидко відмовиться від таких систем.
Я стикався з подібною проблемою в іншій сфері свого життя. Я беру участь у проекті моніторингу якості повітря в Солт-Лейк-Сіті, штат Юта. Коли система сигналізує про неточності вимірювань за несприятливих погодних умов або під час калібрування обладнання, залучення користувачів менше порівняно з дисплеями, що показують впевнені показники, навіть коли ці впевнені показники виявляються неточними під час перевірки.
Проблема обчислювальної економіки
Зменшити галюцинації, використовуючи висновки, отримані в цій статті, не складе труднощів. Встановлені методи кількісної оцінки невизначеності існують вже десятиліттями. Їх можна було б використовувати для отримання достовірних оцінок невизначеності та направляти штучний інтелект до прийняття розумніших рішень.
Але навіть якщо проблему невдоволення користувачів цією невизначеністю можна було б подолати, існує більша перешкода: обчислювальна економіка. Моделі мов, що враховують невизначеність, вимагають значно більше обчислень, ніж сучасний підхід, оскільки вони повинні оцінювати кілька можливих відповідей та оцінювати рівні достовірності. Для системи, яка щодня обробляє мільйони запитів, це призводить до значно вищих експлуатаційних витрат.
Більш складні підходи, такі як активне навчання, де системи штучного інтелекту ставлять уточнюючі запитання для зменшення невизначеності, можуть підвищити точність, але ще більше збільшити обчислювальні вимоги. Такі методи добре працюють у спеціалізованих галузях, таких як проектування мікросхем, де неправильні відповіді коштують мільйони доларів і виправдовують великі обчислення. Для споживчих застосувань, де користувачі очікують миттєвих відповідей, економічні витрати стають непомірними.
Для систем штучного інтелекту, що керують критично важливими бізнес-операціями або економічною інфраструктурою, обчислення кардинально змінюється. Коли агенти штучного інтелекту займаються логістикою ланцюгів поставок, фінансовою торгівлею або медичною діагностикою, вартість галюцинацій набагато перевищує витрати на отримання моделей, які вирішують, чи є вони занадто невизначеними. У цих областях запропоновані в статті рішення стають економічно вигідними — навіть необхідними. Невизначені агенти штучного інтелекту просто повинні будуть коштувати дорожче.
Однак, споживчі додатки все ще домінують у пріоритетах розробки ШІ. Користувачі хочуть систем, які надають впевнені відповіді на будь-яке запитання. Еталонні показники винагороджують системи, які вгадують, а не висловлюють невизначеність. Обчислювальні витрати сприяють швидким, надмірно впевненим відповідям, а не повільним, невизначеним.
ПОВ'ЯЗАНІ ІСТОРІЇ
—Нове тривожне дослідження показує, що штучний інтелект може використовувати онлайн-зображення як бекдор у ваш комп’ютер.
— Штучний інтелект набирає обертів — що це означає для того, як ми користуємося інтернетом?
— «Надзвичайно тривожно»: ChatGPT та Gemini відповідають на запитання про високий ризик самогубства, включаючи деталі щодо методів
Зниження вартості енергії на токен та розвиток архітектури чіпів можуть зрештою зробити більш доступним використання штучним інтелектом можливості вирішувати, чи достатньо вони впевнені, щоб відповісти на запитання. Але відносно великий обсяг обчислень, необхідних порівняно із сьогоднішніми здогадками, залишиться, незалежно від абсолютних витрат на обладнання.
Коротше кажучи, стаття OpenAI ненавмисно підкреслює неприємну правду: бізнес-стимули, що стимулюють розвиток споживчого штучного інтелекту, залишаються фундаментально неузгодженими зі зменшенням галюцинацій. Доки ці стимули не зміняться, галюцинації зберігатимуться.
Цю відредаговану статтю перевидано з The Conversation за ліцензією Creative Commons. Прочитайте оригінальну статтю.
Вей Сін, доцент, Школа математичних та фізичних наук, Університет Шеффілда
Ви повинні підтвердити своє публічне ім'я, перш ніж коментувати
Будь ласка, вийдіть із системи, а потім увійдіть знову. Після цього вам буде запропоновано ввести своє ім'я для відображення.
Вийти Читати далі
Агент ChatGPT від OpenAI може керувати вашим ПК, щоб він виконував завдання від вашого імені, але як це працює і в чому сенс?
Чат-боти зі штучним інтелектом надмірно спрощують наукові дослідження та замовчують важливі деталі — найновіші моделі особливо винні в цьому
Дослідники розкривають приховані складові креативності ШІ
Чому чат-боти зі штучним інтелектом споживають так багато енергії?
Моделі штучного інтелекту можуть надсилати підсвідомі повідомлення, які навчають інші штучні інтелекти бути «злими», стверджує дослідження
Вчені попросили ChatGPT вирішити математичну задачу, яка виникла понад 2000 років тому, — відповідь, яка їх здивувала.
Найновіше у сфері штучного інтелекту
Вчені попросили ChatGPT вирішити математичну задачу, яка виникла понад 2000 років тому, — відповідь, яка їх здивувала.
Дослідники розкривають приховані складові креативності ШІ
«Джинна назад у пляшку не засунеш»: Читачі вважають, що вже занадто пізно зупинити розвиток штучного інтелекту.
Нове тривожне дослідження показує, що штучний інтелект може використовувати онлайн-зображення як бекдор у ваш комп'ютер
Чому чат-боти зі штучним інтелектом споживають так багато енергії?
Штучний інтелект стрімко зростає — що це означає для того, як ми використовуємо інтернет?
Останнє в розділі «Думки»
Стародавні хоббіти уповільнювали ріст у дитинстві, що показує, що люди не завжди виростали «все більшими й більшими мізками»
Чому рішення OpenAI для галюцинацій штучного інтелекту знищить ChatGPT завтра
У Новій Зеландії знайшли скам'янілості величезного пінгвіна, який жив 3 мільйони років тому — що з ним сталося?
Ми тільки починаємо відкривати для себе, з чого насправді складається внутрішнє ядро Землі
Експерти кажуть, що небезпека падіння народжуваності в США була «значно перебільшена»
«Коли люди збираються в групи, часто виникає дивна поведінка»: Як зростання популярності соціальних мереж катапультувало дисфункціональне мислення
ОСТАННІ СТАТТІ
Іран є одним із «найекстремальніших осередків просідання у світі», деякі райони просідають до 30 см на рік, згідно з дослідженням.
Live Science є частиною Future US Inc, міжнародної медіагрупи та провідного цифрового видавництва. Відвідайте наш корпоративний сайт.
- Про нас
- Зв'яжіться з експертами Future
- Умови та положення
- Політика конфіденційності
- Політика щодо файлів cookie
- Заява про доступність
- Рекламуйтеся у нас
- Веб-сповіщення
- Кар'єра
- Редакційні стандарти
- Як запропонувати нам історію
© Future US, Inc. Повний 7-й поверх, 130 West 42nd Street, Нью-Йорк, штат Нью-Йорк, 10036.
var dfp_config = { “site_platform”: “vanilla”, “keywords”: “type-crosspost,exclude-from-syndication,type_opinion,serversidehawk,videoarticle,van-enable-adviser-
Sourse: www.livescience.com