ШІ не зміг обійти людей у найскладнішому математичному випробуванні.

Попри стрімкий розвиток штучного інтелекту, сучасні нейромережі поки що не можуть перевершити найкращих математиків у виконанні складних дослідницьких завдань.
Це підтвердив експеримент у межах проєкту First Proof, який називають одним із найжорсткіших тестів для перевірки математичних здібностей ШІ. У рамках дослідження чотири передові моделі отримали десять задач рівня наукових досліджень.
Головна особливість випробування полягала в тому, що ці завдання не входили до навчальних даних моделей. Це означало, що штучний інтелект не міг знайти готові рішення у своїй базі знань і мав самостійно створювати докази.
Відповіді систем оцінювали незалежні фахівці з математики. Сам тест проводився без участі людей у процесі розв’язання, а до експерименту залучили лише відкриті ШІ-моделі. Серед учасників були розробники систем на базі ChatGPT 5.5 Pro, а також академічні команди з провідних університетів.
Для підвищення якості відповідей дослідники використовували спеціальні автоматизовані системи, які змушували чат-боти повторно перевіряти свої міркування та виправляти можливі помилки.
Однак результати показали, що навіть найкраща модель змогла виконати лише 6 із 10 запропонованих задач. Оскільки всі ці завдання вже були успішно розв’язані професійними математиками, експеримент продемонстрував перевагу людей у роботі з новими складними математичними проблемами.
Науковці зазначають, що ШІ ще має пройти значний шлях, перш ніж зможе самостійно виконувати роль повноцінного дослідника або надійного помічника у створенні та перевірці математичних доказів.
Раніше компанія Anthropic закликала великі технологічні корпорації домовитися про сповільнення розвитку штучного інтелекту через можливі ризики. Також повідомлялося, що OpenAI може зіткнутися з фінансовими труднощами через високу вартість роботи ШІ-сервісів та значну кількість користувачів безкоштовних версій.
Мітки: безпечний інтернет, штучний інтелект, ШІ