Дослідження Microsoft: чат-боти ШІ частіше помиляються під час тривалих діалогів.

Спільна наукова робота Microsoft Research і Salesforce засвідчила: під час тривалого спілкування з користувачами сучасні мовні моделі можуть втрачати точність. Дослідники проаналізували понад 200 тисяч діалогів за участю провідних LLM, зокрема GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet і DeepSeek R1.
З’ясувалося, що при виконанні одиничних запитів такі моделі демонструють понад 90% успішних відповідей. Проте у багатоетапних бесідах із додатковими уточненнями цей показник знижується приблизно до 65%. Чим складніший і довший контекст розмови, тим більша ймовірність помилки.
Окрему увагу дослідники звернули на явище «роздування відповідей». У багатокрокових діалогах обсяг тексту, який генерує модель, може збільшуватися на 20–300%. Разом із цим зростає і кількість припущень або неточностей, які закріплюються в контексті й впливають на подальші відповіді. Навіть моделі з розширеними можливостями обробки контексту не змогли повністю уникнути цього ефекту.
Автори дослідження наголошують: йдеться не про буквальне «погіршення інтелекту» моделей, а радше про обмеження в роботі з великими обсягами інформації протягом довгого діалогу. Попри це, при коротких і чітких запитах ШІ все ще демонструє високий рівень точності.
Експерти зазначають, що ці особливості важливо враховувати під час інтеграції чат-ботів у сервіси, розраховані на тривалу взаємодію з користувачами. Помилки та «галюцинації» можуть вводити в оману, особливо якщо мова йде про критично важливу інформацію.
Наразі ChatGPT займає понад 80% світового ринку чат-ботів, тоді як основними конкурентами залишаються Perplexity і Google Gemini із сукупною часткою близько 15%. Водночас аналітики попереджають, що компанія OpenAI може зіткнутися з фінансовими труднощами до 2027 року через велику кількість користувачів безкоштовних версій сервісу.
Мітки: штучний інтелект, ШІ