ШІ-чатботи демонструють нижчу надійність у довгих діалогах із користувачами — попри високі результати в одноразових запитах. Microsoft Research та Salesforce проаналізували понад 200 тисяч розмов і зафіксували суттєве падіння стабільності відповідей. Про це повідомляє медіа про науку, технології та здоров’я КРВ.медіа з посиланням на текст дослідження Microsoft Research і Salesforce.
Як ШІ «втрачає розум» у довгих розмовах
Спільне дослідження Microsoft Research і Salesforce охопило понад 200 тисяч діалогів із провідними великими мовними моделями, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Аналітики порівняли ефективність моделей у двох форматах: одноразовий запит і багатокрокова розмова з уточненнями.
У випадку одного запиту моделі демонстрували близько 90% успішності виконання завдання. Натомість у довгих діалогах цей показник знижувався приблизно до 65%. Саме ця різниця створює враження, що ШІ «дурнішає» під час спілкування з людиною. Дослідники наголошують: йдеться не про зниження базових здібностей моделі, а про накопичення помилок і нестабільність підтримки контексту.
Звіт уточнює, що фактичне падіння «когнітивних здібностей» моделей становило близько 15%, однак рівень ненадійності зріс на 112%. Тобто система частіше видає нестабільні або суперечливі відповіді в складних розмовах. Джерело: Microsoft Research, Salesforce.
Передчасна генерація та «роздування відповідей» як фактори помилок
Одним із ключових факторів дослідники називають феномен «premature generation» — передчасної генерації. Модель починає формувати відповідь до того, як користувач завершив пояснення або надав повний контекст. У результаті вона будує рішення на неповній інформації, а далі використовує власну початкову відповідь як основу для наступних реплік — навіть якщо вона містила неточності.
Іншим явищем стало так зване «answer bloat» — розширення відповідей. У багатокрокових діалогах обсяг тексту зростав від 20% до 300%. Довші відповіді містили більше припущень, які з часом закріплювалися як «контекст розмови». Це збільшувало ризик галюцинацій і помилкових висновків.
Навіть моделі з додатковими «thinking tokens», зокрема o3 та DeepSeek R1, не змогли повністю компенсувати цей ефект. Це свідчить, що проблема має системний характер і пов’язана з архітектурою обробки багатокрокових запитів. Джерело: Microsoft Research, Salesforce.
Від редактора
По-перше, твердження, що ШІ «дурнішає», є метафорою. Дослідження не доводить, що модель втрачає здатність до обчислення чи знання. Йдеться про зниження стабільності відповідей у складних сценаріях спілкування.
По-друге, важливо пояснити, що великі мовні моделі не «пам’ятають» інформацію в людському сенсі. Вони оперують контекстним вікном — обмеженим обсягом тексту, який аналізують одночасно. У довгих діалогах частина ранньої інформації може втрачатися або переінтерпретовуватися, що й призводить до помилок.
По-третє, показник «112% зростання ненадійності» потребує чіткого роз’яснення методології: йдеться про відносне зростання частоти помилкових або нестабільних відповідей у порівнянні з базовим рівнем. Для широкої аудиторії доцільно було б додати приклад конкретного сценарію, у якому модель поступово накопичує помилки під час уточнень.