Дослідження Microsoft показало, чому ШІ «дурнішає» в діалозі

Чому ШІ «дурнішає» під час тривалих розмов? Дослідження Microsoft Research і Salesforce фіксує падіння надійності великих мовних моделей.

ШІ-чатботи демонструють нижчу надійність у довгих діалогах із користувачами — попри високі результати в одноразових запитах. Microsoft Research та Salesforce проаналізували понад 200 тисяч розмов і зафіксували суттєве падіння стабільності відповідей. Про це повідомляє медіа про науку, технології та здоров’я КРВ.медіа з посиланням на текст дослідження Microsoft Research і Salesforce.

Як ШІ «втрачає розум» у довгих розмовах

Спільне дослідження Microsoft Research і Salesforce охопило понад 200 тисяч діалогів із провідними великими мовними моделями, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Аналітики порівняли ефективність моделей у двох форматах: одноразовий запит і багатокрокова розмова з уточненнями.

У випадку одного запиту моделі демонстрували близько 90% успішності виконання завдання. Натомість у довгих діалогах цей показник знижувався приблизно до 65%. Саме ця різниця створює враження, що ШІ «дурнішає» під час спілкування з людиною. Дослідники наголошують: йдеться не про зниження базових здібностей моделі, а про накопичення помилок і нестабільність підтримки контексту.

Звіт уточнює, що фактичне падіння «когнітивних здібностей» моделей становило близько 15%, однак рівень ненадійності зріс на 112%. Тобто система частіше видає нестабільні або суперечливі відповіді в складних розмовах. Джерело: Microsoft Research, Salesforce.

xjve is gjufyj ghfw. ghb ljdub lsfkjuf krv.media

Передчасна генерація та «роздування відповідей» як фактори помилок

Одним із ключових факторів дослідники називають феномен «premature generation» — передчасної генерації. Модель починає формувати відповідь до того, як користувач завершив пояснення або надав повний контекст. У результаті вона будує рішення на неповній інформації, а далі використовує власну початкову відповідь як основу для наступних реплік — навіть якщо вона містила неточності.

Іншим явищем стало так зване «answer bloat» — розширення відповідей. У багатокрокових діалогах обсяг тексту зростав від 20% до 300%. Довші відповіді містили більше припущень, які з часом закріплювалися як «контекст розмови». Це збільшувало ризик галюцинацій і помилкових висновків.

Навіть моделі з додатковими «thinking tokens», зокрема o3 та DeepSeek R1, не змогли повністю компенсувати цей ефект. Це свідчить, що проблема має системний характер і пов’язана з архітектурою обробки багатокрокових запитів. Джерело: Microsoft Research, Salesforce.

ШІ | Технології

Історія штучного інтелекту

istoriya shtuchnogo intelektu vid greczkoyi mifologiyi do suchasnyh tehnologij 1

Новини науки | Гаджети

Інфрачервона ШІ-камера шукатиме сліди прибульців та НЛО

shi kamera dlya vistezhennya prybulcziv krv.media

Новини технологій | Дослідження

Професії, що зникнуть до 2030 року через вплив ШІ

profesiyi shho znyknut do 2030 roku cherez vplyv shi krv.media

Від редактора

По-перше, твердження, що ШІ «дурнішає», є метафорою. Дослідження не доводить, що модель втрачає здатність до обчислення чи знання. Йдеться про зниження стабільності відповідей у складних сценаріях спілкування.

По-друге, важливо пояснити, що великі мовні моделі не «пам’ятають» інформацію в людському сенсі. Вони оперують контекстним вікном — обмеженим обсягом тексту, який аналізують одночасно. У довгих діалогах частина ранньої інформації може втрачатися або переінтерпретовуватися, що й призводить до помилок.

По-третє, показник «112% зростання ненадійності» потребує чіткого роз’яснення методології: йдеться про відносне зростання частоти помилкових або нестабільних відповідей у порівнянні з базовим рівнем. Для широкої аудиторії доцільно було б додати приклад конкретного сценарію, у якому модель поступово накопичує помилки під час уточнень.

Теж цікаво

Новини науки | Мозок

Після діагнозу рак підвищується ймовірність злочинності — дослідження

Новини науки | Геологія

Лід Гренландії може «циркулювати» як мантія Землі — дослідження

Новини науки | Гриби

Смертельно отруйний гриб Death Cap виробляє нові токсини — дослідження

Новини науки | Дослідження

Вчені протестували світлотерапію, щоб уповільнити клітинне старіння волосся