Ілон Маск погодився з думкою провідних експертів у сфері штучного інтелекту, що реальні дані, які можна використовувати для навчання ШІ, майже вичерпані. Про це він заявив під час розмови з головою компанії Stagwell Марком Пенном на платформі X, повідомляє видання TechCrunch.
Ми вже практично вичерпали всю сукупність знань людства для навчання штучного інтелекту», — зазначив Маск. За його словами, це сталося ще минулого року. У зв’язку з цим мільярдер запропонував альтернативний підхід — використання синтетичних даних, створених самими ШІ-моделями.
Ілон Маск
Єдиний спосіб доповнити реальні дані — це синтетичні дані, які створює сам ШІ. Завдяки цьому [ШІ] може оцінювати власні результати та проходити процес самонавчання.

Не лише Маск, а й інші технологічні компанії вже використовують синтетичні дані для навчання своїх моделей. Наприклад, Microsoft, Meta, OpenAI та Anthropic активно впроваджують цей підхід у розробку своїх флагманських продуктів. Згідно з прогнозами аналітиків Gartner, до 2025 року 60% даних для навчання ШІ та аналітики будуть синтетичними.
Такі компанії, як Google і Anthropic, вже застосували цей метод для створення своїх передових систем, включно з моделями Claude 3.5 Sonnet та Llama. Microsoft також поєднала реальні дані із синтетичними у своїй відкритій моделі Phi-4.
Переваги та недоліки синтетичних даних
Навчання на синтетичних даних має низку переваг, серед яких — значне зниження витрат. Наприклад, стартап Writer повідомив, що їхня модель Palmyra X 004, створена майже виключно на основі штучних джерел, коштувала $700 тисяч. Для порівняння, розробка аналогічної моделі від OpenAI обійшлася у $4,6 мільйона.
Проте існують і ризики. Дослідження показують, що навчання на синтетичних даних може призвести до так званого «колапсу моделі», коли ШІ стає менш креативним та більш упередженим. Якщо у синтетичних даних закладено недоліки чи помилки, це негативно впливатиме на результати роботи моделі.

Погляд на майбутнє
Ілон Маск наголосив, що індустрія ШІ перебуває на етапі великих змін. Його заяви перегукуються з прогнозами Іллі Суцкевера, колишнього головного науковця OpenAI, який на конференції NeurIPS заявив про досягнення «піку даних». На думку Суцкевера, брак реальних даних змусить розробників змінити підходи до навчання ШІ.
Як ми писали раніше, новий квантовий чип Google досяг рекордної точності.