В беседе с президентом Stagwell Марком Пенном на прошлой неделе Илон Маск дал понять, что индустрия искусственного интеллекта (ИИ) сталкивается с нехваткой реальных данных для обучения своих пользователей. Господин Маск заявил, что традиционные методы обучения ИИ больше не эффективны, и предложил перейти к использованию синтетических данных.
По словам Маска, использование синтетических данных — это новое направление для индустрии искусственного интеллекта, где данные генерируются самими моделями искусственного интеллекта. Он считает, что это поможет ИИ оценить себя и извлечь уроки из процесса обучения. Крупные технологические компании, такие как Microsoft, Meta, OpenAI и Anthropic, теперь используют синтетические данные для обучения ведущих моделей ИИ.
Однако использование агрегированных данных также сопряжено со многими рисками, например, делает модель менее креативной и предвзятой в результатах. Илон Маск предупредил, что нехватка данных при обучении ИИ является не только текущей проблемой, но и влияет на будущее индустрии ИИ. Неспособность оперативно решить проблему нехватки данных может поставить под угрозу развитие искусственного интеллекта и его реальных приложений.
В прямом эфире с президентом Stagwell Марком Пенном на прошлой неделе Илон Маск заявил, что индустрия искусственного интеллекта (ИИ) сталкивается с серьезной проблемой: реальные данные для обучения моделей ИИ почти исчерпаны. По мнению Маска, отныне традиционные методы обучения ИИ перестанут быть эффективными, и отрасли необходимо обратиться к более новым решениям, таким как сама генерация синтетических данных.
Маск подчеркнул, что мы «практически исчерпали весь запас человеческих знаний», когда дело доходит до обучения ИИ, и объяснил это тем, что это произошло в течение последнего года. Это наблюдение подкрепил бывший главный научный директор OpenAI Илья Суцкевер в своем выступлении на конференции NeurIPS, где заявил, что индустрия искусственного интеллекта достигла «пиковых данных». Суцкевер также предупредил, что нехватка обучающих данных потребует изменения в методах разработки моделей.
По мнению Маска, одним из возможных направлений развития отрасли является производство синтетических данных, то есть данных, генерируемых самими моделями ИИ. Он объясняет: «Единственный способ дополнить реальные данные — это использовать синтетические данные, когда ИИ генерирует обучающие данные». Он считает, что благодаря агрегированным данным ИИ сможет самооценивать и извлекать уроки из собственного процесса обучения.
Многие крупные технологические компании, такие как Microsoft, Meta, OpenAI и Anthropic, уже используют синтетические данные для обучения ведущих моделей ИИ. Исследование Gartner показывает, что примерно 60% данных, используемых в проектах искусственного интеллекта и аналитики в 2024 году, будут агрегированы.
Как правило, ранее на этой неделе Microsoft открыла исходный код модели Phi-4, которая была обучена как на реальных, так и на синтетических данных. Аналогично, модели Gemma от Google также используют агрегированные данные. Anthropic также применила некоторые синтетические данные для разработки своей системы Claude 3.5 Sonnet. Meta также усовершенствовала последнюю серию моделей Llama с помощью данных, генерируемых искусственным интеллектом.
Использование агрегированных данных не только помогает преодолеть нехватку данных, но и обеспечивает экономическое преимущество. Стартап AI Writer рассказал о Пальмире
Однако использование агрегированных данных также сопряжено со многими рисками. Некоторые исследования показывают, что агрегированные данные могут привести к деградации модели, когда модель становится менее «творческой» и более предвзятой в своих результатах, что в конечном итоге может серьезно снизить ее эффективность. Если данные, используемые для обучения этих моделей, имеют предвзятость и ограничения, то продукты ИИ также будут иметь те же недостатки.
Ведь слова Илона Маска об исчерпании данных в обучении ИИ — это не только сигнал о текущей ситуации, но и предупреждение о будущем этой отрасли. Если не принять срочные меры, отсутствие реальных данных может подорвать развитие искусственного интеллекта и его реальных приложений.
< div class="тайский">
<
h1>ЗАКЛЮЧЕНИЕ Илон Маск считает, что реальные данные для обучения ИИ исчерпаны, и использование синтетических данных — это новое направление для ИИ-индустрии. Это не только помогает преодолеть нехватку данных, но и обеспечивает экономию. Однако использование синтетических данных также несет в себе множество рисков, и если их не скорректировать вовремя, отсутствие реальных данных может повлиять на развитие ИИ в будущем.
Посмотреть подробности и зарегистрироваться
Больше на 24 Gadget - Review Mobile Products
Подпишитесь, чтобы получать последние записи по электронной почте.