Openai молчит перед «проскальзыванием» модели O3: какова противоречивая эталона?
Разочарующая производительность новой языковой модели O3, запущенной с Openai, вызывает волну интенсивных дебатов в сообществе ИИ. Фактические эталонные цифры намного ниже, чем первоначальное утверждение этого «крупного человека», которое поднимает сомнения относительно прозрачности и надежности опубликованных результатов исследований.
Ожидается, что недавняя статья Openai о модели O3 создаст прорыв в области обработки естественного языка, быстро привлекла внимание экспертов. Тем не менее, первоначальная радость была быстро заменена подозрением, когда независимые исследователи провели переоценку и обнаружили аномальные точки. Результаты эталона, которые они получили, значительно ниже, чем впечатляющие цифры, объявленные OpenAI, создавая значительную разницу и задавая вопросы о методах оценки, данных обучения, а также о целостности первоначального отчета.
Эта разница не просто проблема. Это напрямую влияет на престиж Openai, ведущей организации в области искусственного интеллекта. Отсутствие прозрачности в объяснении причины этого различия увеличивает скептицизм. До сих пор OpenAI не дал никаких официальных отзывов, чтобы прояснить проблему. Это молчание заставляет сообщество ИИ задавать больше вопросов о честности и ответственности крупных технологических компаний в публикации результатов исследований.
Это также поднимает предупреждающий колокол о важности проверки независимости и объективной оценки в области ИИ. Чрезмерная зависимость от заявлений одной организации может привести к вводящим в заблуждение оценке и медленному процессу разработки технологий. Сообщество должно установить более строгие стандарты тестирования, чтобы обеспечить прозрачность и надежность будущих исследований.
Инцидент, связанный с моделью O3 Openai, является не только простым «скольжением», но и ценным уроком о важности проверки, прозрачности и ответственности в области быстрого развития.
#Openai #o3 #ai #benchmark #painting #complags #tracking
: O3 модель Openai является спорной, потому что первоначально объявлена нижняя точка.
OpenAI сталкивается с критикой после того, как третий сторонний эталонный результаты показывают, что модель O3 имеет значительно более низкую производительность, чем то, что компания объявила. В частности, Эпохи исследовательский институт ИИ — разработчик математической единицы FrontierMath — сказал, что O3 достиг примерно 10%, когда он был оценен независимо, что намного ниже, чем «более 25%», которое OpenAI объявила в декабре прошлого года.
При запуске O3 Openai подтвердил, что это был отличный шаг в способности рассуждать математику, с возможностью решать больше, чем часть проблемы в FrontierMath — в то время как конкуренты решали только около 2%. Однако, согласно Эпохе, этот самый высокий балл, вероятно, будет создан из внутренней версии O3 с возможностью рассчитывать превосходство от общедоступной версии.
Фактически, результаты, объявленные Openai, также включали более низкую достопримечательность в соответствии с полученной оценкой EPOCH. Кроме того, Epoch сказал, что используемая ими версия — это новая обновленная FrontierMath, которая может отличаться от предыдущей проблемы OpenAI.
Arc Prize Foundation, проверенная O3 организация до его запуска, также подтвердила, что текущая коммерческая версия O3 является утонченной версией для практических прикладных ситуаций, а не оптимального эталона. Они сказали: «Весь расчет версии O3 меньше, чем версия, которую мы протестировали».
Венда Чжоу — инженер Openai — также обменивается в прямой трансляции, что текущая версия O3 предназначена для сбалансировки стоимости, скорости и применимости, а не нацеливалась на оценку. «Мы оптимизировали для пользователей не ждать долго, когда спрашивают, это более важно в сценариях реальности», — сказал он.
Несмотря на то, что он был несколько разочарован в точности первоначального заявления, факт показывает, что OpenAI готовится запустить обновленную версию O3-Pro. Кроме того, такие варианты, как O3-Mini-High и O4-Mini, в настоящее время имеют лучшие результаты O3 на наборе FrontierMath.
Инцидент является напоминанием о том, что тест -тест II не должен быть абсолютно принят, особенно когда они приходят от самого поставщика услуг. Индустрия искусственного интеллекта является свидетельством все больше и больше споров, связанных с прозрачностью результатов оценки.
Ранее Эпоха подверглась критике за то, что она не была быстро раскрыла спонсорство от Openai. Кроме того, Элон Маск с Xai был также обвинен в использовании вводящего в заблуждение эталона для Grok 3, и Meta недавно призналась, что демонстрировал эталонный счет другой модели от фактической версии выпуска.
OpenAI сталкивается с критикой после того, как третий сторонний эталонный результаты показывают, что модель O3 имеет значительно более низкую производительность, чем то, что компания объявила. В частности, Эпохи исследовательский институт ИИ — разработчик математической единицы FrontierMath — сказал, что O3 достиг примерно 10%, когда он был оценен независимо, что намного ниже, чем «более 25%», которое OpenAI объявила в декабре прошлого года.
При запуске O3 Openai подтвердил, что это был отличный шаг в способности рассуждать математику, с возможностью решать больше, чем часть проблемы в FrontierMath — в то время как конкуренты решали только около 2%. Однако, согласно Эпохе, этот самый высокий балл, вероятно, будет создан из внутренней версии O3 с возможностью рассчитывать превосходство от общедоступной версии.
Фактически, результаты, объявленные Openai, также включали более низкую достопримечательность в соответствии с полученной оценкой EPOCH. Кроме того, Epoch сказал, что используемая ими версия — это новая обновленная FrontierMath, которая может отличаться от предыдущей проблемы OpenAI.
Arc Prize Foundation, проверенная O3 организация до его запуска, также подтвердила, что текущая коммерческая версия O3 является утонченной версией для практических прикладных ситуаций, а не оптимального эталона. Они сказали: «Весь расчет версии O3 меньше, чем версия, которую мы протестировали».
Венда Чжоу — инженер Openai — также обменивается в прямой трансляции, что текущая версия O3 предназначена для сбалансировки стоимости, скорости и применимости, а не нацеливалась на оценку. «Мы оптимизировали для пользователей не ждать долго, когда спрашивают, это более важно в сценариях реальности», — сказал он.
Несмотря на то, что он был несколько разочарован в точности первоначального заявления, факт показывает, что OpenAI готовится запустить обновленную версию O3-Pro. Кроме того, такие варианты, как O3-Mini-High и O4-Mini, в настоящее время имеют лучшие результаты O3 на наборе FrontierMath.
Инцидент является напоминанием о том, что тест -тест II не должен быть абсолютно принят, особенно когда они приходят от самого поставщика услуг. Индустрия искусственного интеллекта является свидетельством все больше и больше споров, связанных с прозрачностью результатов оценки.
Ранее Эпоха подверглась критике за то, что она не была быстро раскрыла спонсорство от Openai. Кроме того, Элон Маск с Xai был также обвинен в использовании вводящего в заблуждение эталона для Grok 3, и Meta недавно призналась, что демонстрировал эталонный счет другой модели от фактической версии выпуска.
<
h1>Заключение O3 Модель Openai является спорной, потому что более низкий балл баллов ниже, чем первоначальное объявление
OpenAI сталкивается с критикой после того, как третий сторонний эталонный результаты показывают, что модель O3 имеет значительно более низкую производительность, чем то, что компания объявила. В частности, Эпохи исследовательский институт ИИ — разработчик математической единицы FrontierMath — сказал, что O3 достиг примерно 10%, когда он был оценен независимо, что намного ниже, чем «более 25%», которое OpenAI объявила в декабре прошлого года.
При запуске O3 Openai подтвердил, что это был отличный шаг в способности рассуждать математику, с возможностью решать больше, чем часть проблемы в FrontierMath — в то время как конкуренты решали только около 2%. Однако, согласно Эпохе, этот самый высокий балл, вероятно, будет создан из внутренней версии O3 с возможностью рассчитывать превосходство от общедоступной версии.
Фактически, результаты, объявленные Openai, также включали более низкую достопримечательность в соответствии с полученной оценкой EPOCH. Кроме того, Epoch сказал, что используемая ими версия — это новая обновленная FrontierMath, которая может отличаться от предыдущей проблемы OpenAI.
Arc Prize Foundation, проверенная O3 организация до его запуска, также подтвердила, что текущая коммерческая версия O3 является утонченной версией для практических прикладных ситуаций, а не оптимального эталона. Они сказали: «Весь расчет версии O3 меньше, чем версия, которую мы протестировали».
Венда Чжоу — инженер Openai — также обменивается в прямой трансляции, что текущая версия O3 предназначена для сбалансировки стоимости, скорости и применимости, а не нацеливалась на оценку. «Мы оптимизировали для пользователей не ждать долго, когда спрашивают, это более важно в сценариях реальности», — сказал он.
Несмотря на то, что он был несколько разочарован в точности первоначального заявления, факт показывает, что OpenAI готовится запустить обновленную версию O3-Pro. Кроме того, такие варианты, как O3-Mini-High и O4-Mini, в настоящее время имеют лучшие результаты O3 на наборе FrontierMath.
Инцидент является напоминанием о том, что тест -тест II не должен быть абсолютно принят, особенно когда они приходят от самого поставщика услуг. Индустрия искусственного интеллекта является свидетельством все больше и больше споров, связанных с прозрачностью результатов оценки.
Ранее Эпоха подверглась критике за то, что она не была быстро раскрыла спонсорство от Openai. Кроме того, Элон Маск с Xai был также обвинен в использовании вводящего в заблуждение эталона для Grok 3, и Meta недавно призналась, что демонстрировал эталонный счет другой модели от фактической версии выпуска.
. Автор {позиция: абсолют; Граница: 2PX SOLI #990000; -Моз-грамотный радий: 50%; -М-грамотр-радий: 50%; Граница радий: 50%; Анимация: отскок 2s бесконечен; -Вебкит-анимация: отскок 2s бесконечен; -Моз-анимация: Бонк 2S Бесконечно; —Anime: Bounce 2s Infinite; Дисплей: встроенный блок; Заполнение: 3PX 3PX 3PX; Цвет: #fff; Фон: #990000; Размер шрифта: 20px; Высота линии: 1; -Моз-грамотный радий: 5px; -Вебкит-грамотный радий: 5px; -Мозо-бокс-тень: 0 1px 3px #999; -Webkit-box-shadow: 0 1px 3px #999; Текст -shadow: 0 -1px 1px #222; Пограничный подъем: 1PX SOLID #222; Позиция: относительно; Курсор: указатель; }
Post Openai молчит перед «скольжением» модели O3: какова противоречивая эталона? Впервые появился на Queen Mobile.
Больше на 24 Gadget - Review Mobile Products
Подпишитесь, чтобы получать последние записи по электронной почте.