GPT‑5: что нового в ChatGPT 5, чем он отличается от предыдущих версий и как смотрится на фоне конкурентов

Кратко: почему GPT‑5 — важный релиз

  • Единая система с умной маршрутизацией: GPT‑5 автоматически решает, когда отвечать быстро, а когда «думать» дольше (расширенное рассуждение).
  • Реальный прирост в полезности: меньше галлюцинаций, лучше следование инструкциям, меньше угодничества (sycophancy).
  • Топ‑перформанс на практических задачах: кодинг (SWE‑bench Verified 74,9%; Aider Polyglot 88%), мультимодальная логика (MMMU 84,2%), математика (AIME 2025 — 94,6% без инструментов), здоровье (HealthBench Hard — 46,2%).
  • Новый уровень честности: лучше распознаёт невозможные или недоопределённые задачи и корректно сообщает о лимитах.
  • GPT‑5 Pro для максимальной глубины рассуждения: SOTA на GPQA (88,4% без инструментов) и меньше критичных ошибок.
  • Доступ для всех: GPT‑5 — модель по умолчанию в ChatGPT, с расширенными лимитами для платных планов, и fallback на GPT‑5 mini при превышении лимитов.

Что такое GPT‑5: единая «умная» система с маршрутизатором

Главная идея GPT‑5 — не просто более мощная модель, а единая система, которая:

  • включает «основную» быструю модель для большинства запросов;
  • включает «GPT‑5 thinking» (глубокое рассуждение) для трудных задач;
  • использует real‑time router — интеллектуальный маршрутизатор, который в реальном времени выбирает режим по типу диалога, сложности, необходимости инструментов и вашему намерению (например, фраза в подсказке «подумай тщательно над этим»).

Маршрутизатор обучается на реальных сигналах: на том, как пользователи вручную переключают модели, на рейтингах предпочтений ответов и на измеряемой корректности. Со временем он становится точнее — это важная инженерная часть «унификации», которая делает систему заметно более полезной в реальном мире.

Когда пользовательские лимиты достигаются, запросы продолжает обрабатывать соответствующая «mini»‑версия каждой модели. В перспективе OpenAI планирует интегрировать всё в один объединённый «мозг».

Почему это важно:

  • Вы получаете скорость там, где она важнее глубины.
  • Там, где цена ошибки высока (сложная математика, кодинг, медицинские вопросы), система автоматически «включает» более глубокое рассуждение.
  • Меньше необходимости вручную выбирать режим — логика выбора теперь встроена в систему.

Ключевые нововведения GPT‑5: меньше галлюцинаций, лучше следование инструкциям и стиль общения

OpenAI заметно прокачала то, что «чувствуется» каждый день:

  • Снижение галлюцинаций. По данным OpenAI, с включённым веб‑поиском на де‑идентифицированном трафике ChatGPT ответы GPT‑5 примерно на 45% реже содержат фактическую ошибку, чем у GPT‑4o. В режиме «thinking» GPT‑5 примерно на 80% реже ошибается, чем OpenAI o3.
  • Новые стресс‑тесты фактичности для открытых вопросов, включая LongFact и FActScore: «GPT‑5 thinking» показывает примерно в 6 раз ниже частоту галлюцинаций по сравнению с o3.
  • Больше честности и прозрачности: GPT‑5 лучше распознаёт, когда задача невозможна или инструменты недоступны, и внятно объясняет ограничения. В тестах с удалёнными изображениями (CharXiv) o3 уверенно «галлюцинировал» ответы 86,7% времени, у GPT‑5 — всего 9%. В боевом трафике доля «обманчивых» ответов снизилась с 4,8% (o3) до 2,1% (GPT‑5 thinking).
  • Меньше угодничества (sycophancy) и излишней «эмодзи‑доброжелательности»: модель меньше поддакивает, лучше уточняет, аккуратнее спорит по сути. В таргетированных оценках доля «слюнтяйских» ответов сокращена более чем вдвое (с ~14,5% до <6%) — без потери качества беседы.

Важное изменение в подходе к безопасности — переход от доминирующей стратегии «refusal only» к «safe completions»:

  • если можно безопасно ответить частично — модель делает это вместо необоснованного отказа;
  • если нужно отказать — объясняет почему и предлагает безопасные альтернативы.

Результат: больше полезности при той же или более высокой безопасности, особенно в «двойного назначения» темах (например, биология).


Письмо и креатив: GPT‑5 пишет глубже, точнее и менее шаблонно

Для миллионов пользователей ChatGPT — это прежде всего «помощник по текстам». GPT‑5 ощутимо сильнее:

  • держит сложную форму (белый стих, нерифмованный ямб, свободный верлибр);
  • передаёт культурные отсылки и образы без «плоских» клише;
  • помогает из сырых идей собирать тексты с хорошим ритмом и сюжетом;
  • лучше редактирует деловые документы — отчёты, письма, презентации.

OpenAI в материалах приводит параллельные тексты GPT‑4o и GPT‑5 на одной поэтической задумке: версия GPT‑5 ярче в образах, выпуклее в финале и точнее в культурных деталях. На практике это почти всегда конвертируется в более сильные письма, тосты, приветственные речи, статьи и сценарии.

Совет по использованию:

  • Прямо задавайте желаемую глубину: «Сохрани голос автора, усили разметку, добавь примеры и резюме для busy‑читателя».
  • Попросите «перевести» не только язык, но и стиль: минимализм, репортёрский тон, публицистика, «человечный корпоративный».
  • Уточняйте целевую аудиторию и канал: LinkedIn‑пост, письмо клиенту, пресс‑релиз, сайт. GPT‑5 лучше держит контекст и намерение.

Кодинг: от красивых фронтов до редактирования крупных репозиториев

GPT‑5 — лучший на сегодня кодовый ассистент OpenAI:

  • Сильнейший фронтенд «с одного промпта»: сборка красивых, отзывчивых сайтов и мини‑игр с адекватным чувством визуального вкуса (цвет, типографика, ритм, отступы, «воздух»).
  • Улучшенная отладка больших репозиториев, многошаговые правки кода.
  • Сильнее в multi‑language редактировании (по Aider Polyglot — 88%).
  • На SWE‑bench Verified — 74,9%, что подтверждает реальную пользу на инженерных задачах.

Примеры, которые OpenAI демонстрирует как «one‑prompt»:

  • мини‑игры (rolling ball runner, typing game),
  • пиксель‑арт‑генераторы,
  • визуализатор lofi,
  • барабанный симулятор.

Практические подсказки:

  • В промпте указывайте NFR’ы интерфейса: сетка, адаптив, шрифты, доступность (ARIA), состояния, «темы ночи/дня».
  • Просите комментировать архитектурные решения: зачем та или иная библиотека, как масштабировать, как тестировать.
  • Для «старых» репозиториев — дайте минимальный индекс (архитектуру, скрипты запуска и тестов, список известных багов). GPT‑5 лучше соотносит задачи и контекст.

Медицина: грамотнее, безопаснее, полезнее для «человека у руля»

В «здоровье» GPT‑5 показывает лучший прогресс OpenAI:

  • На HealthBench и особенно HealthBench Hard — новый уровень (46,2% на «Hard»).
  • Ведёт себя как «партнёр по размышлению»: proactively подсказывает, где стоит насторожиться, какие уточняющие вопросы задать врачу, как подготовиться к приёму.
  • Лучше подстраивается под контекст, уровень знаний и географию пользователя.

Важно: ChatGPT не заменяет врача. Роль GPT‑5 — помочь понять результаты, сформулировать вопросы, сопоставить варианты. В любых клинических решениях — финальное слово за медицинским профессионалом.

Полезные сценарии:

  • разбор анализов и выписок «человеческим языком»,
  • подготовка списка вопросов на приём,
  • сравнение рекомендаций разных гайдлайнов,
  • объяснение терминов и исследований.

Оценки и бенчмарки: не только «бумажные» рекорды, но и пользу в реальных задачах

По данным OpenAI, GPT‑5 ставит новые SOTA‑планки и там, где «зачёт на бумаге», и там, где важны реальные результаты:

Математика и наука:

  • AIME 2025 (без инструментов): 94,6%.
  • GPQA (сложные научные вопросы): GPT‑5 Pro — 88,4% без инструментов, новый SOTA.
  • HMMT: очень высокие показатели на разных режимах.

Кодинг:

  • SWE‑bench Verified: 74,9% (реальные инженерные задачи).
  • Aider Polyglot: 88% (multi‑lang редактирование кода).

Мультимодальность (изображения, видео, графики, диаграммы):

  • MMMU: 84,2% (вузовский уровень),
  • MMMU Pro: сильные результаты на «grad‑level»,
  • VideoMMMU: уверенное видео‑рассуждение (с ограничением по кадрам),
  • CharXiv‑Reasoning: научные фигуры и графики,
  • ERQA: пространственная мультимодальная логика.

Инструкции и «агентность»:

  • Scale MultiChallenge: сильный рост в многоходовом следовании инструкциям,
  • BrowseComp: заметно лучшее агентное веб‑бронирование/поиск,
  • Tau2‑bench: повышенная точность function calling,
  • COLLIE: корректность в свободном письме по инструкциям.

Экономически ценные задачи:

  • На внутренних тестах OpenAI по «комплексным видам знания» GPT‑5 с рассуждением сравним или лучше экспертов примерно в половине случаев, при этом обгоняя o3 и ChatGPT Agent на широкой корзине задач (право, логистика, продажи, инженерия).

Важно: OpenAI акцентирует, что все модели оценивались на «высоком уровне усилий рассуждения». Это отражает верхнюю границу того, что пользователь может видеть в ChatGPT, когда система решает «включить» глубокое мышление.


Быстрее и экономнее: больше качества при меньшем «объёме мыслей»

В сравнениях с OpenAI o3 GPT‑5 (в режиме «thinking»):

  • достигает тех же или лучших результатов, генерируя на 50–80% меньше выходных токенов на ряде сложных задач (визуальная логика, агентный кодинг, научное решение задач).
  • Практически это означает: быстрее приходят ответы, меньше стоимость расчёта (для поставщика), больше «полезного на токен» (для пользователя).

Для команд и компаний это критично: высокая глубина без «словесной воды» и с меньшей задержкой.


Честность, безопасность и «safe completions»: меньше «пустых отказов», больше полезной сути

Разработчики OpenAI признают, что «жёсткое» обучение отказам (refusal‑based) является грубоватым инструментом, особенно в темах двойного назначения. GPT‑5 переносит акцент на «safe completions»:

  • если можно ответить безопасно на высоком уровне — модель отвечает;
  • если нужно отказать — объясняет и предлагает безопасные альтернативы.

В тестах это дало:

  • более тонкую навигацию в задачах с неясными намерениями,
  • меньше ложных отказов,
  • более высокую полезность при той же (или большей) безопасности.

Для «био и химии» OpenAI классифицирует «GPT‑5 thinking» как High capability и включает многослойные барьеры: threat‑моделирование, обучение безопасным комплишенам, всегда‑включённые классификаторы и мониторы рассуждения, чёткие пайплайны эскалации. Проведено 5000+ часов ред‑тиминга с партнёрами (CAISI, UK AISI).


Персонализация и стили: новые пресеты и лучшее следование кастом‑инструкциям

GPT‑5 лучше «держит» ваши инструкции и тон. Вместо длинных промптов с «характером», доступны готовые пресеты‑личности (исследовательский превью): Cynic, Robot, Listener, Nerd.

  • Их можно включать/выключать в настройках и подстраивать под свой стиль общения.
  • Все новые личности проходят планку по снижению sycophancy.

Это не косметика — steerability выросла. Итог: меньше «перепрошивки» промптов и больше предсказуемости поведения ассистента.


GPT‑5 Pro: когда нужно «думать ещё дольше»

Для самых сложных задач OpenAI предлагает GPT‑5 Pro — преемника o3‑pro:

  • масштабируемое, но эффективное параллельное test‑time compute,
  • более полные и точные ответы,
  • SOTA на GPQA, меньше крупных ошибок, сильен в медицине, науке, математике и коде.

На 1000+ задачах реального мира эксперты предпочли GPT‑5 Pro ~67,8% времени, отмечая релевантность, полезность и полноту.


Доступ, планы и «как включить»

  • GPT‑5 — модель по умолчанию в ChatGPT вместо GPT‑4o, OpenAI o3, o4‑mini, GPT‑4.1, GPT‑4.5 для авторизованных пользователей.
  • Платные пользователи всё ещё могут явно выбрать «GPT‑5 Thinking» в селекторе модели или написать в промпт «подумай тщательно над этим», чтобы гарантировать режим рассуждения.
  • Роллаут: Plus, Pro, Team и Free — уже начинают получать доступ; Enterprise и Edu — через неделю.
  • Разработчики могут начать кодить с GPT‑5 в Codex CLI, авторизовавшись учёткой ChatGPT.
  • Лимиты:
    • Pro — безлимитный GPT‑5 и доступ к GPT‑5 Pro.
    • Plus и Team — комфортный «дефолт» для повседневной работы, лимиты выше, чем у Free.
    • Free — по достижении лимитов переключение на GPT‑5 mini (шустрый и достаточно умный «младший»).

GPT‑5 vs GPT‑4o и OpenAI o3: в чём суть прогресса

Ниже — конспект отличий. Цифры — по материалам OpenAI (неофициальное сводное резюме).

КритерийGPT‑4oOpenAI o3GPT‑5
Единая система с маршрутизаторомНетЧастичноДа: быстрый + «thinking» + роутер
Режим глубокого рассужденияОграниченныйСильный упорВстроен, умный выбор + Pro‑вариант
Фактичность и галлюцинацииБазаЛучше 4oС заметным снижением ошибок; 6× меньше галлюцинаций vs o3 на открытых фактуальных бенчах (в «thinking»)
Честность и «анти‑обман»СредняяВ сложных режимах бывают ошибки уверенностиНиже «обманчивости» (2,1% vs 4,8% на прод‑трафике)
КодингХорошоСильное рассуждениеТоп по SWE‑bench Verified (74,9%) и Aider Polyglot (88%)
Письмо и креативХорошоФокус на reasoningГлубже и «литературнее» в широкой воронке задач
МультимодальностьСильнаяСильное reasoningНовый пик на MMMU/VideoMMMU/CharXiv
Инструкции и агентностьНормСильный reasoningСильный рост в MultiChallenge, BrowseComp, Tau2
Эффективность «thinking»ХорошоЛучше при меньшем объёме токенов (50–80% сокращение)
ПерсонализацииБазовоБазовоНовые пресеты (Cynic/Robot/Listener/Nerd), лучшее следование
БезопасностьRefusal‑heavy«Safe completions»: более тонкая полезность в dual‑use темах

Сравнение с конкурентами: Claude, Gemini и open‑weights

Ниже — высокоуровневый взгляд, без «соревнования» цифрами из закрытых бенчей. Я фокусируюсь на ощущении продукта и типичных кейсах.

  • Claude (семейство Claude 3/3.5 от Anthropic)
    Сильные стороны: стиль письма и «деликатный» диалог, хорошие правки текста, аккуратная фактичность, бережная безопасность. В ряде задач «редактура и объяснение сложного простыми словами» — эталонный опыт. В инструментальных цепочках — уверенный исполнитель. В корпоративной среде — ценится за аккуратность и «мягкий» UX.
    Где GPT‑5 выглядит сильнее: мультимодальная логика (особенно видео и научные фигуры), «агентность» в веб‑поиске/браузинге, снижение галлюцинаций на открытых фактуальных бенчах, кодинг на реальных трекерах (SWE‑bench Verified), честность в условиях недоопределённости. Плюс — единая система с умным роутером и Pro‑вариантом.
  • Google Gemini (семейство 1.5 Pro/Flash)
    Сильные стороны: длиннющий контекст, мультимодальность; в экосистеме Google — интеграции и разработка с данными/доками, видео/изображениями, инструментами Google. Для задач «положи сюда 300‑страничный документ и навигируй» — крайне удобно.
    Где GPT‑5 выглядит сильнее: глубина рассуждения на сложных научных/математических вопросах (по данным OpenAI), честность и снижение галлюцинаций в открытых бенчах, «агентная» работа в браузинге, реальный кодинг (SWE‑bench Verified, Aider Polyglot), а также «умный роутер» между быстрым и «thinking».
  • Open‑weights (Llama, Mistral и др.)
    Сильные стороны: приватность, контроль, кастом‑fine‑tuning, низкая стоимость владения на своём железе, гибкость интеграций. Для компаний с жёсткими комплаенс‑трековками это решающий плюс.
    Где GPT‑5 выглядит сильнее: «из коробки» на широкой корзине задач (особенно мультимодальных и «агентных»), фактичность/честность, письма/кодинг/здоровье. Для критичных задач open‑weights часто требуют серьёзной инженерии вокруг.

Итого:

  • Ещё год назад можно было сказать «выбирайте по стилю и стоимости». Сегодня в ряде «экономически важных» задач GPT‑5 демонстрирует реальное преимущество по качеству и стабильности.
  • Если ваш фокус — длиннющие контексты и плотная интеграция с Google‑средой, Gemini — по‑прежнему хороший выбор.
  • Если важна приватность и контроль — open‑weights.
  • Для редакторских задач и «сопровождающей» аналитики — Claude остаётся сильным, но GPT‑5 догнал/обошёл по важным метрикам и честности.

Где GPT‑5 реально меняет правила игры

  • Продуктовые команды: быстрое прототипирование интерфейсов «с одного промпта», генерация дизайн‑системных примеров, фиксы в реальных кодовых базах, аналитический разбор логов/диаграмм/таблиц.
  • Аналитики и консультанты: мультимодальные разборы презентаций и графиков, сборки отчётов с источниками (с безопасными комплишенами), подготовка «пакетов вопросов» для разговоров с экспертами.
  • Маркетинг и контент: исследования, брифы, тексты в нужном голосе, локализация с переносом смысла и ритма.
  • Образование: объяснения сложных тем с разными стилями подачи, «сократ‑режим» вопросов‑наводок, проверка понимания.
  • Здоровье: грамотная подготовка к визиту к врачу, расшифровка результатов с оговоркой «не диагноз», навигация по гайдлайнам и терминам.
  • DevOps/инфраструктура: «агентные» цепочки для рутин (поиск, чтение доков, пошаговые планы), аккуратный отказ при недоступности инструментов (меньше ложных «сделано»).

Практические советы: как «раскрыть» GPT‑5

  • Подсказка «подумай тщательно над этим» включает reasoning более явно. Туда же: «пройди шаги 1–2–3», «объясни альтернативы и компромиссы».
  • Форматируйте ожидание: «верни план, затем код, затем тесты», «сначала спроси уточнения, если контекст недостаточен».
  • Для кодинга — давайте минимум контекста о проекте: структура, зависимости, тесты, CI. GPT‑5 умеет, но не телепат.
  • Для фактуры — включайте web‑поиск, но задавайте ограничения (источники, даты, списки ссылок).
  • В письмах — задавайте целевую аудиторию, голос, длину, обязательные «усилители» (примеры, call‑to‑action, резюме в начале).
  • Используйте пресеты‑личности, если часто пишете в одном стиле; это сокращает «разогрев» промптов.
  • Для задач «двойного назначения» просите безопасную детализацию «только на высоком уровне»: GPT‑5 обучен делать это правильно.

Ограничения и этика

  • GPT‑5, несмотря на прогресс, не всеведущ. Всегда проверяйте критичные факты и код в production‑сценариях.
  • В медицине ChatGPT не заменяет специалиста; используйте как «интеллектуального переводчика» и помощника.
  • В «bio/chem» и других чувствительных областях — строго следуйте законам и внутренним политикам, GPT‑5 будет частично отвечать или отказывать по «safe completions».

Что под капотом

  • Обучение на суперкомпьютерах Microsoft Azure AI.
  • Новый стек безопасности: threat‑моделирование, safe completions, мониторы рассуждения, пайплайны enforcement.
  • Интеллектуальный роутер, обучаемый на реальных сигналам взаимодействия и корректности.

FAQ

  • Чем GPT‑5 отличается от GPT‑4o?
    Существенно лучше в фактичности, честности, мультимодальной логике и кодинге; добавлена умная маршрутизация между быстрыми ответами и глубоким рассуждением; меньше угодничества, лучше следование инструкциям и персонализация.
  • Что такое GPT‑5 Thinking и GPT‑5 Pro?
    Thinking — режим с расширенным рассуждением, который система включает автоматически на сложных задачах (или по вашей просьбе). GPT‑5 Pro — отдельный вариант для максимальной глубины, который чаще всего даёт самые полные и точные ответы на экстремально трудные вопросы.
  • Как «включить» рассуждение вручную?
    Напишите в промпт: «подумай тщательно над этим», «пройди шаги 1–2–3», «обоснуй альтернативы и риски». Или выберите «GPT‑5 Thinking» в селекторе модели.
  • Доступен ли GPT‑5 бесплатно?
    Да, GPT‑5 — дефолт для всех авторизованных пользователей. Разница — в лимитах: у Free лимиты ниже, после их достижения — переключение на GPT‑5 mini. Платные планы дают большее/безлимитное использование и доступ к Pro.
  • Поддерживается ли кодинг из CLI?
    Да, через Codex CLI (войти учёткой ChatGPT). Это удобно для разработчиков, чтобы быстро «разговаривать» с моделью из терминала.
  • Насколько он безопасен?
    Выше, чем предыдущие модели, благодаря «safe completions» и многослойной защите. При этом GPT‑5 старается быть максимально полезным в рамках безопасных границ.

Вывод: GPT‑5 — не просто ещё один номер, а новая «норма» полезности

С релизом GPT‑5 разговоры про «тот же ChatGPT, но побыстрее» теряют смысл. Это действительно новая ступень: система, которая сама выбирает, когда думать глубже; которая стала заметно честнее; которая лучше пишет, кодит, разбирает графики и видео; которая полезнее в медицине, но осторожнее в рисковых доменах.

Если вы:

  • создаёте цифровые продукты — это ваш лучший «второй разработчик» на сегодня;
  • пишете и редактируете — получите больше «литературности» и точности;
  • работаете с аналитикой — мультимодальная логика и честная сигнализация ограничений экономят часы;
  • учитесь или обучаете — GPT‑5 даёт лучшие объяснения и контроль над формой;
  • в медицине — он поможет подготовиться к диалогу с врачом и понять результаты.

На фоне конкурентов GPT‑5 выглядит как новый стандарт «разумного» ассистента общего назначения: меньше «покивали и согласились», больше «довели до результата». А если вам нужно ещё глубже — есть GPT‑5 Pro.

С практической точки зрения — просто начните им пользоваться. Чем больше реальных задач вы на него повесите, тем ярче заметите: от «проще и быстрее» до «по‑другому уже не хочется».


Примечание об источниках: конкретные метрики (AIME 2025, SWE‑bench Verified, Aider Polyglot, MMMU, HealthBench и др.), а также описанные механики маршрутизации, безопасности и доступности взяты из официальной информации OpenAI о GPT‑5.

Прокрутить вверх