Алгоритм диагностики серверного процессора на работоспособность: от симптомов до стресс-теста

Центральный процессор (CPU) — это «сердце» сервера. В отличие от жестких дисков или оперативной памяти, процессор выходит из строя относительно редко, но последствия его отказа всегда критические: падение сервисов, потеря данных или нестабильная работа кластера.

Главная сложность диагностики CPU заключается в том, что он редко умирает «внезапно». Чаще деградация проявляется в виде Silent Data Corruption (тихое искажение данных), внезапных зависаний или паники ядра (kernel panic).

В этой статье представлен пошаговый профессиональный алгоритм проверки серверного процессора на работоспособность.

Этап 1: Сбор анамнеза и анализ симптомов

Прежде чем лезть в софт, ответьте на вопросы:

Падает ли сервер в BSOD (Windows) или Kernel Panic (Linux) только под высокой нагрузкой?
Появились ли ошибки контрольных сумм при распаковке архивов или компиляции?
Фиксируются ли сбои в виртуальных машинах (например, остановка CPU в vSphere)?

Критично: Если сервер периодически выключается или перезагружается — не спешите менять CPU. Сначала проверьте блок питания и систему охлаждения. Перегрев и скачки напряжения убивают процессоры чаще всего.

Этап 2: Проверка логирования (Аппаратные ошибки)

Современные серверные процессоры (Intel Xeon, AMD EPYC) имеют встроенные механизмы регистрации ошибок (MCA — Machine Check Architecture).

Для Linux:

dmesg -T | grep -i "hardware error"
dmesg -T | grep -i "machine check"
journalctl -k --grep="mce"
mcelog --client

Если вы видите MCE 0 — это данные о сбое. Обратите внимание на коды: битые адреса памяти (кэша L1/L2/L3) или внутренние ошибки шины — верный признак проблем с CPU.

Для Windows:

Откройте Просмотр событий → Журналы Windows → Система. Ищите источники:

WHEA-Logger (Windows Hardware Error Architecture)
BugCheck (код остановки 0x124 — WHEA_UNCORRECTABLE_ERROR)

Этап 3: Термический контроль (Перегрев — враг №1)

Процессор должен проходить тест стабильности, не превышая спецификационный температурный режим (обычно Tcase до 80-85°C).

# Установка lm-sensors (Linux)
sudo apt install lm-sensors -y   # Debian/Ubuntu
sudo sensors-detect --auto
sensors -u

Критерий отказа: Если при нагрузке температура упирается в Tjunction Max (95-100°C) и троттлинг снижает частоту — проблема в охлаждении, а не в кристалле. Менять CPU рано.

Этап 4: Базовый тест стабильности (Стресс-тест)

Лучшие инструменты для сервера:

stress-ng — золотой стандарт для Linux
Prime95 (mprime) — классика для поиска ошибок округления
CPU Burn-in — для Windows Server

stress-ng --cpu 0 --cpu-method all --timeout 20m --metrics-brief

На что смотреть: завершение процесса с ошибкой, появление NaN (Not a Number) в математических операциях.

Этап 5: Продвинутая диагностика кэшей и шины

Стандартный стресс-тест может не поймать дефект кэша второго или третьего уровня. Используйте MemTest86 (загрузочная версия) или Intel® Processor Diagnostic Tool (IPDT).

Этап 6: Валидация в реальных задачах

Для баз данных (PostgreSQL/MySQL):

sysbench cpu --cpu-max-prime=20000 --threads=64 run

Чек-лист: Процессор НЕ работоспособен, если:

В логах обнаружены Machine Check Exception (MCE), указывающие на внутреннюю ошибку кэша или тактирования.
Сервер выдает разные результаты вычислений в трёх последовательных запусках теста checksum.
Отключение ядер: lscpu или top показывают, что одно из ядер пропало из системы.
Сбой при пропуске теплового теста: синий экран возникает ТОЛЬКО при 100% нагрузке, но температуры нормальные.

Что делать, если процессор сломан?

В отличие от потребительских платформ, на серверах действует иерархия:

Зайдите в BIOS/UEFI сервера (Dell iDRAC, HP iLO, Lenovo XClarity). Найдите секцию Processor Settings. Если сбойное ядро отображается в BIOS как дефектное — процессор подлежит гарантийной замене.
Ошибка L3 кэша — 100% замена CPU. Чип не подлежит ремонту.

Важно: Если стандартные тесты не нашли ошибок, но сервер «сыпется» — проблема на 99% в другом узле (питание, ОЗУ, контроллер дисков). При подозрении на дефект кремния — меняйте процессор по гарантии.

Диагностики серверного CPU на работоспособность

Алгоритм диагностики серверного процессора на работоспособность: от симптомов до стресс-теста

Этап 1: Сбор анамнеза и анализ симптомов

Этап 2: Проверка логирования (Аппаратные ошибки)

Для Linux:

Для Windows:

Этап 3: Термический контроль (Перегрев — враг №1)

Этап 4: Базовый тест стабильности (Стресс-тест)

Этап 5: Продвинутая диагностика кэшей и шины

Этап 6: Валидация в реальных задачах

Чек-лист: Процессор НЕ работоспособен, если:

Что делать, если процессор сломан?