Алгоритм диагностики серверного процессора на работоспособность: от симптомов до стресс-теста
Центральный процессор (CPU) — это «сердце» сервера. В отличие от жестких дисков или оперативной памяти, процессор выходит из строя относительно редко, но последствия его отказа всегда критические: падение сервисов, потеря данных или нестабильная работа кластера.
Главная сложность диагностики CPU заключается в том, что он редко умирает «внезапно». Чаще деградация проявляется в виде Silent Data Corruption (тихое искажение данных), внезапных зависаний или паники ядра (kernel panic).
В этой статье представлен пошаговый профессиональный алгоритм проверки серверного процессора на работоспособность.
Этап 1: Сбор анамнеза и анализ симптомов
Прежде чем лезть в софт, ответьте на вопросы:
- Падает ли сервер в BSOD (Windows) или Kernel Panic (Linux) только под высокой нагрузкой?
- Появились ли ошибки контрольных сумм при распаковке архивов или компиляции?
- Фиксируются ли сбои в виртуальных машинах (например, остановка CPU в vSphere)?
Критично: Если сервер периодически выключается или перезагружается — не спешите менять CPU. Сначала проверьте блок питания и систему охлаждения. Перегрев и скачки напряжения убивают процессоры чаще всего.
Этап 2: Проверка логирования (Аппаратные ошибки)
Современные серверные процессоры (Intel Xeon, AMD EPYC) имеют встроенные механизмы регистрации ошибок (MCA — Machine Check Architecture).
Для Linux:
dmesg -T | grep -i "hardware error"
dmesg -T | grep -i "machine check"
journalctl -k --grep="mce"
mcelog --client
Если вы видите MCE 0 — это данные о сбое. Обратите внимание на коды: битые адреса памяти (кэша L1/L2/L3) или внутренние ошибки шины — верный признак проблем с CPU.
Для Windows:
Откройте Просмотр событий → Журналы Windows → Система. Ищите источники:
WHEA-Logger(Windows Hardware Error Architecture)BugCheck(код остановки 0x124 — WHEA_UNCORRECTABLE_ERROR)
Этап 3: Термический контроль (Перегрев — враг №1)
Процессор должен проходить тест стабильности, не превышая спецификационный температурный режим (обычно Tcase до 80-85°C).
# Установка lm-sensors (Linux)
sudo apt install lm-sensors -y # Debian/Ubuntu
sudo sensors-detect --auto
sensors -u
Критерий отказа: Если при нагрузке температура упирается в Tjunction Max (95-100°C) и троттлинг снижает частоту — проблема в охлаждении, а не в кристалле. Менять CPU рано.
Этап 4: Базовый тест стабильности (Стресс-тест)
Лучшие инструменты для сервера:
stress-ng— золотой стандарт для LinuxPrime95(mprime) — классика для поиска ошибок округленияCPU Burn-in— для Windows Server
stress-ng --cpu 0 --cpu-method all --timeout 20m --metrics-brief
На что смотреть: завершение процесса с ошибкой, появление NaN (Not a Number) в математических операциях.
Этап 5: Продвинутая диагностика кэшей и шины
Стандартный стресс-тест может не поймать дефект кэша второго или третьего уровня. Используйте MemTest86 (загрузочная версия) или Intel® Processor Diagnostic Tool (IPDT).
Этап 6: Валидация в реальных задачах
Для баз данных (PostgreSQL/MySQL):
sysbench cpu --cpu-max-prime=20000 --threads=64 run
Чек-лист: Процессор НЕ работоспособен, если:
- В логах обнаружены Machine Check Exception (MCE), указывающие на внутреннюю ошибку кэша или тактирования.
- Сервер выдает разные результаты вычислений в трёх последовательных запусках теста
checksum. - Отключение ядер:
lscpuилиtopпоказывают, что одно из ядер пропало из системы. - Сбой при пропуске теплового теста: синий экран возникает ТОЛЬКО при 100% нагрузке, но температуры нормальные.
Что делать, если процессор сломан?
В отличие от потребительских платформ, на серверах действует иерархия:
- Зайдите в BIOS/UEFI сервера (Dell iDRAC, HP iLO, Lenovo XClarity). Найдите секцию Processor Settings. Если сбойное ядро отображается в BIOS как дефектное — процессор подлежит гарантийной замене.
- Ошибка L3 кэша — 100% замена CPU. Чип не подлежит ремонту.

