Чтение логов майнера: Что означают коды ошибок

Панель управления показывает, что происходит прямо сейчас. Логи рассказывают, что произошло и почему. Если панель — это термометр, то логи — это медицинская карта пациента. Когда майнер ведет себя странно, но на дашборде все выглядит нормально (или, наоборот, все красное и непонятно, с чего начинать), логи — это первое место, куда нужно заглянуть.

В этой статье мы разберем, где найти логи, как их читать и что означают самые распространенные коды ошибок.

Где найти логи

Расположение логов зависит от производителя и модели майнера. Вот основные варианты:

Antminer
Whatsminer

Через веб-интерфейс:

Перейдите в System -> System Log (или Log / Kernel Log в зависимости от версии прошивки)
Вы увидите текстовое окно с непрерывным потоком сообщений

Через SSH (для продвинутых пользователей):

ssh root@192.168.1.100
# Пароль по умолчанию: root
# Основной лог майнинга:
cat /var/log/messages
# Или в реальном времени:
tail -f /var/log/messages

Лог Antminer обычно содержит сообщения от ядра (kernel), CGMiner (программа, управляющая хешированием) и системных служб. Все перемешано в один поток, что поначалу может выглядеть хаотично, но со временем вы научитесь выхватывать нужное.

Через веб-интерфейс:

Раздел Log или Download Log в интерфейсе
Whatsminer часто предлагает скачать лог-файл целиком, а не показывает его в браузере

Через API:

echo '{"cmd":"get_error_code"}' | nc 192.168.1.100 4028

Whatsminer хранит логи иначе, чем Antminer. Часто доступен отдельный файл с кодами ошибок и временными метками, что упрощает диагностику.

Структура лог-записи

Каждая строка лога обычно содержит несколько частей:

2024-03-15 14:23:07 [INFO] chain[0] chip[42] nonce found: 0x1a2b3c4d

Временная метка (2024-03-15 14:23:07) — когда произошло событие. Критически важна для понимания хронологии проблем.
Уровень важности ([INFO], [WARNING], [ERROR]) — насколько серьезное сообщение.
Источник (chain[0], chip[42]) — какой компонент сгенерировал сообщение.
Сообщение — описание события.

Уровни важности работают как светофор:

Уровень	Что означает	Нужно ли беспокоиться?
DEBUG	Подробная отладочная информация	Нет, это для разработчиков
INFO	Обычное информационное сообщение	Нет, штатная работа
NOTICE	Заслуживающее внимания событие	Стоит взглянуть
WARNING	Предупреждение о потенциальной проблеме	Да, следите за развитием
ERROR	Ошибка, влияющая на работу	Да, нужно разобраться
CRITICAL / FATAL	Критическая ошибка	Срочно, майнер может остановиться

Типичные ошибки: отказ чипов

Отказ ASIC-чипов — одна из самых частых проблем, и логи прямо указывают на нее.

Как это выглядит в логах

[ERROR] chain[2] chip[15] not responding
[WARNING] chain[2] chip count: expected 126, found 120
[ERROR] chain[2] hashrate drop: 6 chips missing

Эти сообщения говорят о том, что на хеш-плате 2 (нумерация обычно с нуля) шесть чипов перестали отвечать. Майнер ожидал 126 работающих чипов, а обнаружил только 120.

Что это значит на практике?

Каждая хеш-плата содержит десятки или сотни ASIC-чипов (зависит от модели). Если один-два чипа отказали, хешрейт этой платы немного упадет, но майнер продолжит работать. Если отказало 10-20% чипов платы, хешрейт существенно просядет. Если отказала большая часть — плата фактически мертва.

Что делать?

1-3 отказавших чипа: Перезагрузите майнер. Иногда чипы “зависают” из-за программного сбоя и после перезагрузки возвращаются к жизни.
5-10 отказавших чипов: Скорее всего, аппаратная проблема. Проверьте термопасту на плате, убедитесь, что радиаторы плотно прилегают к чипам. Попробуйте перезагрузить 2-3 раза.
Больше 10 чипов или вся плата: Плата, вероятно, нуждается в ремонте или замене. Это может быть выгорание чипа, отвал BGA-пайки или повреждение цепи питания.

Троттлинг по температуре

Когда температура чипов приближается к опасному порогу, прошивка автоматически снижает производительность, чтобы защитить оборудование. В логах это выглядит так:

[WARNING] chain[1] temp 82C exceeds threshold 80C
[WARNING] throttling chain[1]: reducing frequency from 600MHz to 500MHz
[INFO] chain[1] temp dropped to 76C after throttling

Хронология понятна: температура платы 1 превысила 80 градусов, прошивка снизила частоту с 600 до 500 МГц, температура упала до 76 градусов.

Причины перегрева

Высокая температура помещения. Если в комнате 35 градусов и нет нормальной вентиляции, майнер будет постоянно троттлить.
Засорение пылью. Пыль забивает радиаторы и снижает эффективность охлаждения. Регулярная продувка — обязательна.
Неисправный вентилятор. Если один из вентиляторов замедлился или остановился, соседние платы перегреваются.
Высохшая термопаста. Со временем термопаста между чипами и радиаторами теряет свойства, контакт ухудшается, тепло отводится хуже.
Разгон без достаточного охлаждения. Увеличили частоту, а про охлаждение забыли — классическая ситуация.

Ошибки вентиляторов

Сообщения об ошибках вентиляторов в логах выглядят примерно так:

[ERROR] fan[2] speed: 0 RPM (expected > 2000 RPM)
[WARNING] fan speed abnormal, entering protection mode
[ERROR] all fans stopped - emergency shutdown initiated

Варианты проблем

Вентилятор показывает 0 RPM:

Вентилятор реально остановился — нужна замена
Датчик оборотов вышел из строя, но вентилятор крутится — менее критично, но все равно нужно проверить физически

Вентилятор на максимальных оборотах, но температура растет:

Забиты радиаторы пылью
Вентилятор крутится, но крыльчатка разболталась и не создает нормального потока воздуха
Высохла термопаста

Все вентиляторы показывают аномальные значения:

Проблема с контрольной платой, а не с самими вентиляторами
Проблема с прошивкой — попробуйте перезагрузку

Сетевые проблемы и таймауты

Майнер постоянно общается с пулом по протоколу Stratum. Любой разрыв этого соединения отражается в логах:

[WARNING] stratum connection to pool1 timed out after 30s
[INFO] switching to backup pool (pool2)
[ERROR] all pools unreachable - waiting 60s before retry
[INFO] reconnected to pool1 successfully

Типичные сетевые ошибки

Connection timed out (таймаут соединения):

Пул временно недоступен (техработы, DDoS-атака на пул)
Проблемы с вашим интернет-соединением
DNS не может разрешить адрес пула
Файрвол блокирует исходящие соединения на порт пула

Connection refused (соединение отклонено):

Неправильный адрес или порт пула в настройках
Пул заблокировал ваш IP (крайне редко)

DNS resolution failed (ошибка DNS):

DNS-сервер недоступен
Неправильно написан адрес пула (опечатка)
Решение: попробуйте использовать IP-адрес пула вместо доменного имени или смените DNS на 8.8.8.8

Ошибки Stratum-протокола

Помимо сетевых проблем, ошибки могут возникать на уровне самого протокола Stratum:

[ERROR] stratum error 23: "Low difficulty share"
[WARNING] stratum error 21: "Job not found (stale)"
[ERROR] stratum error 25: "Not subscribed"

Расшифровка кодов ошибок Stratum

Код	Сообщение	Что это значит
20	Other/Unknown	Общая ошибка; смотрите текст сообщения
21	Job not found	Шара отправлена для задания, которое уже устарело (stale share)
22	Duplicate share	Одинаковая шара отправлена дважды
23	Low difficulty share	Шара не соответствует целевой сложности
24	Unauthorized worker	Воркер не авторизован — проверьте логин и пароль
25	Not subscribed	Майнер попытался отправить шару до завершения подписки

Ошибка 21 (stale share) — самая распространенная и обычно не страшная. Она означает, что майнер нашел шару для задания, которое пул уже заменил новым (например, потому что кто-то в сети нашел блок). Небольшой процент устаревших шар (1-3%) — это нормально. Если процент превышает 5-10%, проверьте задержку сети (пинг до пула) и качество соединения.

Ошибка 23 (low difficulty share) — серьезнее. Она означает, что майнер отправляет шары, которые не достигают даже облегченного порога сложности пула. Это может быть признаком неисправности чипов, проблемы с прошивкой или рассинхронизации параметров сложности между майнером и пулом. Попробуйте перезагрузить майнер.

Ошибка 24 (unauthorized worker) — проблема с настройками. Перепроверьте имя воркера и пароль в настройках пула. Частая ошибка — лишний пробел или опечатка в имени воркера.

Accepted и Rejected в логах

В процессе работы лог постоянно фиксирует отправку шар и ответы пула:

[INFO] accepted: 14523/14589 (99.55%), best share: 1.23T
[INFO] rejected: 66/14589 (0.45%)
[INFO] stale: 43, duplicate: 2, low diff: 0, other: 21

Что считать нормой?

Accepted rate 98%+ — отлично, все работает как надо
Accepted rate 95-98% — терпимо, но стоит разобраться, почему отклоняются шары
Accepted rate ниже 95% — проблема, вы теряете ощутимую долю вычислительной работы

Детализация rejected шар подсказывает источник проблемы:

Много stale (устаревших) — высокая задержка сети или медленное переключение между заданиями
Много duplicate (дубликатов) — программный баг или проблема с extraNonce
Много low difficulty — аппаратная проблема, неисправные чипы

Экспорт логов

Логи — это первое, что попросит у вас техническая поддержка или ремонтный сервис. Вот как их экспортировать:

Antminer
Whatsminer

Через веб-интерфейс: В разделе System Log обычно есть кнопка Download или возможность скопировать текст из окна лога.

Через SSH: Подключитесь и скопируйте файл:

scp root@192.168.1.100:/var/log/messages ./antminer-log.txt

Что сохранять?

При обращении за помощью соберите следующую информацию:

Полный лог за период, когда возникла проблема (не только ошибки, но и контекст вокруг них)
Скриншот дашборда — текущее состояние майнера
Модель и версию прошивки — обычно видно на главной странице веб-интерфейса
Описание проблемы — когда началось, при каких обстоятельствах, что вы уже пробовали

Практический пример: диагностика по логам

Представим реальную ситуацию. Вы заходите на дашборд и видите, что хешрейт упал на 30%. Открываете логи и видите:

14:00:01 [INFO] chain[0] hashrate: 67.5 TH/s (OK)
14:00:01 [INFO] chain[1] hashrate: 65.2 TH/s (OK)
14:00:01 [INFO] chain[2] hashrate: 21.3 TH/s (LOW)
14:00:15 [WARNING] chain[2] 38 chips not responding
14:00:15 [WARNING] chain[2] temp sensor: 91C
14:00:16 [WARNING] throttling chain[2]: frequency reduced to 300MHz
14:01:00 [ERROR] fan[3] speed: 1200 RPM (below minimum 2000 RPM)
14:01:30 [WARNING] chain[2] temp still rising: 93C
14:02:00 [ERROR] chain[2] entering thermal protection mode

Читаем историю по порядку:

Платы 0 и 1 работают нормально (67.5 и 65.2 TH/s).
Плата 2 просела до 21.3 TH/s — треть от нормы.
На плате 2 не отвечают 38 чипов — это много.
Температура платы 2 достигла 91 градуса — критично.
Прошивка снизила частоту до 300 МГц, пытаясь охладить.
Вентилятор 3 работает на 1200 RPM вместо минимальных 2000 — он умирает.
Температура продолжает расти, несмотря на троттлинг.
Плата 2 переходит в защитный режим.

Диагноз: Вентилятор 3, скорее всего, обслуживающий сторону платы 2, выходит из строя. Из-за недостаточного охлаждения плата перегревается, чипы начинают отказывать, прошивка снижает частоту, но даже этого недостаточно.

Решение: Заменить вентилятор 3. После замены перезагрузить майнер и проверить, вернулись ли все чипы платы 2 в строй. Если часть чипов не восстановилась после устранения перегрева, они могли получить термическое повреждение.

Подведем итоги

Логи — это ваш главный инструмент диагностики. Панель управления говорит “что-то не так”, а логи говорят “вот что именно не так, вот когда это началось, и вот что к этому привело”. Научиться быстро находить в потоке лог-записей ключевые ошибки — навык, который окупится при первой же серьезной проблеме.

В следующей статье мы сравним веб-интерфейсы Antminer и Whatsminer — где искать одинаковые настройки и чем они принципиально отличаются.