Перейти к содержимому

Чтение логов майнера: Что означают коды ошибок

Панель управления показывает, что происходит прямо сейчас. Логи рассказывают, что произошло и почему. Если панель — это термометр, то логи — это медицинская карта пациента. Когда майнер ведет себя странно, но на дашборде все выглядит нормально (или, наоборот, все красное и непонятно, с чего начинать), логи — это первое место, куда нужно заглянуть.

В этой статье мы разберем, где найти логи, как их читать и что означают самые распространенные коды ошибок.

Расположение логов зависит от производителя и модели майнера. Вот основные варианты:

Через веб-интерфейс:

  • Перейдите в System -> System Log (или Log / Kernel Log в зависимости от версии прошивки)
  • Вы увидите текстовое окно с непрерывным потоком сообщений

Через SSH (для продвинутых пользователей):

Окно терминала
ssh root@192.168.1.100
# Пароль по умолчанию: root
# Основной лог майнинга:
cat /var/log/messages
# Или в реальном времени:
tail -f /var/log/messages

Лог Antminer обычно содержит сообщения от ядра (kernel), CGMiner (программа, управляющая хешированием) и системных служб. Все перемешано в один поток, что поначалу может выглядеть хаотично, но со временем вы научитесь выхватывать нужное.

Каждая строка лога обычно содержит несколько частей:

2024-03-15 14:23:07 [INFO] chain[0] chip[42] nonce found: 0x1a2b3c4d
  • Временная метка (2024-03-15 14:23:07) — когда произошло событие. Критически важна для понимания хронологии проблем.
  • Уровень важности ([INFO], [WARNING], [ERROR]) — насколько серьезное сообщение.
  • Источник (chain[0], chip[42]) — какой компонент сгенерировал сообщение.
  • Сообщение — описание события.

Уровни важности работают как светофор:

УровеньЧто означаетНужно ли беспокоиться?
DEBUGПодробная отладочная информацияНет, это для разработчиков
INFOОбычное информационное сообщениеНет, штатная работа
NOTICEЗаслуживающее внимания событиеСтоит взглянуть
WARNINGПредупреждение о потенциальной проблемеДа, следите за развитием
ERRORОшибка, влияющая на работуДа, нужно разобраться
CRITICAL / FATALКритическая ошибкаСрочно, майнер может остановиться

Отказ ASIC-чипов — одна из самых частых проблем, и логи прямо указывают на нее.

[ERROR] chain[2] chip[15] not responding
[WARNING] chain[2] chip count: expected 126, found 120
[ERROR] chain[2] hashrate drop: 6 chips missing

Эти сообщения говорят о том, что на хеш-плате 2 (нумерация обычно с нуля) шесть чипов перестали отвечать. Майнер ожидал 126 работающих чипов, а обнаружил только 120.

Каждая хеш-плата содержит десятки или сотни ASIC-чипов (зависит от модели). Если один-два чипа отказали, хешрейт этой платы немного упадет, но майнер продолжит работать. Если отказало 10-20% чипов платы, хешрейт существенно просядет. Если отказала большая часть — плата фактически мертва.

  1. 1-3 отказавших чипа: Перезагрузите майнер. Иногда чипы “зависают” из-за программного сбоя и после перезагрузки возвращаются к жизни.
  2. 5-10 отказавших чипов: Скорее всего, аппаратная проблема. Проверьте термопасту на плате, убедитесь, что радиаторы плотно прилегают к чипам. Попробуйте перезагрузить 2-3 раза.
  3. Больше 10 чипов или вся плата: Плата, вероятно, нуждается в ремонте или замене. Это может быть выгорание чипа, отвал BGA-пайки или повреждение цепи питания.

Когда температура чипов приближается к опасному порогу, прошивка автоматически снижает производительность, чтобы защитить оборудование. В логах это выглядит так:

[WARNING] chain[1] temp 82C exceeds threshold 80C
[WARNING] throttling chain[1]: reducing frequency from 600MHz to 500MHz
[INFO] chain[1] temp dropped to 76C after throttling

Хронология понятна: температура платы 1 превысила 80 градусов, прошивка снизила частоту с 600 до 500 МГц, температура упала до 76 градусов.

  • Высокая температура помещения. Если в комнате 35 градусов и нет нормальной вентиляции, майнер будет постоянно троттлить.
  • Засорение пылью. Пыль забивает радиаторы и снижает эффективность охлаждения. Регулярная продувка — обязательна.
  • Неисправный вентилятор. Если один из вентиляторов замедлился или остановился, соседние платы перегреваются.
  • Высохшая термопаста. Со временем термопаста между чипами и радиаторами теряет свойства, контакт ухудшается, тепло отводится хуже.
  • Разгон без достаточного охлаждения. Увеличили частоту, а про охлаждение забыли — классическая ситуация.

Сообщения об ошибках вентиляторов в логах выглядят примерно так:

[ERROR] fan[2] speed: 0 RPM (expected > 2000 RPM)
[WARNING] fan speed abnormal, entering protection mode
[ERROR] all fans stopped - emergency shutdown initiated

Вентилятор показывает 0 RPM:

  • Вентилятор реально остановился — нужна замена
  • Датчик оборотов вышел из строя, но вентилятор крутится — менее критично, но все равно нужно проверить физически

Вентилятор на максимальных оборотах, но температура растет:

  • Забиты радиаторы пылью
  • Вентилятор крутится, но крыльчатка разболталась и не создает нормального потока воздуха
  • Высохла термопаста

Все вентиляторы показывают аномальные значения:

  • Проблема с контрольной платой, а не с самими вентиляторами
  • Проблема с прошивкой — попробуйте перезагрузку

Майнер постоянно общается с пулом по протоколу Stratum. Любой разрыв этого соединения отражается в логах:

[WARNING] stratum connection to pool1 timed out after 30s
[INFO] switching to backup pool (pool2)
[ERROR] all pools unreachable - waiting 60s before retry
[INFO] reconnected to pool1 successfully

Connection timed out (таймаут соединения):

  • Пул временно недоступен (техработы, DDoS-атака на пул)
  • Проблемы с вашим интернет-соединением
  • DNS не может разрешить адрес пула
  • Файрвол блокирует исходящие соединения на порт пула

Connection refused (соединение отклонено):

  • Неправильный адрес или порт пула в настройках
  • Пул заблокировал ваш IP (крайне редко)

DNS resolution failed (ошибка DNS):

  • DNS-сервер недоступен
  • Неправильно написан адрес пула (опечатка)
  • Решение: попробуйте использовать IP-адрес пула вместо доменного имени или смените DNS на 8.8.8.8

Помимо сетевых проблем, ошибки могут возникать на уровне самого протокола Stratum:

[ERROR] stratum error 23: "Low difficulty share"
[WARNING] stratum error 21: "Job not found (stale)"
[ERROR] stratum error 25: "Not subscribed"
КодСообщениеЧто это значит
20Other/UnknownОбщая ошибка; смотрите текст сообщения
21Job not foundШара отправлена для задания, которое уже устарело (stale share)
22Duplicate shareОдинаковая шара отправлена дважды
23Low difficulty shareШара не соответствует целевой сложности
24Unauthorized workerВоркер не авторизован — проверьте логин и пароль
25Not subscribedМайнер попытался отправить шару до завершения подписки

Ошибка 21 (stale share) — самая распространенная и обычно не страшная. Она означает, что майнер нашел шару для задания, которое пул уже заменил новым (например, потому что кто-то в сети нашел блок). Небольшой процент устаревших шар (1-3%) — это нормально. Если процент превышает 5-10%, проверьте задержку сети (пинг до пула) и качество соединения.

Ошибка 23 (low difficulty share) — серьезнее. Она означает, что майнер отправляет шары, которые не достигают даже облегченного порога сложности пула. Это может быть признаком неисправности чипов, проблемы с прошивкой или рассинхронизации параметров сложности между майнером и пулом. Попробуйте перезагрузить майнер.

Ошибка 24 (unauthorized worker) — проблема с настройками. Перепроверьте имя воркера и пароль в настройках пула. Частая ошибка — лишний пробел или опечатка в имени воркера.

В процессе работы лог постоянно фиксирует отправку шар и ответы пула:

[INFO] accepted: 14523/14589 (99.55%), best share: 1.23T
[INFO] rejected: 66/14589 (0.45%)
[INFO] stale: 43, duplicate: 2, low diff: 0, other: 21
  • Accepted rate 98%+ — отлично, все работает как надо
  • Accepted rate 95-98% — терпимо, но стоит разобраться, почему отклоняются шары
  • Accepted rate ниже 95% — проблема, вы теряете ощутимую долю вычислительной работы

Детализация rejected шар подсказывает источник проблемы:

  • Много stale (устаревших) — высокая задержка сети или медленное переключение между заданиями
  • Много duplicate (дубликатов) — программный баг или проблема с extraNonce
  • Много low difficulty — аппаратная проблема, неисправные чипы

Логи — это первое, что попросит у вас техническая поддержка или ремонтный сервис. Вот как их экспортировать:

Через веб-интерфейс: В разделе System Log обычно есть кнопка Download или возможность скопировать текст из окна лога.

Через SSH: Подключитесь и скопируйте файл:

Окно терминала
scp root@192.168.1.100:/var/log/messages ./antminer-log.txt

При обращении за помощью соберите следующую информацию:

  1. Полный лог за период, когда возникла проблема (не только ошибки, но и контекст вокруг них)
  2. Скриншот дашборда — текущее состояние майнера
  3. Модель и версию прошивки — обычно видно на главной странице веб-интерфейса
  4. Описание проблемы — когда началось, при каких обстоятельствах, что вы уже пробовали

Практический пример: диагностика по логам

Заголовок раздела «Практический пример: диагностика по логам»

Представим реальную ситуацию. Вы заходите на дашборд и видите, что хешрейт упал на 30%. Открываете логи и видите:

14:00:01 [INFO] chain[0] hashrate: 67.5 TH/s (OK)
14:00:01 [INFO] chain[1] hashrate: 65.2 TH/s (OK)
14:00:01 [INFO] chain[2] hashrate: 21.3 TH/s (LOW)
14:00:15 [WARNING] chain[2] 38 chips not responding
14:00:15 [WARNING] chain[2] temp sensor: 91C
14:00:16 [WARNING] throttling chain[2]: frequency reduced to 300MHz
14:01:00 [ERROR] fan[3] speed: 1200 RPM (below minimum 2000 RPM)
14:01:30 [WARNING] chain[2] temp still rising: 93C
14:02:00 [ERROR] chain[2] entering thermal protection mode

Читаем историю по порядку:

  1. Платы 0 и 1 работают нормально (67.5 и 65.2 TH/s).
  2. Плата 2 просела до 21.3 TH/s — треть от нормы.
  3. На плате 2 не отвечают 38 чипов — это много.
  4. Температура платы 2 достигла 91 градуса — критично.
  5. Прошивка снизила частоту до 300 МГц, пытаясь охладить.
  6. Вентилятор 3 работает на 1200 RPM вместо минимальных 2000 — он умирает.
  7. Температура продолжает расти, несмотря на троттлинг.
  8. Плата 2 переходит в защитный режим.

Диагноз: Вентилятор 3, скорее всего, обслуживающий сторону платы 2, выходит из строя. Из-за недостаточного охлаждения плата перегревается, чипы начинают отказывать, прошивка снижает частоту, но даже этого недостаточно.

Решение: Заменить вентилятор 3. После замены перезагрузить майнер и проверить, вернулись ли все чипы платы 2 в строй. Если часть чипов не восстановилась после устранения перегрева, они могли получить термическое повреждение.

Логи — это ваш главный инструмент диагностики. Панель управления говорит “что-то не так”, а логи говорят “вот что именно не так, вот когда это началось, и вот что к этому привело”. Научиться быстро находить в потоке лог-записей ключевые ошибки — навык, который окупится при первой же серьезной проблеме.

В следующей статье мы сравним веб-интерфейсы Antminer и Whatsminer — где искать одинаковые настройки и чем они принципиально отличаются.