Чтение логов майнера: Что означают коды ошибок
Панель управления показывает, что происходит прямо сейчас. Логи рассказывают, что произошло и почему. Если панель — это термометр, то логи — это медицинская карта пациента. Когда майнер ведет себя странно, но на дашборде все выглядит нормально (или, наоборот, все красное и непонятно, с чего начинать), логи — это первое место, куда нужно заглянуть.
В этой статье мы разберем, где найти логи, как их читать и что означают самые распространенные коды ошибок.
Где найти логи
Заголовок раздела «Где найти логи»Расположение логов зависит от производителя и модели майнера. Вот основные варианты:
Через веб-интерфейс:
- Перейдите в System -> System Log (или Log / Kernel Log в зависимости от версии прошивки)
- Вы увидите текстовое окно с непрерывным потоком сообщений
Через SSH (для продвинутых пользователей):
ssh root@192.168.1.100# Пароль по умолчанию: root# Основной лог майнинга:cat /var/log/messages# Или в реальном времени:tail -f /var/log/messagesЛог Antminer обычно содержит сообщения от ядра (kernel), CGMiner (программа, управляющая хешированием) и системных служб. Все перемешано в один поток, что поначалу может выглядеть хаотично, но со временем вы научитесь выхватывать нужное.
Через веб-интерфейс:
- Раздел Log или Download Log в интерфейсе
- Whatsminer часто предлагает скачать лог-файл целиком, а не показывает его в браузере
Через API:
echo '{"cmd":"get_error_code"}' | nc 192.168.1.100 4028Whatsminer хранит логи иначе, чем Antminer. Часто доступен отдельный файл с кодами ошибок и временными метками, что упрощает диагностику.
Структура лог-записи
Заголовок раздела «Структура лог-записи»Каждая строка лога обычно содержит несколько частей:
2024-03-15 14:23:07 [INFO] chain[0] chip[42] nonce found: 0x1a2b3c4d- Временная метка (
2024-03-15 14:23:07) — когда произошло событие. Критически важна для понимания хронологии проблем. - Уровень важности (
[INFO],[WARNING],[ERROR]) — насколько серьезное сообщение. - Источник (
chain[0],chip[42]) — какой компонент сгенерировал сообщение. - Сообщение — описание события.
Уровни важности работают как светофор:
| Уровень | Что означает | Нужно ли беспокоиться? |
|---|---|---|
| DEBUG | Подробная отладочная информация | Нет, это для разработчиков |
| INFO | Обычное информационное сообщение | Нет, штатная работа |
| NOTICE | Заслуживающее внимания событие | Стоит взглянуть |
| WARNING | Предупреждение о потенциальной проблеме | Да, следите за развитием |
| ERROR | Ошибка, влияющая на работу | Да, нужно разобраться |
| CRITICAL / FATAL | Критическая ошибка | Срочно, майнер может остановиться |
Типичные ошибки: отказ чипов
Заголовок раздела «Типичные ошибки: отказ чипов»Отказ ASIC-чипов — одна из самых частых проблем, и логи прямо указывают на нее.
Как это выглядит в логах
Заголовок раздела «Как это выглядит в логах»[ERROR] chain[2] chip[15] not responding[WARNING] chain[2] chip count: expected 126, found 120[ERROR] chain[2] hashrate drop: 6 chips missingЭти сообщения говорят о том, что на хеш-плате 2 (нумерация обычно с нуля) шесть чипов перестали отвечать. Майнер ожидал 126 работающих чипов, а обнаружил только 120.
Что это значит на практике?
Заголовок раздела «Что это значит на практике?»Каждая хеш-плата содержит десятки или сотни ASIC-чипов (зависит от модели). Если один-два чипа отказали, хешрейт этой платы немного упадет, но майнер продолжит работать. Если отказало 10-20% чипов платы, хешрейт существенно просядет. Если отказала большая часть — плата фактически мертва.
Что делать?
Заголовок раздела «Что делать?»- 1-3 отказавших чипа: Перезагрузите майнер. Иногда чипы “зависают” из-за программного сбоя и после перезагрузки возвращаются к жизни.
- 5-10 отказавших чипов: Скорее всего, аппаратная проблема. Проверьте термопасту на плате, убедитесь, что радиаторы плотно прилегают к чипам. Попробуйте перезагрузить 2-3 раза.
- Больше 10 чипов или вся плата: Плата, вероятно, нуждается в ремонте или замене. Это может быть выгорание чипа, отвал BGA-пайки или повреждение цепи питания.
Троттлинг по температуре
Заголовок раздела «Троттлинг по температуре»Когда температура чипов приближается к опасному порогу, прошивка автоматически снижает производительность, чтобы защитить оборудование. В логах это выглядит так:
[WARNING] chain[1] temp 82C exceeds threshold 80C[WARNING] throttling chain[1]: reducing frequency from 600MHz to 500MHz[INFO] chain[1] temp dropped to 76C after throttlingХронология понятна: температура платы 1 превысила 80 градусов, прошивка снизила частоту с 600 до 500 МГц, температура упала до 76 градусов.
Причины перегрева
Заголовок раздела «Причины перегрева»- Высокая температура помещения. Если в комнате 35 градусов и нет нормальной вентиляции, майнер будет постоянно троттлить.
- Засорение пылью. Пыль забивает радиаторы и снижает эффективность охлаждения. Регулярная продувка — обязательна.
- Неисправный вентилятор. Если один из вентиляторов замедлился или остановился, соседние платы перегреваются.
- Высохшая термопаста. Со временем термопаста между чипами и радиаторами теряет свойства, контакт ухудшается, тепло отводится хуже.
- Разгон без достаточного охлаждения. Увеличили частоту, а про охлаждение забыли — классическая ситуация.
Ошибки вентиляторов
Заголовок раздела «Ошибки вентиляторов»Сообщения об ошибках вентиляторов в логах выглядят примерно так:
[ERROR] fan[2] speed: 0 RPM (expected > 2000 RPM)[WARNING] fan speed abnormal, entering protection mode[ERROR] all fans stopped - emergency shutdown initiatedВарианты проблем
Заголовок раздела «Варианты проблем»Вентилятор показывает 0 RPM:
- Вентилятор реально остановился — нужна замена
- Датчик оборотов вышел из строя, но вентилятор крутится — менее критично, но все равно нужно проверить физически
Вентилятор на максимальных оборотах, но температура растет:
- Забиты радиаторы пылью
- Вентилятор крутится, но крыльчатка разболталась и не создает нормального потока воздуха
- Высохла термопаста
Все вентиляторы показывают аномальные значения:
- Проблема с контрольной платой, а не с самими вентиляторами
- Проблема с прошивкой — попробуйте перезагрузку
Сетевые проблемы и таймауты
Заголовок раздела «Сетевые проблемы и таймауты»Майнер постоянно общается с пулом по протоколу Stratum. Любой разрыв этого соединения отражается в логах:
[WARNING] stratum connection to pool1 timed out after 30s[INFO] switching to backup pool (pool2)[ERROR] all pools unreachable - waiting 60s before retry[INFO] reconnected to pool1 successfullyТипичные сетевые ошибки
Заголовок раздела «Типичные сетевые ошибки»Connection timed out (таймаут соединения):
- Пул временно недоступен (техработы, DDoS-атака на пул)
- Проблемы с вашим интернет-соединением
- DNS не может разрешить адрес пула
- Файрвол блокирует исходящие соединения на порт пула
Connection refused (соединение отклонено):
- Неправильный адрес или порт пула в настройках
- Пул заблокировал ваш IP (крайне редко)
DNS resolution failed (ошибка DNS):
- DNS-сервер недоступен
- Неправильно написан адрес пула (опечатка)
- Решение: попробуйте использовать IP-адрес пула вместо доменного имени или смените DNS на 8.8.8.8
Ошибки Stratum-протокола
Заголовок раздела «Ошибки Stratum-протокола»Помимо сетевых проблем, ошибки могут возникать на уровне самого протокола Stratum:
[ERROR] stratum error 23: "Low difficulty share"[WARNING] stratum error 21: "Job not found (stale)"[ERROR] stratum error 25: "Not subscribed"Расшифровка кодов ошибок Stratum
Заголовок раздела «Расшифровка кодов ошибок Stratum»| Код | Сообщение | Что это значит |
|---|---|---|
| 20 | Other/Unknown | Общая ошибка; смотрите текст сообщения |
| 21 | Job not found | Шара отправлена для задания, которое уже устарело (stale share) |
| 22 | Duplicate share | Одинаковая шара отправлена дважды |
| 23 | Low difficulty share | Шара не соответствует целевой сложности |
| 24 | Unauthorized worker | Воркер не авторизован — проверьте логин и пароль |
| 25 | Not subscribed | Майнер попытался отправить шару до завершения подписки |
Ошибка 21 (stale share) — самая распространенная и обычно не страшная. Она означает, что майнер нашел шару для задания, которое пул уже заменил новым (например, потому что кто-то в сети нашел блок). Небольшой процент устаревших шар (1-3%) — это нормально. Если процент превышает 5-10%, проверьте задержку сети (пинг до пула) и качество соединения.
Ошибка 23 (low difficulty share) — серьезнее. Она означает, что майнер отправляет шары, которые не достигают даже облегченного порога сложности пула. Это может быть признаком неисправности чипов, проблемы с прошивкой или рассинхронизации параметров сложности между майнером и пулом. Попробуйте перезагрузить майнер.
Ошибка 24 (unauthorized worker) — проблема с настройками. Перепроверьте имя воркера и пароль в настройках пула. Частая ошибка — лишний пробел или опечатка в имени воркера.
Accepted и Rejected в логах
Заголовок раздела «Accepted и Rejected в логах»В процессе работы лог постоянно фиксирует отправку шар и ответы пула:
[INFO] accepted: 14523/14589 (99.55%), best share: 1.23T[INFO] rejected: 66/14589 (0.45%)[INFO] stale: 43, duplicate: 2, low diff: 0, other: 21Что считать нормой?
Заголовок раздела «Что считать нормой?»- Accepted rate 98%+ — отлично, все работает как надо
- Accepted rate 95-98% — терпимо, но стоит разобраться, почему отклоняются шары
- Accepted rate ниже 95% — проблема, вы теряете ощутимую долю вычислительной работы
Детализация rejected шар подсказывает источник проблемы:
- Много stale (устаревших) — высокая задержка сети или медленное переключение между заданиями
- Много duplicate (дубликатов) — программный баг или проблема с extraNonce
- Много low difficulty — аппаратная проблема, неисправные чипы
Экспорт логов
Заголовок раздела «Экспорт логов»Логи — это первое, что попросит у вас техническая поддержка или ремонтный сервис. Вот как их экспортировать:
Через веб-интерфейс: В разделе System Log обычно есть кнопка Download или возможность скопировать текст из окна лога.
Через SSH: Подключитесь и скопируйте файл:
scp root@192.168.1.100:/var/log/messages ./antminer-log.txtЧерез веб-интерфейс: Раздел Log обычно предлагает кнопку Download Log для скачивания полного лог-файла.
Через API: Некоторые модели позволяют получить лог через API-запрос.
Что сохранять?
Заголовок раздела «Что сохранять?»При обращении за помощью соберите следующую информацию:
- Полный лог за период, когда возникла проблема (не только ошибки, но и контекст вокруг них)
- Скриншот дашборда — текущее состояние майнера
- Модель и версию прошивки — обычно видно на главной странице веб-интерфейса
- Описание проблемы — когда началось, при каких обстоятельствах, что вы уже пробовали
Практический пример: диагностика по логам
Заголовок раздела «Практический пример: диагностика по логам»Представим реальную ситуацию. Вы заходите на дашборд и видите, что хешрейт упал на 30%. Открываете логи и видите:
14:00:01 [INFO] chain[0] hashrate: 67.5 TH/s (OK)14:00:01 [INFO] chain[1] hashrate: 65.2 TH/s (OK)14:00:01 [INFO] chain[2] hashrate: 21.3 TH/s (LOW)14:00:15 [WARNING] chain[2] 38 chips not responding14:00:15 [WARNING] chain[2] temp sensor: 91C14:00:16 [WARNING] throttling chain[2]: frequency reduced to 300MHz14:01:00 [ERROR] fan[3] speed: 1200 RPM (below minimum 2000 RPM)14:01:30 [WARNING] chain[2] temp still rising: 93C14:02:00 [ERROR] chain[2] entering thermal protection modeЧитаем историю по порядку:
- Платы 0 и 1 работают нормально (67.5 и 65.2 TH/s).
- Плата 2 просела до 21.3 TH/s — треть от нормы.
- На плате 2 не отвечают 38 чипов — это много.
- Температура платы 2 достигла 91 градуса — критично.
- Прошивка снизила частоту до 300 МГц, пытаясь охладить.
- Вентилятор 3 работает на 1200 RPM вместо минимальных 2000 — он умирает.
- Температура продолжает расти, несмотря на троттлинг.
- Плата 2 переходит в защитный режим.
Диагноз: Вентилятор 3, скорее всего, обслуживающий сторону платы 2, выходит из строя. Из-за недостаточного охлаждения плата перегревается, чипы начинают отказывать, прошивка снижает частоту, но даже этого недостаточно.
Решение: Заменить вентилятор 3. После замены перезагрузить майнер и проверить, вернулись ли все чипы платы 2 в строй. Если часть чипов не восстановилась после устранения перегрева, они могли получить термическое повреждение.
Подведем итоги
Заголовок раздела «Подведем итоги»Логи — это ваш главный инструмент диагностики. Панель управления говорит “что-то не так”, а логи говорят “вот что именно не так, вот когда это началось, и вот что к этому привело”. Научиться быстро находить в потоке лог-записей ключевые ошибки — навык, который окупится при первой же серьезной проблеме.
В следующей статье мы сравним веб-интерфейсы Antminer и Whatsminer — где искать одинаковые настройки и чем они принципиально отличаются.