Ошибка "GPU reached 85°C, mining stopped"

С некоторых пор я стал систематически ловить ошибку сообщение “GPU reached 85°C, mining stopped” и майнинг останавливается. При этом, в конфиге Клеймора у меня стоит tstop=98, tstart=80. Однако, при достижении температуры в 85 градусов на одной из карт майнинг останавливается полностью на всем риге и больше не возобновляется (не смотря на наличие tsart). Такое ощущение, что эту остановку производит не клеймор, а сама HiveOS. Но где это настраивается? В одной из англоязычных тем человек писал, что параметр Red Temp в мониторе влияет на это, однако, у меня он стоял на 80C, а майнинг останавливался на 85. Сейчас я поставил этот параметр 90 градусов, майнинг так же останавливается на 85C.

Данная проблема делает невозможным использование HiveOS, т.к. майнинг почти сразу останавливается и больше не восстанавливается сам.

И самое главное, что эта настройка сверх-тупая. Для моих карт 85 градусов - это нормальная температура. При этой температуре система охлаждения даже не выходит на полную мощность и крутит вентиляторы на 60-70%. А критическая температура для этих карт, кажется, в районе 110 градусов.

В общем, как убрать это недоразумение?

так же столкнулся с такой проблемой. На картах температура где то 70-75гр. и стала вылазить ошибка GPU reached 85°C, mining stopped. Причем я точно знаю что там нет этих 85гр. Майнинг останавливается пока руками не перезагрузить ферму. Сторожевой таймер USB WatchDog Pro2 стоит - но он на ошибку не реагирует, т.к. проверяет только наличие интернета. А интернет то есть ) Программный WatchDog тоже включен и не перезагружает ферму. :frowning: Из 22 ригов, ошибка периодически вылазит на 4-5. Причем как то рандомно. Естественно образ сборки и обновления стоят последние. Карты gigabyte rx570 aurus и 470. Конфиг на пуле по дефолту:

POOL: etc.2miners.com:1010, WALLET: %EWAL%, WORKER: %WORKER_NAME%, PSW: x
доп параметры:
-allcoins etc
-allpools 0
-tt 1

Друзья, кажется я решил проблему, но не понял как именно и почему. Но, возможно, мой путь другим поможет.
Итак, сначала я осознал, что проблема сама по себе появилась лишь после обновления HiveOS. Раньше ее не было. И, в теории, если откатить версию HiveOS до 0.5-50 (примерно), то все должно снова нормально работать (ведь работало!), но я оставил этот вариант на потом.

Я предположил, что проблема может быть в версии Claymore, которая обновилась до 11.8. Поэтому, первое что я сделал - это попробовал запускать клеймор не latest, а конкретно версии 11.6 и 11.7. И, действительно, риг начал вести себя иначе. Если на версии 11.8 я ловил ошибку “GPU reached…” после чего Клеймор вырубался и больше не стартовал (т.е. в запущенных приложениях клеймора не было вообще), то в 11.6 и 11.7 проблема выглядела иначе. А именно, майнинг без каких-либо ошибок в логе вдруг перставал работать. Я подключился по ssh к ригу, вошел в окно клеймора (командой “miner”) и видел следующую картину: запущен Claymore, в нем перечислены все карты, но во всех картах катастрофически мало доступной памяти (memory available которая). У некоторых оставалось буквально 97 Мб, У других 200-300 Мб. Но у всех карт нет памяти для работы. В итоге последняя строчка в клейморе - это то, что более, чем за 5 минут не удалось инициализировать GPU, поэтому нужно рестартиться. Вот только в этот момент клеймор висит наглухо, ни на что не реагирует и не перезапускается. Помогает ребут.

В этот момент я решил покопать в сторону параметра “-r” который отвечает за перезапуск клеймора. Я пробовал использовать “-r 0”, который, судя по описанию, отвечает за то, что в случае сбоя GPU клеймор будет перезапускаться - но это не помогло. Дальше я вычитал, что если использовать параметр “-r 1”, то клеймор в случае сбоя будет не просто рестартить клеймор, а выполнять инструкции, описанные в файле reboot.sh. Я решил создать этот файл и засунуть туда всего одну инструкцию “reboot”, после чего весь риг должен был перезагружаться. Но в процессе создания файла я увидел, что такой файл уже есть. И там довольно длинная инструкция. Я решил, что попробую сначала с ней, поэтому добавил в wallet дополнительный параметр “-r 1” в самый конец и перезапустил риг. И вот… прошли сутки и он больше не выдавал ни одной ошибки и стабильно майнит (хотя обычно его хватало максимум на час).

Но почему я начал с того, что я не понял как я починил и чем, если всё у меня заработало? Дело в том, что в стандартном дистрибутиве Клеймора файла reboot.sh нет. Он добавлен, очевидно, автором HiveOS. Зачем? Чтобы он просто так там лежал? Вряд ли. А если его предполагалось использовать, то в конфиге УЖЕ должен был быть параметр “-r 1” (потому что по дефолту значение “-r” установлено в “0” и файл reboot.sh не используется). И вот я смотрю файлы рига и в /hive/claymore/11.7/config.txt действительно уже выставлен параметр “-r 1” вверху, а в самом низу, куда добавляются пользовательские параметры - он записан еще раз из моего wallet-профиля. Т.е., по сути, я не добавил в конфиг ничего нового… я лишь продублировал параметр “-r 1” и у меня все заработало. По крайней мере сутки работает уже. Но я ещё понаблюдаю за ним.

Прошли вторые сутки. Ни одной остановки майнинга. Температура на одной из карт уже приближается к 90 и всё ок.
Ума не приложу как оно починилось от дублирования “-r 1”. Но реально больше ничего не делал. Но экспериментировать дальше боюсь. Решил, что раз работает - трогать больше ничего не буду и обновлять HiveOS ни в коем случае тоже. А то это реально какая-то жесть… Всё работает прекрасно, обновишь HiveOS - и всё идёт по звезде.

Накаркал. Сразу после этого сообщения риг отключился с типичной ошибкой. После отдыха 2 часа и ручного ребута проработал 5 минут и снова вырубился. Короче я снова там где был. Похоже пора возвращаться на винду.

никакие настройки не помогают… стирал все риги… настраивал заново… вроде заработала ручная настройка вентиляторов… после перезагрузки опять 40% вентиляторы вместо установленных вручную 80%

Я с тобой. Из-за этого я покинул HiveOS. Вернуться к SMOS.

Мы добавили новый autofan по-умолчанию он останавливает майнинг при 85 градусов. Ок, подняли до 90 лимит.
Конфиг автофана будет доступен в новом Hive 2.0.
Пока вручную только можно редактировать.

И как вариант всегда можно сделать downgrade, если нововведения вас не радуют.

И еще можно поправит /hive-config/autofan.conf, там указать CRITICAL_TEMP=110, хотя это кошмарная температура и ничего сверхтупого в сбережении вашего же железа нет.

Вы сберегаете железо спасибо, но у меня просто НЕ РАБОТАют вообще вентиляторы ни в автоматическом режиме… ни в ручном… про +60http://forum.hiveos.farm/uploads/editor/mc/hbz4rc9y66sp.jpg

вот смотрите как работают вентиляторы при настройке 100% вентилятор.
пробовал выставлять -tt 1 и tt 60 ничего не помогает в итоге ферма встаёт по перегреву…

А что смотреть?
Опция tt в на “клее” на зеленых под линукс не работает в принципе

Цитирую документацию к майнеру

Note: for NVIDIA cards in Linux OS temperature management is not supported, only temperature monitoring is supported.

1 Like

если честно не понимаю в чем у народа проблемы ? Касательно скорости работы вентиляторов. Как на красных так и на зеленых выставил руками 80% и все работает. Да, возможно авто регулировка в каких то моментах и глючит, но я изначально решил все выставлять руками и уже почти год с этим нет проблем.

  1. В настройках кошелька (раздел wallets) прописываем -tt 1
  2. И в самом риге прописывает Fan (%): 80