Периодически (раз в сутки,двое) ethminer отваливается , но при этом Хешрейт не падает а падает температура GPU т.е. просиходит странное - риг показывает что работает и Хешрейт в порядке , а на самом деле GPU не работает . Замечаю этот момент только когда на Пуле явно заметна просадка по Хешрейту . При этом температура GPU падает до минимума . Перезапуск Минера помогает решить данный момент . Предлагаю как вариант в watchdog добавить параметр температура … если он становиться меньше “крейсерской” рестарт майнера.
Использовать температуру в качестве параметра для софтватчдога - это Бред, бредовый бред.
Есть другие параметры для определения отвала карты, но в данном случае лучше посмотреть на причины отвала. На лицо деградация карты
вам видней ) подскажите если не сложно какими параметрами отслеживать тот момеент , когда майнер показывает что хешрейт есть , но карта в простое… .
кстати нашел ошибку после которой такое происходит … в логах такое
at line 489 : an illegal memory access was encountered.
5:35:28^[[0m^[[30m|^[[34mcuda-0 ^[[0m Error CUDA mining: an illegal memory access was encountered
судя по тому что пишут на форумах я не один такой
как я понимаю это последствия разгона , но блин стабильная работа в пару суток и вот такой крашшшш… будем понижать частоту…
illegal memory access was encountered
В 90% переразгон и переразгон именно по памяти. Но на эквишеш связка ядро-память. Не стоит гнать сильно память потому что это эквихеш.
Ну а то что периодически сбоит лишь говорит, что сейчас разгон на границе стабильности и жадности. Со временем наступает деградация и как следствие вылет. Чуть-чуть подкорректируйте и думаю будет все ОК.
спасибо , видимо память микротик не лббит такой разгон… точно такая же видяха с самсунгом работает без вылетов… спасибо за отзывчивость
ну вы сравнили микрон (не микротик, микротик - производитель сетевого оборудования) с самсунгом. У самсунговской памяти широкие предели нагрузочной способности, а микрон работает в рамках своих заводских характеристик и в разгоне очень чувствителен и капризен.
в продолжение вопроса про контроль температуры , наверное было б не плохо иметь какой нибудь сигнализатор о ее резком снижение… перегрев само сабой понятен (еще б об этом в телеграмм уведомлялка прилетала ), но и падение температуры было б не бесполезно отслеживать… но хозяин барин ))
Перегрев в целом возможно имеет смысл … хотя нужно рассматривать вопрос комплексно вместе с недопущением ситуации.
Снижение температуры - тема из разряда “тонкий лед”.
О ! сделали оповещалку о перегреве :)) как здорова
Только что была ситуация: ETHminer показывал хэшрейт, как будто все норм, но карты остыли. На пуле тишина. Добавить мин. температуру к оповещениям или настройкам вотчдога было бы не лишним
ETHminer странный майнер. Да нет у него devfee и в некоторых случаях он даже выдает немного больше хешей, но и баги и достаточно серьезные имеются, а правки вносяться не так быстро как хотелось бы. На данный момент к сожалению по функционалу он сильно уступает майнеру от клеймора. Поэтому равняться на него было бы более чем странно ровно как и оповещение о минимальной температуре.
С точки зрения ИТ выглядит как попытка сделать костыль под конкретиный майнер. Поэтому пожелание выглядит более чем странно )))
я уже с этим тоже столкнулся , понижение частоты ОС решило вопрос .
при чем не на много … я понизил на 50
Поймите уже - любой разгон это уход от характеристик заложенных производителем. Даже одинаковые микросхемы памяти, даже в одной партии, могут по-разному реагировать на разгон. Масса примеров когда и 5 МГц имело значение.
Даже если карта не глючит, такое бывает. Майнер в силу багов просто перестаёт прогружать все карты.
В действительности имеет смысл смотреть за утилизацией процов карты. nvidia-smi этот параметр кажет.
Если утилизация еа карте становится 20% - нужно перезхапускать майнер.
Это и самому сделать не сложно - просто повесить скрипт, следящий за утилизацией в те моменты, когда майнер запущен(любой). И, еси чо, перезапускать майнера.