The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, приводящей к повреждению файлов, opennews (??), 01-Дек-23, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


160. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 01-Дек-23, 21:57 
> Зачем система хранения данных с управлением томами защитой от битрота и вот
> этим вот всем для хрениния данных?

Не бывает в современных системах битврота.
Бывают куда более масштабные повреждения, и тут уже что ZFS, что чёрт лысый - всё равно идти за бэкапом.

Ответить | Правка | Наверх | Cообщить модератору

169. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (169), 01-Дек-23, 23:07 
Как еще бывают. Вот я на днях словил. samsung evo 870 выпуска 2021 года, как оказалось, имеет серьезные проблемы качества. В смарте неожиданно выплывают битые блоки, и это на практически неюзанном ссд. Хорошо zfs пожаловался при очередном скрубе, ну и подправил заодно. Но ссд менять все равно конечно. Вроде пишут что самсунг охотно меняет их по гарантии, без особой огласки.
Ответить | Правка | Наверх | Cообщить модератору

173. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноньимъ (ok), 02-Дек-23, 00:19 
Бывает. Не настолько хороши алгоритмы коррекции в дисках. Не говоря уже что там ошибка может много где залезть, в том числе в ОЗУ системы.

Диск вполне себе может выдать неконкретный блок. И это случается даже на небольших объёмах.

А когда у вас петабайты данных, то вероятность словить такое 100%.

Ну и вообще чексуммы не только от этого защищают.
Между единичным бит ротом и смертью половины дисков в пуле - есть много промежуточных состояний.

Ответить | Правка | К родителю #160 | Наверх | Cообщить модератору

187. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  –2 +/
Сообщение от Аноним (21), 02-Дек-23, 02:51 
> Не настолько хороши алгоритмы коррекции в дисках. Не говоря уже что там ошибка может много где залезть, в том числе в ОЗУ системы.
> Ну и вообще чексуммы не только от этого защищают.

диски не с помойки, PCIe c FEC, кэши и ОЗУ с ECC - вот это защищает, а от зоофс с чексуммами пользы не больше чем от бесконтактного ушу, только нервы успокаивает.

Ответить | Правка | Наверх | Cообщить модератору

194. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (194), 02-Дек-23, 12:20 
Какие вы диски используете и какой у них заявленный BER?
Ответить | Правка | Наверх | Cообщить модератору

196. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (21), 02-Дек-23, 12:47 
> Какие вы диски используете и какой у них заявленный BER?

странно что вас BER интересует а не UBER, стандарт допускает 1 некорректируемую ошибку на ~1.1 петабайт для SSD корпоративного класса, к слову для домашних дисков на которых вы храните свою критически важную порнуху UBER допускается в 10 раз хуже.

Ответить | Правка | Наверх | Cообщить модератору

208. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноньимъ (ok), 02-Дек-23, 14:49 
ECC не защищает 100%, а только минимизирует до терпимого.

> а от зоофс с чексуммами пользы не больше чем от бесконтактного ушу, только нервы успокаивает.

Люди скрупулёзно считали математику и внедряли необходимые решения, а у вас пользы нет. Ну нет так нет.

Ответить | Правка | К родителю #187 | Наверх | Cообщить модератору

268. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  –1 +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 09:55 
Когда добавляли в диски ECC - да, люди скрупулёзно считали математику и внедряли необходимые решения.
А у вас оно только "минимизирует до терпимого".
Ну и ладно, кто ж вас заставляет-то. Продолжайте юзать монструозный комбайн сверху, в котором вот это вот обсуждаемое - далеко не последнее.
Ответить | Правка | Наверх | Cообщить модератору

192. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +3 +/
Сообщение от пох. (?), 02-Дек-23, 11:34 
> Не бывает в современных системах битврота.

тем не менее - дефективные диски и контроллеры - еще как бывают.

И лучше иметь возможность узнать об этом вовремя и выбросить без потерь, чем узнать когда чудо-ext4 заявит что журнальчик того-сего и неплохо бы тебе, васян, ручками полезть в консольку.

Мне вот буквально на днях казалось бы супернадежное ентер-прайсное сочетание хитачивской схд и вмвари так принесло пое6аться. Как тебе полсотенки (к счастью отвалилась только пара сторов а не все сразу) систем вывалившихся в у кого бизибокс, у кого просто рак, потомушта "нишмалгла я тут твою ext4, какие-то там orphan nodes, потрахайся-ка ты вручную мальчик? Вместо утренней рюмки портвейна,блжад.

А те у кого была zfs - после ресета поворчали и сами поднялись.

Ответить | Правка | К родителю #160 | Наверх | Cообщить модератору

198. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 02-Дек-23, 13:34 
> А те у кого была zfs - после ресета поворчали и сами поднялись.

Конечно поднялись, там кроме ZFS вообще что-то было, учитывая, как оно с памятью работает?


Ответить | Правка | Наверх | Cообщить модератору

204. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +1 +/
Сообщение от нах. (?), 02-Дек-23, 14:30 
например там база заббикса была (далеко не оптимальная задачка для zfs). И никаких ручных действий не потребовала. Но поскольку убунту трагически сложно ухитриться целиком взгромоздить на zfs- ее системный диск был ext4. И его потребовалсь пнуть вручную чтобы хотя бы загрузиться дальше (rescue) - не смотря на чудо-журнал и прочие модные подпорки под идеей сталетней давности.


Ответить | Правка | Наверх | Cообщить модератору

211. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (110), 02-Дек-23, 15:17 
А в чем сложность?
Ответить | Правка | Наверх | Cообщить модератору

218. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 02-Дек-23, 17:42 
> А в чем сложность?

myisam в общем-то противопоказана жизнь на cow fs. Особенно такой как у жабикса, где бесконечные инсерты и такие же бесконечные удаления. Фрагментация действительно это подтверждает.

Но железо справляется, поэтому переделывать никто не будет.
Скорее уж целиком запихаю на zfs чтоб не как в прошлый раз.

Ответить | Правка | Наверх | Cообщить модератору

225. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (110), 03-Дек-23, 03:31 
А если использовать SLOG?
Ответить | Правка | Наверх | Cообщить модератору

230. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 03-Дек-23, 09:30 
ничем особо не поможет. Там есть особенности, отключать которые опасно (никто не понимает как это работает а вот подтвержденные случаи потери баз - были) а если не отключать оно тормозит что с выделенным zil, что без.
zil это не writeback кэш, это double buffer.

И отдельно - сбой slog device - это "unable to import pool" - 100% надежный способ пойти за бэкапом.

Ответить | Правка | Наверх | Cообщить модератору

297. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (297), 04-Дек-23, 16:35 
Происходит аккумуляция и агрегация до сброса на пул. Между интервалами commit данные могут многократно изменяться, но запишутся только самые последние изменения, что помогает заметно снизить темпы фрагментации. Преимуществ масса! Как вариант, можно установит commit=1,2... и sync=disabled - что поможет заметно улучшить агрегацию данных, с риском потери данных 1,2...секунд.
Ответить | Правка | Наверх | Cообщить модератору

228. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (110), 03-Дек-23, 07:06 
Продолжу мысль, если использовать SLOG, то можно задраться commit до вполне себе космических величин - что отлично поможет в борьбе с фрагментацией.
Ответить | Правка | К родителю #218 | Наверх | Cообщить модератору

212. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 02-Дек-23, 15:43 
Трёхтерабайтная база заббиха живёт уже лет 10 на ext4, и ни разу не чихнула.
Ответить | Правка | К родителю #204 | Наверх | Cообщить модератору

219. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 02-Дек-23, 17:44 
> Трёхтерабайтная база заббиха живёт уже лет 10 на ext4, и ни разу
> не чихнула.

держи в курсе нам очень интересно (нет).
А вот что будет если на ходу выдернуть sata шлейфик? (примерный аналог того что случилось с SAN у нашего)


Ответить | Правка | Наверх | Cообщить модератору

222. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 02-Дек-23, 23:01 
[рвёт на голове волосы]
Там нет SATA-шлейфика...
Ответить | Правка | Наверх | Cообщить модератору

223. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 02-Дек-23, 23:02 
На самом деле - ничего не случится.
Выпадет накопитель с рейда.
Ответить | Правка | К родителю #219 | Наверх | Cообщить модератору

229. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 03-Дек-23, 09:24 
Ну тогда все может быть гораздо интереснее. В эпоху когда рейды были не адской редкостью или атрибутом подвальных, а банально в каждом серваке - совершенно не было необычным в массовой эксплуатации за ночь получить пару алертов, утром поменять две сгоревшие платы и обнаружить что вторая оказалась чуточку не той ревизии и...вотЪ...

А при отключении питания в DC как все интересно (нет, bbu не помогают)

Ответить | Правка | Наверх | Cообщить модератору

231. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 03-Дек-23, 09:57 
При отключении питания в DC веселье в основном в том, что часть систем надо перезапускать в другом DC.
Кластеры разбираются сами, у них есть третья или пятая сторона, многосервиски с балансировщиками тоже, а вот менее критичные некластеризованные вещи да, может случаться и руками переносить.
Ответить | Правка | Наверх | Cообщить модератору

232. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 03-Дек-23, 09:59 
В основном из-за того, что некластеризованные системы не любят сплитбрейнов, и перед переносом желательно удостовериться, что отказавший DC действительно лежит, а не связь с ним пропала временно. Если не удостовериться - да, можно и веселье с множественным доступом к LUN получить, тут уже никакая ZFS не спасёт.
Ответить | Правка | Наверх | Cообщить модератору

203. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Аноним (110), 02-Дек-23, 14:09 
Неужели так нравится позориться? Боже, мой Господь Бог...
Ответить | Правка | К родителю #160 | Наверх | Cообщить модератору

235. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 03-Дек-23, 10:12 
Не нравится - не позорься.

А суть в том, что ZFS для ФС - монструозна, и это далеко не последняя подобного рода проблема в ней.
Плюс то, как она вообще из палок на колене слеплена (её с системным кешем не просто так не удаётся интегрировать) - опять же не улыбает.
Прикладная мерфология фанатикам таковой не прилететь не могла - и в этот раз прилетела аж до визга.

Ответить | Правка | Наверх | Cообщить модератору

247. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +1 +/
Сообщение от edo (ok), 03-Дек-23, 17:08 
> Не бывает в современных системах битврота

Вас обманули.
Из последнего подтверждённого (благодаря zfs, кстати): на паре hdd 16ТБ почти синхронно попортились данные в нескольких секторах. После перезаписи исправлялось, потом опять, в тех же секторах. При этом сами диски никаких ошибок не выдавали, просто чексуммы в zfs не сходились.
Через некоторое время до дисков «дошло», и они начали выдавать ошибки чтения (и были заменены по гарантии).

Ответить | Правка | К родителю #160 | Наверх | Cообщить модератору

253. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 03-Дек-23, 21:04 
> Из последнего подтверждённого (благодаря zfs, кстати): на паре hdd 16ТБ почти синхронно
> попортились данные в нескольких секторах. После перезаписи исправлялось, потом опять,
> в тех же секторах. При этом сами диски никаких ошибок не выдавали, просто чексуммы в zfs не сходились.

Ищите проблему в платформе.


Ответить | Правка | Наверх | Cообщить модератору

255. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 03-Дек-23, 21:19 
> Ищите проблему в платформе.

Гхм, в том же массиве ещё 11 точно таких дисков, с ними проблем нет. Сейчас глянул, аптайм дисков 4 года.
И с теми, что поставили на замену этим двум с бэдами, тоже проблем нет.

Ответить | Правка | Наверх | Cообщить модератору

259. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 09:34 
Поделитесь моделью дисков плиз, по крайней мере буду знать, с чем не связываться.
Хотя вряд ли я с этим конечно свяжусь просто по факту - скорее всего будет отсечено по другим критериям.
Сейчас стоит далеко не один массив с разными дисками. Есть место, где у флеша общий налёт 5 лет.
Есть место, где у оставшихся HDD уже десятка.
Ответить | Правка | Наверх | Cообщить модератору

264. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 09:48 
ST16000NM002G
Вообще дисков на 10+ у меня за сотню, есть и sata, и sas; по производителям — сигейт и hgst/wd.
Проблемы вылезли только на этих двух накопителях; но, конечно, количество накопителей недостаточное чтобы делать какие-то выводы о надёжности конкретных моделей.

Всё, что я знаю — это то, что silent data corruption случается. Да, скорее всего, речь о банальном баге в прошивке, но от этого не легче.

Кстати, автор vitastor'а тоже долго не верил в необходимость чексумм, потом столкнулся с порчей данных на ST8000NM0055

Ответить | Правка | Наверх | Cообщить модератору

274. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:19 
Вообще у этих дисков так-то T10-PI есть. Так что либо кто-то что-то, либо просто используется что-то эдакое.
Ответить | Правка | Наверх | Cообщить модератору

281. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 10:56 
не уверен, что есть (но не проверял).
даже если и есть, t10 pi сам по себе ничего не делает, нужно переформатировать диски на нестандартный размер сектора + нужен софт, который умеет с этим работать.
Ответить | Правка | Наверх | Cообщить модератору

282. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:59 
Зачем софт? Выносные RAID-контроллеры вполне себе умеют. Те же перки с 9 начиная.
Ответить | Правка | Наверх | Cообщить модератору

289. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 12:51 
> Зачем софт? Выносные RAID-контроллеры вполне себе умеют. Те же перки с 9
> начиная.

не пробовал, не скажу. в люблю случае,  доверия к zfs у меня куда больше, чем к некоторому пропиетарному контроллеру (да ещё и заточенному под определённого производителя серверов).
и да, за счёт использования merkle tree у zfs чексуммы гарантируют консистентность фс даже если накопители врут, сомневаюсь, что perk предлагает что-то подобное

ну а то, что для этого функционала не требуется нестандартный формат — ещё один плюс zfs (да, с заменой по гарантии была долгая история, мы заменили эти накопители на то, что было под рукой, как бы не sata)

Ответить | Правка | Наверх | Cообщить модератору

298. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 20:38 
Вообще убедили, пожалуй попробую собрать dm-integrity там, где может прилететь с накопителя.
Но ради этого неадекватной сложности комбайн ZFS - это как 14 гвозди башенным краном забивать.
Ответить | Правка | Наверх | Cообщить модератору

275. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:20 
Ну вот сейчас часть ребят с TrueNAS'ом резко перестали верить в волшебность чексумм :D
Ответить | Правка | К родителю #264 | Наверх | Cообщить модератору

285. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 11:24 
> Ну вот сейчас часть ребят с TrueNAS'ом резко перестали верить в волшебность
> чексумм :D

у этих ребят все тихо - не представляю себе use pattern позволяющий на NAS напороться на этот баг. Там просто нет такого софта.


Ответить | Правка | Наверх | Cообщить модератору

299. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 20:39 
Там уже подтвердили, что напоролись, вроде.
Ответить | Правка | Наверх | Cообщить модератору

300. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 20:39 
Тем более что в режиме SAN почти наверняка для дискарда write hole во все поля.
Ответить | Правка | К родителю #285 | Наверх | Cообщить модератору

301. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 20:40 
А записать задискарденный блок и сразу попробовать его прочитать - это вообще норма жизни.
Ответить | Правка | Наверх | Cообщить модератору

302. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 23:35 
> А записать задискарденный блок и сразу попробовать его прочитать - это вообще
> норма жизни.

так он прочитается. Проблема только при поиске пропущенных блоков, совершенно не понимаю зачем это SAN

Ответить | Правка | Наверх | Cообщить модератору

303. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 05-Дек-23, 00:06 
В том-то и дело, что там как раз таки возможен рейс при котором он не прочитается.
Нет, не только при поиске. Вообще идентификация. Т.е. читнёт нули как раз.
Ответить | Правка | К родителю #302 | Наверх | Cообщить модератору

304. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 05-Дек-23, 00:27 
там исправляли только и исключительно поиск нулей. И ничего больше.

(причем все исправление - если нам надо проверить (а не прочитать) нули - дергаем flush и сидим тихо пока не сольется)

Ответить | Правка | К родителю #303 | Наверх | Cообщить модератору

276. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:37 
А так - да, в последнее время с сигейта ушли на hgst, сигейт достал падучестью.
Silent data corruption действительно случается, его и обсуждаем.

Вообще сами по себе лишние чексуммы - безусловное добро. Зло - это монстр, которого ради него пытаются втюхать в нагрузку. Я вот в этом плане думаю, может просто через dm блочный слой чексумм присобачить...

Ответить | Правка | К родителю #264 | Наверх | Cообщить модератору

277. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:38 
(правда hgst wd теперь, но не суть)
Ответить | Правка | Наверх | Cообщить модератору

279. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:43 
Так-то LVM с dm-integrity вполне себе, и не нужно никаких ZFS'ов.
Ответить | Правка | К родителю #276 | Наверх | Cообщить модератору

341. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  –1 +/
Сообщение от Аноним (-), 06-Дек-23, 09:58 
> Так-то LVM с dm-integrity вполне себе, и не нужно никаких ZFS'ов.

Так то сделать эрзац btrfs/zfs можно и из той этажерки. Но вот когда захочется это еще и отменеджить и что-то переиграть - вот тут и вспоминаешь архитекта Криса Мэйсона, показавшего что это все может быть намного лучше чем вон тот истошный брейнфак. Который ты как-нибудь сам.

Ответить | Правка | Наверх | Cообщить модератору

280. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 10:49 
Другое дело, что экспириенс показывает, что это всё на практике не нужно, но вот на бэкапный сервер почему бы и нет, там как раз вероятность ошибки в долго живущих данных максимальна.
Ответить | Правка | К родителю #276 | Наверх | Cообщить модератору

254. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 03-Дек-23, 21:05 
Вообще - честно - за 30 лет опыта все эти сказки про "потом вот нате развалилось" - вообще не умиляют. Потому что всё это скорее для красного словца, а ситуация - индикация проблем совершенно в другом месте.
Ответить | Правка | К родителю #247 | Наверх | Cообщить модератору

262. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 09:41 
> Вообще - честно - за 30 лет опыта все эти сказки про
> "потом вот нате развалилось" - вообще не умиляют.

вообще-то совершенно типично для твоих любимых аппаратных рейдов.

Сперва начинаются дикие тормоза, и ты ищешь причину где ни попадя, пока не догадываешься посмотреть на чтение с дисков. А после пары-тройки ребутов - внезапно рейд спохватывается и сообщает тебе что один из дисков всьо (хорошо если один а не сразу два в raid5).

До этого момента причем не всегда даже можно угадать, какой именно - наружу тебе ничего не сообщают, просто тупят.

Ответить | Правка | Наверх | Cообщить модератору

266. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 04-Дек-23, 09:53 
Дай угадаю, диски из ближайшего шопа? "RAID-optimized" диски как раз и отличаются тем, что мгновенно сообщают об uncorrectables, не пытаясь их мучительно читать. Причём разница в ценнике ныне может быть не заметной, отличие только в фирмвари.
Ответить | Правка | Наверх | Cообщить модератору

283. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 11:19 
> Дай угадаю, диски из ближайшего шопа?

ты точно работаешь с рейдами, или все же - знания из реддита и википедии?

Так ведут себя штатные рейды в увешанном сертификатами и флажками лезвии IBM, например. Где IBM покупала эти диски - спрашивай у нее, они все в наклейках в три слоя, если хоть один оторвать, хрен тебе а не обслуживание.

(это еще именно IBM, впрочем, в леново такая же хрень только рейд другой и наклейки, само собой, другие. Диски, вполне вероятно, из той же помойки.)

> Причём разница в ценнике ныне может быть не заметной, отличие только

потому что в розницу их никто тебе не продаст. И даже не скажет что это.

Ответить | Правка | Наверх | Cообщить модератору

267. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 09:54 
> До этого момента причем не всегда даже можно угадать, какой именно -
> наружу тебе ничего не сообщают, просто тупят.

В этом плане меня приятно удивляли рейды от hp — они просили поменять работающие диски. И несколько раз действительно угадывали (диск не меняли, а спустя какое-то время он уходил в ошибку).
Читал исследование, в котором для предсказания выхода из строя анализировались задержки дисков; не знаю, это да используется у hpe, или что-то другое

Ответить | Правка | К родителю #262 | Наверх | Cообщить модератору

284. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 11:21 
> В этом плане меня приятно удивляли рейды от hp — они просили

видимо, везло. Вообще-то они могут и на самом деле уметь что-то помимо стандартного dumb-smart Я-то полагал что перепрошивка там в основном s/seagate/hpe/g но возможно и не только (поскольку если ЭТИ вежливо попросят - им-то отдадут исходники и инструменты и еще благодарить будут).

Ответить | Правка | Наверх | Cообщить модератору

290. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 12:54 
идея контроля таймингов операций была как раз независимая от вендора и не требующая дополнительных атрибутов smart.
не удивлюсь, если она и с ssd сработает )
Ответить | Правка | Наверх | Cообщить модератору

293. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 13:31 
> идея контроля таймингов операций была как раз независимая от вендора и не

ну это странная идея - они у разных дисков могут быть разные и их надо мерять, где-то хранить, в общем не для прошивки занятие. Скорее всего что-то более простое у того хепе, тем более они могут себе позволить false alarms, потом у себя перепроверят, пятый слой наклеек налепят и можно еще кому-то поменять.

Ответить | Правка | Наверх | Cообщить модератору

294. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 13:45 
> ну это странная идея - они у разных дисков могут быть разные
> и их надо мерять, где-то хранить, в общем не для прошивки
> занятие.

так важно не абсолютное значение, а изменение.
собирать статистику по нескольким ключевым таймингам на каждый используемый накопитель — не выглядит сложной задачей. поднимать аларм если вдруг какой-то процент обращений существенно выходит за пределы средних значений — тоже.

сходу самое сложное на мой взгляд — это увязать всё это с глубиной очереди (отключать механизм при наличии очереди?).

Ответить | Правка | Наверх | Cообщить модератору

295. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 14:05 
Именно. А для статистики - маленький такой эластик с прометеусом и все это конечно же внутри прошивки.

Неее, это так не работает. Там что-то совсем простое у них.

Ответить | Правка | Наверх | Cообщить модератору

345. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 06-Дек-23, 11:29 
> Именно. А для статистики - маленький такой эластик с прометеусом и все
> это конечно же внутри прошивки.
> Неее, это так не работает. Там что-то совсем простое у них.

да не нужно там никакого прометея, буквально десяток-другой байт в постоянном хранилище и может сотня байт в ОЗУ.
в общем, задача посильная для МК, что уж говорить о полноценных powerpc/arm  в рейд-контроллерах.

Ответить | Правка | Наверх | Cообщить модератору

261. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 09:39 
> Из последнего подтверждённого (благодаря zfs, кстати): на паре hdd 16ТБ почти синхронно
> попортились данные в нескольких секторах. После перезаписи исправлялось, потом опять,

да, можно модельку? Добавить в черный списочек.

Я за всю жизнь с такой х-ней ни разу не сталкивался, почему-то.

Ответить | Правка | К родителю #247 | Наверх | Cообщить модератору

287. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от edo (ok), 04-Дек-23, 12:47 
> да, можно модельку? Добавить в черный списочек.

https://www.opennet.ru/openforum/vsluhforumID3/132224.html#264

> Я за всю жизнь с такой х-ней ни разу не сталкивался, почему-то

точно подтверждённый случай вины диска у меня тоже один (ну два, если считать по накопителям).
а с порчей данных на накопителях сталкивался неоднократно, только на 100% вина накопителя была не доказана.

Ответить | Правка | Наверх | Cообщить модератору

292. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от нах. (?), 04-Дек-23, 13:27 
>> да, можно модельку? Добавить в черный списочек.
> https://www.opennet.ru/openforum/vsluhforumID3/132224.html#264

блин, то есть все exos?
Ну ооок...

Ответить | Правка | Наверх | Cообщить модератору

322. "Обновление OpenZFS 2.1.14 и 2.2.2 с устранением ошибки, прив..."  +/
Сообщение от Tron is Whistling (?), 06-Дек-23, 00:01 
Ну гелиевые Exos на самом деле редкостная дрянь.
Хуже были только VX.
Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру