The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

В OpenZFS выявлена ошибка, которая может привести к повреждению файлов, opennews (??), 23-Ноя-23, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


53. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от fidoman (ok), 23-Ноя-23, 13:45 
Выкинуть бы всё это "творчество", но проблема только в том, что другого решения для raid5/raid6 с хешами для проверки целостности данных на дисках в общем-то и нет, а обнуление секторов или просто их порча даже при не особо большом объёме данных происходят регулярно...
Ответить | Правка | Наверх | Cообщить модератору

62. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –1 +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 14:03 
Чего, простите?
RAID5/6 собственно и позволяет проверить целостность...
Ответить | Правка | Наверх | Cообщить модератору

112. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от fidoman (ok), 23-Ноя-23, 15:58 
> Чего, простите?
> RAID5/6 собственно и позволяет проверить целостность...

RAID5 позволяет восстановить недостающий диск, но не позволяет корректно восстановить данные, если один диск выдаёт неверные и неизвестно, какой.

Ответить | Правка | Наверх | Cообщить модератору

139. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от аНОНИМ (?), 23-Ноя-23, 17:31 
> RAID5 позволяет восстановить недостающий диск, но не позволяет корректно восстановить данные, если один диск выдаёт неверные и неизвестно, какой.

А вот RAID6 теоретически позволяет (если битые данные на одном диске из всех), но опять же нихрена такого mdraid не делает. Я проверял.

Ответить | Правка | Наверх | Cообщить модератору

226. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (-), 24-Ноя-23, 03:12 
>> RAID5 позволяет восстановить недостающий диск, но не позволяет корректно восстановить данные, если один диск выдаёт неверные и неизвестно, какой.
> А вот RAID6 теоретически позволяет (если битые данные на одном диске из
> всех), но опять же нихрена такого mdraid не делает. Я проверял.

А на btrfs такое даже работает, я для RAID1 и DUP проверял - таки просекает какая копия битая, чинит, и продолжает работать как ни в чем ни бывало. Даже на сыпучей флешке выживает. Выглядит как потрошеный окунь в живой воде у стругацких, но при всем этом - еще и работает. Крутануть теорвер в свою пользу - по своему забавно.

Ответить | Правка | Наверх | Cообщить модератору

228. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от аНОНИМ (?), 24-Ноя-23, 09:09 
> А на btrfs такое даже работает, я для RAID1 и DUP проверял - таки просекает какая копия битая, чинит, и продолжает работать как ни в чем ни бывало. Даже на сыпучей флешке выживает.

На бтрфс с миррорами -- работает. С раид5-6 когда я проверял (довольно давно) -- НЕ работало. Отдавало примерно половину файлов или меньше, остальные io error. А вот OpenZFS что с миррорами, что с рейдZ1/2 -- тоже железобетонно всё отдавало.

Я проверял очень просто -- писал файлы, потом делал dd if=/dev/urandom of=/весь/девайс/из/рейда и монтировал ФС взад. ZFS усралось спамить в dmesg, но всё железобетонно отдало. А после скруба стало как новое. btrfs с raid5/6 обломался.

Допускаю, что сейчас там raid5 починили и он уже всё отдаст. Но проверить пока негде.

Ответить | Правка | Наверх | Cообщить модератору

323. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 26-Ноя-23, 01:16 
>> А на btrfs такое даже работает, я для RAID1 и DUP проверял
> На бтрфс с миррорами -- работает.

А я умею читать документацию, и если нечто озвучено как экспериментальная фича - ну я и делаю определенные выводы.

Впрочем - там можно и более продвинуто. Скажем если метаданные RAID1 (или даже RAID1C3 для фанатов RAID6) а данные RAID5/6 - это уже более интересное комбо. Потому что write hole перестает импактить метаданные, а остальное - все же менее проблемный топик. Если метаданные живые, все намного оптимистичнее в плане перспектив.

На самом деле write hole там можно аннулировать scrub после краха, но это неудобное требование. Более полное решение требует изменение структур ФС для логинга write intent и все такое.

> С раид5-6 когда я проверял (довольно > давно) -- НЕ работало.
> Отдавало примерно половину файлов или меньше, остальные io error.

RAID5 таки довольно заметно пофиксили - хоть и ценой потери перфоманса в ряде операций, ибо полный RMW страйпа делается чаще. В паре с RAID1 для метаданных, можно уже даже попробовать потрепыхаться. Но официально все равно experimental, и если что - ну, девы честно сказали как оно. Мне честное описание свойств - больше нравится чем красивые сказки. Меньше неприятных сюрпризов. Больше места для информированных осознанных решений.

> А вот OpenZFS что с миррорами, что с рейдZ1/2 -- тоже железобетонно всё отдавало.

Да вот судя по новости, с дополнениями, где вообще рефлинки, кажется, амнистировали - но теперь вообще "хрен бы его знает что это и где" - потому что походу накрывает и старые корутилсы, и более лохматые версии без рефлинков, там целая детективная история, где встречаются джамшуты месившие хз что, паленые материалы, и пара обрушившихся зданий, после чего и стали изучать что за фигня такая с этим железобетоном.

> Я проверял очень просто -- писал файлы, потом делал dd if=/dev/urandom
> of=/весь/девайс/из/рейда и монтировал ФС взад.
> ZFS усралось спамить в dmesg, но всё железобетонно отдало.
> А после скруба стало как новое. btrfs с raid5/6 обломался.

Ну вон то какой-то не особо реалистичный случай отказа. Чему в реальном мире ЭТО соответствует?

> Допускаю, что сейчас там raid5 починили и он уже всё отдаст. Но проверить пока негде.

Могло на слет супера обидиться еще. Но в таком случае вы всяко ребилд девайса по всей площади делать будете, плюс-минус передобавка девайса чтобы супер нарезать

Более того - я не совсем понимаю как идентифицировать девайс без супера как свой. По буковкам? Это достаточно чревато, ща линукскернель оборудованеи асинхронно инициализирует, буковки - ну вот не обязаны мировой константой быть.

У вас - ну вы все 3 копии супера вынесли. В реальных сценариях, от них или что-то останется, или это полный отказ и замена девайса с полным ребилдом соответственно. Разработчики btrfs все же на реалистичные сценарии ориентировались. А как там какая тушка с оторваной головой бегает - ну, не очень интересно, имхо. Интереснее чтобы с типовыми факапами железа справлялось.

И в этом смысле - накопителей подсирающих трухой в секторах сейчас заметно прибавилось например. Я не спорю что вон то забавные тест, но он не соответствует ни одному из real workd сценариев отказа сторажей которые я видел.

Ответить | Правка | Наверх | Cообщить модератору

168. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (165), 23-Ноя-23, 19:44 
Я смотрю ты шаришь. Не объяснишь по простому, что такое write gap у RAID5/6?
Ответить | Правка | К родителю #62 | Наверх | Cообщить модератору

182. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 22:58 
Не объясню - это ошибочный термин.
Ответить | Правка | Наверх | Cообщить модератору

183. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:00 
И применять его в контексте рейда не следует, термин write gap действительно существует - но он относится к аппаратуре записи магнитных накопителей, а вовсе не к рейду, и не имеет прямого отношения ни к надёжности, ни к производительности, хотя влияет на оба параметра.
Ответить | Правка | К родителю #168 | Наверх | Cообщить модератору

204. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от Аноним (204), 24-Ноя-23, 01:04 
Тогда мне поясни за wright hole.
Ответить | Правка | Наверх | Cообщить модератору

63. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 14:04 
Если у вас порча секторов происходит регулярно - есть смысл посмотреть в сторону стабильности платформы, скорее всего данные теряются до записи на диск.

Потому что у накопителей свои ECC, и вот просто так "обнулиться" сектор не может.

Ответить | Правка | К родителю #53 | Наверх | Cообщить модератору

110. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –3 +/
Сообщение от fidoman (ok), 23-Ноя-23, 15:49 
> Если у вас порча секторов происходит регулярно - есть смысл посмотреть в
> сторону стабильности платформы, скорее всего данные теряются до записи на диск.
> Потому что у накопителей свои ECC, и вот просто так "обнулиться" сектор
> не может.

google:bitrot

Ответить | Правка | Наверх | Cообщить модератору

184. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:03 
Плджад. Там ECC. Причём на современных накопителях - не обязательно одноуровневый даже.
Ответить | Правка | Наверх | Cообщить модератору

191. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:37 
Поэтому никакой битврот вы получить не можете.
Если вдруг ошибка пройдёт ECC, вероятность чего запредельно мала - вы вместо данных в секторе (512 байт или целых 4К ныне) получите кашу, потому что наборов данных, подходящих под один и тот же "хеш" ECC (там конечно не хеш, там многомерные поля, но не будем об этом) - не много.
Ответить | Правка | К родителю #110 | Наверх | Cообщить модератору

114. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от fidoman (ok), 23-Ноя-23, 15:59 
> Если у вас порча секторов происходит регулярно - есть смысл посмотреть в
> сторону стабильности платформы, скорее всего данные теряются до записи на диск.
> Потому что у накопителей свои ECC, и вот просто так "обнулиться" сектор
> не может.

ECC пропускает ошибки с вероятностью, которая на больших системах (или при длительной эксплуатации средних) заметна практически.

Ответить | Правка | К родителю #63 | Наверх | Cообщить модератору

185. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:05 
Чего? Чтобы ECC современного накопителя пропустил ошибку - надо очень постараться.

Современные HDD и SSD вообще только благодаря ECC можно сказать и работают, если чисто гипотетически убрать ECC - их использовать будет вообще толком невозможно.

Ещё раз повторюсь: если у вас это возникает регулярно - смотрите в район платформы, а не накопителя.

Ответить | Правка | Наверх | Cообщить модератору

221. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –3 +/
Сообщение от Аноним (-), 24-Ноя-23, 02:26 
> Чего? Чтобы ECC современного накопителя пропустил ошибку - надо очень постараться.

Агаблин, а у меня есть текучая флеха где EXT4 за месяц - в труху. Наверное это мой глюк? Не, IO Error эта пакость наверх не репортит. Просто грузит труху периодически.

Btrfs в схеме DUP - даже на таком живет. Заодно позволяя измерить частоту факапов. На этом экземпляре - если записать, через недельку scrub налетит на 10-20 секторов которые разъехались по чексумам. И это тебя жестко оспаривает. Стараться там вообще не надо, надо записать эн гигз, а потом через недельку scrub запустить и получить свои чексум ерроры. Просто как топор, воспроизводимо.

> Современные HDD и SSD вообще только благодаря ECC можно сказать и работают,

А если еще и изучить математику за ECC - можно узнать что эти алгоритмы имеют заметно отличную от ноля вероятность посчитать блок за исправный, хотя там труха. При достаточном числе read errors и большом числе попыток в какой-то момент вы таки можете и выиграть в эту лотерею. А экстремальный случай мне вот за счет btrfs'а "отфильтровался" под внимание.

> если чисто гипотетически убрать ECC - их использовать будет вообще толком
> невозможно.

А чисто практически - накопители, особенно флешовые, имеют манеру выгружать какой-то крап, далеко не всегда утруждая себя репортом IO Error при этом.

> Ещё раз повторюсь: если у вас это возникает регулярно - смотрите в
> район платформы, а не накопителя.

Повылезло тут экспертов мля со своими EXT4 и XFS, измерявшим разрушения хз как, видимо теориями. А таки - чексумы в ФС - отличная штука. И ZFSники в этом были правы.

Ответить | Правка | Наверх | Cообщить модератору

141. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от аНОНИМ (?), 23-Ноя-23, 17:36 
> Потому что у накопителей свои ECC, и вот просто так "обнулиться" сектор не может.

Странно как-то, "у накопителей свои ECC", но вот параметр BER для накопителей тем не менее приводят: https://documents.westerndigital.com/content/dam/doc-library... (1 ошибка на 10^15 бит). И если его пересчитать в терабайты прочитанного, это будет всего-то сотня терабайт. Откуда сразу следует вывод, что хранить данные на raidz1/raidz2, где каждый блок на каждом диске защищён отдельной чексуммой -- есть смысл.

А кому собственные данные не важны -- ну те ext4 пользуются, вон как диванные эксперты вокруг.

Ответить | Правка | К родителю #63 | Наверх | Cообщить модератору

186. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:19 
Звон-то вы слышали...
Хоть бы потрудились сами почитать, что запостили.

Начнём с BER.

BER - оно и есть приблизительная оценка частоты срабатывания ECC в обычных условиях работы, без повреждений накопителя. Как часто будет возникать ошибка ECC при чтении в штатных условиях. Я выше написал: если бы не ECC - да, накопителями бы вообще пользоваться невозможно было.

Теперь к вашим баранам.

В том, что вами приведено - это не BER. Это NCER. Non-correctable (там non-recoverable) error ratio.
Это количество бит, среднее, прочитанных, после которого вы получите неисправимый сбойный сектор.

Не 1 на 10^15, а <1 на 10^15. Разницу улавливаете?
Менее одной неисправимой битовой ошибки на 125 прочитанных терабайт. Эту ошибку поймает та самая ECC, и выдаст как нечитаемый сектор. К сожалению да, для современных накопителей в десяток и более ТБ - этот параметр неизмеримо мал. Их только в рейд и ставить.

ECC false positive ratio же на несколько порядков меньше, данные ECC в современных хардах запросто могут весить ~10% и больше от сектора, плюс как правило многоуровневая ECC - одна в коде записи и другая в записываемых данных. А у более надёжных драйвов ещё и цикл WRV бывает добавлен, но это уже детали.

Ответить | Правка | Наверх | Cообщить модератору

187. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:19 
Почему ныне не приводят BER? Цифирь слишком неприглядная. При штатном чтении многобитовая ошибка - норма жизни. Особенно на черепичках.
Ответить | Правка | Наверх | Cообщить модератору

190. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:32 
Тут правда я одну вещь не упомянул.

Наличие NCER не значит, что сектор не прочитается хостом вообще совсем никак. Сначала диск попробует перечитать, первые ошибки при отсутствии серьёзного повреждения магнитного слоя обычно статистически не значимы.

Далее оно со 2-3-5-10 попытки скорее всего прочитается. И когда прочитается - сектор будет стёрт и испробован на запись. Если после испробования сектор не пройдёт по числу битовых ошибок в той самой ECC - будет отправлен в другое место диска, получите ремап. На черепичках может быть так лёгкой рукой смахнута в другое место целая группа секторов. Всё это незаметно для хоста, естественно.

То есть само по себе NCER ещё не фатал. Реальную ошибку вы получите только если операция чтения свалится в совсем никак, даже после пары перепозиционирований голов. Диски под рейд настроены делать меньше попыток, диски под бытовуху - больше.

Но тем не менее, средние 125 Тб на 22 Тб хард - это запредельно мало. О времена, о нравы.

---

Диски под видео - отдельный экземпляр, их здесь где-то ниже упомянули - вот эти да, страшное дело - могут просто смахнуть сектор и сделать вид, что прочиталась фигня. Эти диски лучше никуда больше не ставить.

Ответить | Правка | К родителю #186 | Наверх | Cообщить модератору

230. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от аНОНИМ (?), 24-Ноя-23, 09:15 
> Наличие NCER не значит

Вообще-то как раз и значит, иначе бы его маркетолухи не назвали бы "*NON*-correctable"

Ответить | Правка | Наверх | Cообщить модератору

232. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 09:41 
Для начала давай ещё раз поясню, что такое NCER в этом контексте. NCER - это значит, что сектор с первого раза корректно прочитать не удалось. Не просто ECC отработала (это BER, точнее не совсем BER, но опустим), а ECC сказала, что всё, задница. Но это не значит, что его не удастся прочитать со 2 захода например.

Ответить | Правка | Наверх | Cообщить модератору

254. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от аНОНИМ (?), 24-Ноя-23, 12:23 
> Но это не значит, что его не удастся прочитать со 2 захода например

Это ниоткуда не следует. И в даташите не написано. Значит -- не факт и я имею право предполагать худшее. Речь-то о моих данных.

Примеры обратного были тут где-то рядом.

Ответить | Правка | Наверх | Cообщить модератору

294. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 22:01 
Можешь предполагать чего угодно.
Если данные действительно ценные - надо совсем не ZFS обвешиваться.
И порядок денег там будет совершенно другой.
Ответить | Правка | Наверх | Cообщить модератору

222. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (-), 24-Ноя-23, 02:28 
> BER - оно и есть приблизительная оценка частоты срабатывания ECC в обычных
> условиях работы, без повреждений накопителя. Как часто будет возникать ошибка ECC
> при чтении в штатных условиях. Я выше написал: если бы не
> ECC - да, накопителями бы вообще пользоваться невозможно было.

Чувак, у меня есть тупо сыпучая флеха юзаемая как стресстест, где "BER" весьма измеримый, без специальных усилий. И весь твой спич на этом фоне можно назвать бесполезным теоретическим булшитом не стоящим байтов истраченых на него.

Ответить | Правка | К родителю #186 | Наверх | Cообщить модератору

233. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 09:43 
То, что у тебя есть сыпучее китайское говно - это не значит, что его надо в серьёзном проде использовать.
Ну, ты - можешь.
И да, то, что ты видишь - далеко не BER.
Это NC + ECC false positive. В китайских поделках встречается очень часто, поэтому что на ECC тоже экономят.
Ответить | Правка | Наверх | Cообщить модератору

327. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 26-Ноя-23, 02:02 
> То, что у тебя есть сыпучее китайское говно - это не значит,
> что его надо в серьёзном проде использовать.

Да вот знаете, чексуммы очень помогают понять что реально подсунули и как это реально работает. Вместо выслушивания голимых теорий высосаных из пальца.

Не нравится флеха? А я и дофига кейсов с энтерпрайзными SSD видел на эту тему. Особенно эффективно получается если его как bcache оформить. И тут то и оказалось что вместо того чтобы сразу и круто помереть - оно при приближении к окончанию ресурса может начать гадить битыми блоками вместо этого. Без всяких IO error. А файлухи на это все реагируют... довольно интересно, скажем так.

При том у фанов XFS/EXT4, это вообше как-то так: на них совершенно ВНЕЗАПНО сверху падает рояль и зашибает их до дырки в асфальте. А потом оказывается что осыпающийся девайс гадил, так то, давно - но без чексум это не видно, а развалилось когда уже живого места в ФС нет. XFSники о чем-то даже догадываются и - вон - пыжатся scrub прикрутить. Получается не очень, но почему-то все это идет вразрез с вашими теориями. Btrfs'ники - вот - за счет чексум - такие плюхи ловили на подлете. В отличие от вон тех счастливчиков.

> Ну, ты - можешь. И да, то, что ты видишь - далеко не BER.

Естественно. Это уже то что за FEC пролезло.

> Это NC + ECC false positive. В китайских поделках встречается
> очень часто, поэтому что на ECC тоже экономят.

Да оно и на энтерпрайзных SSD случается, любители bcache не дадут соврать. Один из аргументов за нормальную интеграцию иерархического кеширования в ФС, там в таких случаях виднее реальное состояние кусков VS запрошенная схема избыточности.

Ответить | Правка | Наверх | Cообщить модератору

229. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от аНОНИМ (?), 24-Ноя-23, 09:14 
> Не 1 на 10^15, а <1 на 10^15. Разницу улавливаете?

Улавливаю. Жопоруки даже 1e-16 ниасилили.

> и выдаст как нечитаемый сектор.

Это утверждение нуждается в доказательства.

> ECC false positive ratio же на несколько порядков меньше

И это -- тоже. Ну вот прям для конкретного жопоруками сделанного накопителя.

Ответить | Правка | К родителю #186 | Наверх | Cообщить модератору

234. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 09:46 
> Улавливаю. Жопоруки даже 1e-16 ниасилили.

1e-15 - это было очень много на те же терабайтные драйвы в 3-4 болвашки.
Объёмы выросли, а частота возникновения ошибок не уменьшилась.

По идее со всем этим ростом размера ECC / улучшения алгоритмов - должно было бы быть лучше, но всё это "съелось" тем, что уменьшился размер ячейки записи + при записи внахлёст, которая обычно используется, всё реально очень плохо.

Всё остальное - беллетристика.


Ответить | Правка | Наверх | Cообщить модератору

297. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (297), 24-Ноя-23, 22:44 
> Эту ошибку поймает та самая ECC, и выдаст как нечитаемый сектор

К сожалению - нет. Всё, что смогла поймать ЕСС, она исправила. Эта ошибка - настоящая, никто её не заметил. Вы получаете блок, в котором ошибка. При больших объёмах вероятность ошибок становится существенной. Поэтому - только контрольные суммы, RAIDZ1/2/3, правильные серверные диски, которые при записи проверяют,что блок записался правильно. Т.е. просто бэкапы тут не помогут, разве что делать несколько и сравнивать их между собой, выбирая ошибки вручную. Получая в процессе записи-чтения бэкапов новые ошибки :)

Ответить | Правка | К родителю #186 | Наверх | Cообщить модератору

299. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 23:17 
Вообще-то да, но продолжайте верить в булшит.
Ответить | Правка | Наверх | Cообщить модератору

314. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (297), 25-Ноя-23, 16:04 
> продолжайте верить

в безошибочность ЕСС :)

Ответить | Правка | Наверх | Cообщить модератору

317. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 25-Ноя-23, 22:39 
Обычно алгоритм ECC ловит немножко больше, чем способен исправить.
Ответить | Правка | Наверх | Cообщить модератору

328. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 26-Ноя-23, 05:19 
> Обычно алгоритм ECC ловит немножко больше, чем способен исправить.

1) Сила FEC в роли абстрактной "чексуммы" совершенно не обязана быть чем-то этаким. Это вообще ниоткуда не следует. Например, насколько я помню, ReedSolomon(223,255) может исправить до 16 байтов на (223 данных + 32 парити), или до 32, если известно где ошибки. Но вот как "generic" чексумма бомбардируемая рандомом он может пропустить абсолютный левак как сошедшееся решение с вероятностью сравнимой с 40-битным CRC, чтоли, насколько я помню оценки (лучше перепроверить). В любом случае - вероятность пропуска левака там крайне далековата от 2^128 и тем более 2^256.

Уход в конские плотности записи для HDD и всякие QLC для флеша - BER разумеется не улучшили.

2) FEC занимает место. И портит циферки в маркетинге, сжирая место под техническое добро которое юзер в заявляемой емкости не видит, а вот производителю за это место заплатить придется. Поэтому его корректирующие возможности разумеется делают по минимуму, необходимому для более-менее беспроблемной работы в гарантийный период, чтобы хранить минимум избыточности. Все остальное - от лукавого. А так чтобы вот прямо ломовой запас, "в космос летим" - только за космические цены. В остальных случаях - на минималках, поэтому уход в стресстестирование этой штуки запросто приведет к отгрузке левака.

Ответить | Правка | Наверх | Cообщить модератору

329. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 26-Ноя-23, 11:54 
Про объём уже писал, на современных хардах (лет много уже) ECC может добавлять приличный объём к данным.

Более того, в современных HDD минимум два уровня избыточности. Одно - как раз таки линейное кодирование записи, которое можно назвать FEC. Второе ныне - привычное уже многосекторное (обычно трековое) кодирование через интерливер, очень похожее на то, что применялось и применяется на оптических дисках. На RAID-адаптированных, да и не только, бывает плюсом к линейному FEC ещё вторичный посекторный код. На черепичках бывает ещё многоуровневый интерлив.

Поэтому "левак" вы скорее всего получите уже в платформе, нежели с диска.

Ответить | Правка | Наверх | Cообщить модератору

357. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 02:18 
> Про объём уже писал, на современных хардах (лет много уже) ECC может
> добавлять приличный объём к данным.

Раньше был еще более приличным - в процентном соотношении. В частности 4K сектора вместо 512 насколько я помню делали как раз чтобы улучшить соотношение данные-FEC. На более длинном блоке соотношения могут быть более удачные в плане корректирующей способности VS какой это процент от данных займет. Ну как, сектора должны быть более-менее независимо декодабельны - иначе на запись сектора придется ворочать всю группу а это сложно и хреново. А на 512 байтах - даже небольшая добавка становится заметным % от этого, при умеренной корректирующей способности.

> Более того, в современных HDD минимум два уровня избыточности. Одно - как
> раз таки линейное кодирование записи, которое можно назвать FEC.
> торое ныне - привычное уже многосекторное (обычно трековое) кодирование через
> интерливер, очень похожее на то, что применялось и применяется на оптических дисках.

Идеи interleaving известны давно. Но они хорошо работают в основном от нечитаемости длинного сегмента (типа царапины на оптическом диске). Где этот сегмент превысил бы корректирующие возможности "наивного" 1-уровневого варианта, так размазал проблему на эн субблоков, масштаб проблемы небольшой для каждого субблока и вложенный FEC справляется.

А если траблы вместо этого больше напоминают "осыпон по всей площади" - ну, упс, deinterleave от этого уже сильно меньше поможет и соотношения уже не такие прикольные.

> На RAID-адаптированных, да и не только, бывает плюсом к линейному FEC ещё
> вторичный посекторный код.

RAID адаптированные - в основном так принципиально - отличаются фирмварью, чтобы не уходить надолго в себя "хоть там что", что считается контроллером за отказ девайса и ведет к залету на ребилд райда. Более обычный девайс предпочтет долбиться в нечитаемый сектор намного дольше. И если посмтреть что при этом случается - линух через секунд 15 мучений таймаутит это, пытается reset, retry операции и проч. В зависимости как сложатся пятна на солнце - это может выпасть в крайне неудачное взаимодействие. Которое надолго вклинит IO приведет к считанию девайса выпавшим. В любом случае система потребует мануального внимания и это уже булшит.

> На черепичках бывает ещё многоуровневый интерлив. Поэтому "левак" вы скорее всего
> получите уже в платформе, нежели с диска.

HDD и правда грузят левак скорее как исключение чем правило. А вот SSD, даже энтерпрайзные, прикалываются только в путь. И в каком QLC - сыпется по всей площади, ну и какой особый профит от деинтерлива ожидается? Если много утекло, что так UNC, что сяк, как ни крути. И вопрос сводится в основном к тому какой % площади готовы пожертвовать на FEC в результате.

Ответить | Правка | Наверх | Cообщить модератору

330. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 26-Ноя-23, 11:57 
И да, 2^256 - это всего-то ничего, 32 байта.
Объём современных ECC на сектор несколько выше, да и на входе интерливера бит очень много.
Получить коллизию внутри сектора в нескольких алгоритмах одновременно с такой длиной, при корректности соседних данных - это надо очень постараться.

Одна из причин, по которой из маркетинга исчезло понятие BER и появилось NCER, кстати.

Ответить | Правка | К родителю #328 | Наверх | Cообщить модератору

356. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 02:01 
> И да, 2^256 - это всего-то ничего, 32 байта.

И тем не менее, это совершенно астрономическое число. Даже 2^128 попыток обломно делать. А то в 2^128 раз больше 2^128. В вселенной энергии на столько попыток нет, так что можно не париться. Если бы это было правдой. Но увы... FEC не криптографические чексумы, не на это оптимизированы.

> Объём современных ECC на сектор несколько выше,

Их корректирующие способности - и вероятность что левак пролезет - рядом с вон теми цифрами не стояли.

> да и на входе интерливера бит очень много.
> Получить коллизию внутри сектора в нескольких алгоритмах одновременно с такой длиной, при
> корректности соседних данных - это надо очень постараться.

Силу FEC берут без запаса, чтобы едва держал "ожидаемый" средний уровень проблем, на грани. Так то FEC может исправлять много чего - вопрос сколько оверхеда на хранение избыточности жаба не удушит. А удушит, потому что место на FEC тратится, юзеру в емкости девайса не видно, а денег на хранение - стоит.

> Одна из причин, по которой из маркетинга исчезло понятие BER и появилось NCER, кстати.

Наружу юзеру актуальнее скорее это. Тем не менее - я вот за свою жизнь видел эн юзерей с убитыми файлухами где энтерпрайзные SSD пошли бэдами, при том отгружая наружу вот имнено трешак с левым содержимым, без IO error. И лезут юзеры с убитыми ФС где явно труха с накопителя приехала. Btrfs'ники в этом в некоем плюсе, там ор csum failed их порой успевает предупредить о факапе до того как он состоится. Но парочку пулов и им разносило. А вон те без чексумм - иногда красиво вылезают из дырки в асфальте, спрашивая что это было. Откуда-то ВНЕЗАПНО упал рояль. А чего ему не быть внезапным то без чексум ФС? :)

Ну и вот глядя на такие приколы я и пришел к выводу что лишний слой чексум - очень даже и неплохая идея. На практике довольно много всякой хрени хайлайтит, верифицируя end to end. ИМХО намного более работоспособная тема. И вот там параноики могут уже и криптографический хеш типа SHA256 или blake2 какого втулить, а вот ЭТО уже пробить - ну... попробуйте! Однако это таки еще +32 байта сверху, и само по себе FECом быть не умеет. Ассистентом, детектирующим какая копия верная - еще может быть.

Ответить | Правка | Наверх | Cообщить модератору

371. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 27-Ноя-23, 14:10 
> Силу FEC берут без запаса, чтобы едва держал "ожидаемый" средний уровень проблем,

Вы про китайский хлам или что? Так-то нормальные производители FEC берут с хорошим запасом, им не улыбаются ни массовые RMA, ни class action в случае чего.

> энтерпрайзные SSD пошли бэдами, при том отгружая наружу вот имнено трешак с левым содержимым

Какой-то подвальный энтерпрайз или битый контроллер? Битый контроллер или память контроллера развалит всё содержимое, да. Прохождение шлака через корректно работающий ECC на контроллере без I/O error - исключено.

> лишний слой чексум - очень даже и неплохая идея

Всё бы ничего, но вместе с этим слоем в нагрузку идут чугунные скороходы.


Ответить | Правка | Наверх | Cообщить модератору

373. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 21:16 
>> Силу FEC берут без запаса, чтобы едва держал "ожидаемый" средний уровень проблем,
> Вы про китайский хлам или что? Так-то нормальные производители FEC берут с
> хорошим запасом, им не улыбаются ни массовые RMA, ни class action

А нормальные производители - это кто? А то если взять допустим самсунь - у них например фирмвари по жизни горбатые. И ничего, живут с этим как-то. Хотя на мой вкус там class action давно пора бы, чтоб не смели такой треш в фирмварях на бошки юзеров отгружать. И это - один из топовых производителей флешатины на планете.

Так что оно вот реально делается чтобы не было массоых факапов в период гарантии, соответствие заявленному "на грани" - и не более того. И чем массовее нечто - тем меньше margin, ибо экономия даже центов отливается в солидный куш. Так что в этом смысле, энтерпрайзное железо обычно менее лажовое чем потребительское, но уверенность что там факапов не бывает - не от мира сего.

>> энтерпрайзные SSD пошли бэдами, при том отгружая наружу вот имнено
>> трешак с левым содержимым
> Какой-то подвальный энтерпрайз или битый контроллер?

Если так выкабениваться - весь самсунг можно этим термином назвать. А они по моему #1 по производству флеша на планете на ваше горе.

> Битый контроллер или память контроллера развалит всё содержимое, да.

Прелесть чексум в том что они все это еще и обнаруживают. В случае избыточности - еще и в моменты пока оно вполне себе корректируемо было - и можно вовремя отреагировать. А если проблему игнорить, она усугубится - и все разлетится к хренам.

> Прохождение шлака через корректно работающий ECC на контроллере без I/O
> error - исключено.

Я своим глазам и недовольным юзерям постящим логи верю больше чем каким-то теоретикам с опеннета, камлающим на непогрешимость проприетарных блобварей. Хотя бы потому что им врать резона нет, они приходят узнать "а как мне это починить". Или в случае btrfs - узнать баг btrfs ли это или что-то иное. А им и грят - мол, чуваки, меняйте ASAP свой накопитель, он у вас сыпется! Это нормальные "рабочие процессы" вокруг файлух видимые мне. Вы с ними спорить удумали? По моему спорить с наблюдаемыми фактами - тупая затея. К ним можно только адаптироваться - и желательно подрихтовать дизайны и дефолты файлух. Дада, и DUP в metadata бтрфсники вернули на SSD не от хорошей жизни. А потому что выживаемость ФС повышает.

>> лишний слой чексум - очень даже и неплохая идея
> Всё бы ничего, но вместе с этим слоем в нагрузку идут чугунные скороходы.

Это не скороходы, это гипердрайв. Да, специфичный, но - за освоение более чем воздается. А вы можете воооон там этажерку из LVM/dm/md и прочь себе слепить, чо. Получите подобие таких фич, но правда, рекаверить будет не сильно проще, а управление - намного геморройнее. Ну вот и выбирайте, как оно вам... хотя можно и технологией страуса, но так я бы никогда и не узнал о вон тех взбрыках. И глядишь верил бы таким сказочникам с опеннета как dурак. А вот тут я могу с чистой совестью отправить таких сказочников с их идеальным железом курить бамбук - наблюдаемые данные были другими и не стыкуются с этим спичем. Значит это хреновая теория и она идет в треш.

Ответить | Правка | Наверх | Cообщить модератору

333. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 26-Ноя-23, 12:08 
Ну смотри - пока ты искал битвротики в ECC - твоя ZFS тебе незаметно порола данные, выдавая нули вместо блоков при определённом схождении звёзд. Появление подобного бага было вполне ожидаемо, учитывая монструозность этого поделия - с самого начала его существования.
Ответить | Правка | К родителю #314 | Наверх | Cообщить модератору

335. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 26-Ноя-23, 12:21 
И вот конкретно поэтому лучше выбирать простые как доска стеки - ECC накопителя, спасающий в общем и целом от битовых ошибок при чтении, RAID, спасающий от реальных uncorrectable, и простую как доска файлуху - в моём случае это либо ext4 либо ocfs2 (где кластеры). С этого всего в случае термоядерного 3.14ца можно хотя бы что-то руками достать, в отличие от. Дальше идёт платформа с ECC у памяти - ага, основной вероятный источник повреждения данных. И бэкапы. К которым, я правда, за 15 лет ни разу не обращался из-за нарушения целостности данных, и которые пока пригодились только исправлять последствия кривых лапок у самих юзверей.
Ответить | Правка | Наверх | Cообщить модератору

358. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 02:20 
> И вот конкретно поэтому лучше выбирать простые как доска стеки

Глядя на количество юзеров которым энтерпрайзне SSD вынесли ЭТО внезапным роялем, а также сколько кривого железа btrfs отловил из того что на виду - вы имхо это у себя и практикуйте. И там камлайте на супер-девайсы, думая что все ЗБС. Без средств для измерения что и правда - ЗБС.

Ответить | Правка | Наверх | Cообщить модератору

73. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от пох. (?), 23-Ноя-23, 14:16 
> Выкинуть бы всё это "творчество", но проблема только в том, что другого
> решения для raid5/raid6 с хешами для проверки целостности данных на дисках

тебе решение для локалхоста или данные хранить? Для второго "другое" - не-open solaris, или хотя бы вот FreeBSD до эры тяпляперов (т.е. 11.1 какая-нибудь)

> в общем-то и нет, а обнуление секторов или просто их порча
> даже при не особо большом объёме данных происходят регулярно...

э... понятно...


Ответить | Правка | К родителю #53 | Наверх | Cообщить модератору

111. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –2 +/
Сообщение от fidoman (ok), 23-Ноя-23, 15:55 
>> в общем-то и нет, а обнуление секторов или просто их порча
>> даже при не особо большом объёме данных происходят регулярно...
> э... понятно...

В смысле, ты даже не читал статьи на тему того, зачем вообще контрольные суммы в ZFS ввели?
И не встречал дисков, которые побитые сектора вместо того, чтобы записать в pending, тупо их ремапят, заполняя нулями? И не понимаешь почему стандартный RAID5 такое изменение не может корректно отработать?

Ответить | Правка | Наверх | Cообщить модератору

188. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 23-Ноя-23, 23:21 
> И не встречал дисков, которые побитые сектора вместо того, чтобы записать в
> pending, тупо их ремапят, заполняя нулями?

Это как правило диски под линейную циклическую видеозапись, зачем вы их такие берёте?
Плюс стандартный RAID5 такое щщастье замечательно отработает.

Ответить | Правка | Наверх | Cообщить модератору

265. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от нах. (?), 24-Ноя-23, 13:40 
>> И не встречал дисков, которые побитые сектора вместо того, чтобы записать в
>> pending, тупо их ремапят, заполняя нулями?
> Это как правило диски под линейную циклическую видеозапись, зачем вы их такие

причем прошлого десятилетия. Я не слышал о подобных проблемах у пресловутых wd purple. Ремап как ремап.

> Плюс стандартный RAID5 такое щщастье замечательно отработает.

нет. как он тебе его отработает если там нули вместо данных и неизвестно, где?
Специальных проверок что если считались нули то считать этот сектор битым пока не предусмотрено (да и где гарантия что нули и не были там на самом деле)

data checksums тут помогут, только вот не лучше ли не использовать настолько неадекватное оборудование?

Я за свои тридцать лет работы в околоит ни разу не видел никакого битрота. И даже настолько неисправные диски что превращают данные в кашу  (это не битрот, битрот сказочка о другом белом бычке - якобы-единичном перевороте битика где-то в середине стотридцатого терабайта очень нужных данных [которых у сказочника никогда не было]) мне не попадались. Вероятнее всего в виду не покупания их на помойках.


Ответить | Правка | Наверх | Cообщить модератору

223. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от Аноним (-), 24-Ноя-23, 02:32 
> И не встречал дисков, которые побитые сектора вместо того, чтобы записать в
> pending, тупо их ремапят, заполняя нулями?

Это вообще - unspecified. Фирмвара что хочет - то и делает. Нет никаких требований что должно случиться если энный сектор прочитать не удалось. Ну а поскольку корректных данных нет - упс, сохранить данные неизменными, как записано как раз и не получится. Хоть как.

> И не понимаешь почему стандартный RAID5 такое изменение не может корректно отработать?

Он вообще не в курсе parity это кривой или данные. RAID1 тоже при этом без понятия - какая из копий правильная. При обычном подходе вы видите что 2 копии не совпадают - но это ничего не говорит о том какая из 2 правильная. С чексумами, однако, этот пазл и решаем, и чинится в фоне, позволяя заодно и ремап сделать без проблем.

Ответить | Правка | К родителю #111 | Наверх | Cообщить модератору

236. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –1 +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 09:51 
>> И не понимаешь почему стандартный RAID5 такое изменение не может корректно отработать?

RAID 5/6 и не надо быть в курсе - и вменяемые контроллеры делают проверку при регулярных прогонах Patrol Read / Consistency Check. Нет, не при каждом хостовом чтении естественно, но при каждом чтении оно и не нужно - оно нужно чтобы как раз найти сектора, которые вот такие вот гнилые диски забили фигнёй.

Ответить | Правка | Наверх | Cообщить модератору

237. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +1 +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 09:52 
В любом случае подобные диски и данные, которые жалко - это неюзабельный кейс, который не вижу смысла далее рассматривать.
Ответить | Правка | Наверх | Cообщить модератору

359. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 02:35 
> RAID 5/6 и не надо быть в курсе

У меня другие идеи на этот счет. С чексуммами соотношения явно лучше, при том достаточно малой ценой. И даже RAID5 в небольших инсталляциях может иметь какой-то смысл, а RAID1 и подавно.

> - и вменяемые контроллеры делают проверку при регулярных прогонах Patrol Read
> / Consistency Check.

Ну да, ну да, специальное железо за дохреналион, с мутной фирмварой делающей хз что, в которой отсутствие багов гарантирует - ахз, наверное Пушкин. А знаете что господа, вы такими требованиями и свойствами - в усмерть уже задолбали много кого. За что и повылетите почти отовсюду, имхо. Вместе с железками за дохраналион. Ибо "кайф то в том и заключается чтобы вовремя их с рельсы убрать!" - сделать дешево и круто. И это - на ваше горе возможно.

И даже не только на уровне 1 тазика. Более глобально, из ненадежных тазиков можно собирать надежные гипер-структуры. Чем вон те энтерпрайзники и занимаются. Ну а вы на этом фоне - пушистые мамонты, над которыми летают звездолеты более разумных существ. А климат уже не в вашу пользу.

> Нет, не при каждом хостовом чтении естественно, но при каждом чтении оно
> и не нужно - оно нужно чтобы как раз найти сектора, которые вот такие вот гнилые
> диски забили фигнёй.

Гнилость диска понятие весьма широкое. Может и 1 бэд в 5 лет вылезти. Вон то его прозрачно парирует, и поедет дальше. И если следующий будет через 5 лет - возможно не такой уж диск и гнилой.

Ответить | Правка | К родителю #236 | Наверх | Cообщить модератору

366. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 27-Ноя-23, 10:04 
Я тут уже пару раз писал, и в третий тебе напишу: за 15 лет ни одного обращения к бэкапам.
Но вы продолжайте получать удовольствие.

Из ненадёжных тазиков никакие надёжные структуры вы не соберёте. Нет - соберёте. До первого залетевшего дятла. Не вы первые, не вы последние. Даже гугл тазики такого типа ставит только на GGC, который потерять не жалко.

Ответить | Правка | Наверх | Cообщить модератору

374. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 21:25 
> Я тут уже пару раз писал, и в третий тебе напишу: за
> 15 лет ни одного обращения к бэкапам.

Вы ни разу не ответили мне на 1 простой вопрос - как вы вообще проверяли целостность данных. Как это происходит с фоновыми сканами типа scrub - я понимаю. Как это у вас - не совсем. Откуда у меня подозрения насчет "технологии страуса" и следствий из законов Мерфи.

> Но вы продолжайте получать удовольствие.
> Из ненадёжных тазиков никакие надёжные структуры вы не соберёте. Нет - соберёте.

Гугл собрал. Там отказ 1 сервера - вообще ни на что не влияет. При этом все равно почему он скопытился. Более глобальная структура делает резервирование рассматривая каждый тазик как юнит.

Да вы и сами - собраны из ненадежных клеток. Каждый день у вас умирает куча клеток. А вы тут пописываете на опеннетик и в ус не дуете о проблемах отдельных "юнитов".

> До первого залетевшего дятла. Не вы первые, не вы последние.
> Даже гугл тазики такого типа ставит только на GGC, который потерять не жалко.

Ну вы можете дать гугле и еще нескольким крупным мастеркласс как это делать. Но вообще-то дятел намекает - что климат изменился, и вам вообще совсем амба.

Ответить | Правка | Наверх | Cообщить модератору

375. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 27-Ноя-23, 23:08 
> Гугл собрал.

Ничего гугл не собрал. Вы их самодельные тазики, которые сервис, а не no-problem-to-drop кешик видели? Ваши супермикры или что там у вас сейчас китайское модно - рядом не валялись. Там даже платы, ***а, кастомные...

Ответить | Правка | Наверх | Cообщить модератору

377. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (-), 28-Ноя-23, 04:12 
>> Гугл собрал.
> Ничего гугл не собрал. Вы их самодельные тазики, которые сервис, а не
> no-problem-to-drop кешик видели? Ваши супермикры или что там у вас сейчас
> китайское модно - рядом не валялись. Там даже платы, ***а, кастомные...

Вы не понимаете (хотя это нормально, когда уровень обсуждаемого превышает способности обсуждающего).

Основная круть гугла (что конкуренты никак не могут содрать, вебманкам слабо, как впрочем и вам) - overlay алгоритмы, позволяющий хранить данные "распределенно" в "мегаструктурах". Вылет плюс-минус пары серваков пофиг, из-за наличия избыточности на ЭТОМ уровне, "в сети". Сетевая мегаструктура просто самовосстановится. Может что-то где-то пару реплик на другие узлы раскидает.

Для юзеров это будет как максимум кратковременная просадка перфоманса. А в остальном оно самопочинится, все продолжит работать, техники где-то в фоне заменят плюс-минус пару серверов. И если алгоритм сформулирован вот так - в эту формулу вообще не входит какая там плата, и по какой причине сдох сервак.

Вы не соберете такое ни из супермикр, ни из чего там - потому что это "глобальный сетевой алгоритм" прежде всего. И гугл разумеется в жизни вам ЭТО не даст в полном и работающем виде. Что они, глупые себе конкурентов взращивать.

Пох, или кто там, периодически пиндит про какие-то патчи для EXT, которые гугол зажал. Гугол вообще гонял ФС без журнала, и их integrity в вон том кейсе - ниипет вообще, чек блоков и ререпликация рюхается сетевым уровнем, а сервер опознается как испорченый и по отгрузке трухи по любой причине и по уходу в даун, это не важно - запрос будет просто повторен на другие узлы и завершится успехом. Но вам такой EXT вообще нафиг не упал, ибо плевал он на целостность данных. Особенно с вашим пониманием как делать те или иные вещи. Это просто не ваш уровень технологий. В отличие от вас я немного понимаю как делать такие штуки. По каким-то своим причинам, столь же за гранью вашего понимания как и сами такие технологии. Даже если вам дать те EXT патчи - куда вы это? У вас же нет такого сетевого оверлей-алгоритма. И врядли будет. Не дают инопланетяне продвинутые космические корабли всяким питекантропам. А с вашим EXT4 и энтегпгайз хагдвагом соотношения примерно вот такие.

А меня продвинутые ФС с чексуммами интересуют потому что вон то поднять локально, таки, очень накладное мероприятие и "вниз" такое сложно масштабировать и соотношения портятся. Одно дело пережить отказ 3 серваков из 1000, другое 3 из 5, допустим. Если мы про FEC - это требует более другой уровень оверхеда для парирования. Да, FEC можно делать в разных масштабах. Очень разных. А "страйпом" может быть и "узел сети". При этом пофиг на его внутренние проблемы и китайский он там и проч - единственное что меняется, гимор с заменой и возможность глобально управлять этим в желаемом формате (последнее и является настоящим поводом разработать свое).

Ответить | Правка | Наверх | Cообщить модератору

383. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 28-Ноя-23, 09:27 
Вы просто не понимаете, что это целый комплекс мер.

Распределённые структуры очень медленно ворочаются как на запись, так и менее - на чтение, а при отказах имеют свойство ворочаться ещё медленнее, потому что начинается тот самый процесс восстановления. А при отказе большего, чем ожидалось, числа нод - могут лечь совсем до ручного вмешательства. У гугла сервисных нод очень много, но пренебрегать их надёжностью они при этом не рискуют. А вот на кеш (который пишется исключительно с сервисных нод и далее работает в режиме read-mostly) - ставят хлам, да.

И если вы считаете, что из хлама можно собрать космический корабль - ну вот да, Луна-25 - примерно ваш уровень.

Ответить | Правка | Наверх | Cообщить модератору

388. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –1 +/
Сообщение от Аноним (-), 28-Ноя-23, 15:50 
> Вы просто не понимаете, что это целый комплекс мер.

На мой вкус - сперва извольте ответить на вон тот простой вопрос, как вы вообще на ващих EXT'ах узнавали что данные не побились - а потом будете щеки надувать. Поставить фирмачей на дохреналион, надув щеки, ума много не надо. А вот сделать "недорого и круто" - это и есть state of art.

> Распределённые структуры очень медленно ворочаются как на запись,

Вообще ниоткуда не следует. В энных допущениях может быть ограничено только каналом writer'а по сути.

> так и менее - на чтение,

Тоже ниоткуда не следует. Там можно параллелить запросы и проч - и в предельном случае это может забить любой канал. Характерным примером является допустим торент. Да, это специфично, но общие идеи чем это может быть при правильном подходе - иллюстрирует. Попробуйте перефлудить сидеров исошки убунты вообще. Они круче любого CDN. Вот гугл какие-то такие моменты - понял.

> а при отказах имеют свойство ворочаться ещё медленнее, потому
> что начинается тот самый процесс восстановления.

Это могут быть вполне прозрачные и ненапряжные процессы, а основной деградеж перфоманса - потому что число серверов отгружающих вот именно эти блоки тем кто их хотел временно просело а нагрузка - нет.

> А при отказе большего, чем ожидалось, числа нод - могут лечь совсем
> до ручного вмешательства. У гугла сервисных нод очень много, но пренебрегать
> их надёжностью они при этом не рискуют.

У гугла серверов не много а очень много. И failure rate примерно одинаковый, чего ему резко меняться. И избыточность разумеется его покрывает с запасом. А чтоб мануально - или видимо юзерам? Ну вот не припоминаю каких-то ощутимых сбоев основных сервисов гугли в последнее время.

> А вот на кеш (который пишется исключительно с сервисных нод и далее работает
> в режиме read-mostly) - ставят хлам, да.

Там может и не быть такого деления. От задач зависит. Из хлама можно и всю структуру сделать, единственная трабла - несколько чаще заменять серваки. Ну вон торентовщики - могут любой мусор использовать. Для вас все просто: хеш блока или совпал и тогда все ок, или нет, и тот кто его налил идет в баню (или "маркируется как проблемный сервер" в тех терминах). Какой мусор вам налил блок в этой парадигме вообще не интересно. И "writer"-у в виде initial seeder тоже похрен какой мусор что использует. Круто, да? А таки верификация больших даунлоадов - сильно круче любых HTTP и проч. Те кто поумнее поняли что сравнимые технологии и для иного IO можно практиковать.

> И если вы считаете, что из хлама можно собрать космический корабль -
> ну вот да, Луна-25 - примерно ваш уровень.

Мой уровень на вон тот манер выглядел бы иначе - стайка дронов. Даже если половина развалится и сломается, остальная половина успешно завершит миссию, достроив базу или что там. А не так что 1 супер-дорогой агрегат, а если он сломался то плана вообще нет.

И это... ширпотребный квалкомм с линухом довольно долго рассекал на марсе в виде вертолетика. Я даже со счета сбился, помер он совсем или до сих пор живой. И так то - вот - первый летательный аппарат на другой планете, даром что из ширпотреба.

Ответить | Правка | Наверх | Cообщить модератору

393. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 28-Ноя-23, 21:24 
Недорого и круто - это вообще не про гугл.
Следует. Накладные расходы на распараллеливание не учитывать невозможно.
Нет, если вы туда что-то просто пишете, читать не собираясь - параллелится до бесконечности.
Но вот если надо ещё индекс к этому строить - он неизбежно встанет в блокировки.
Всё остальное - беллетристика.
Ответить | Правка | Наверх | Cообщить модератору

398. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (390), 28-Ноя-23, 22:34 
> Недорого и круто - это вообще не про гугл.

Это квинтэссенция гугл. Одна из вещей которые конкурентам нечем крыть - они не получают столь же привлекательные условия для себя любимых. Потому что технологически не на том уровне и вынуждены решать проблемы иными средствами, за иные бабки, ну и не могут в результате сервить "условно бесплатно" всю планету с тем же качеством.

И оборудование делать себе тоже не умеют, кроме еще нескольких корп на планете. Так что и удобно на уровне менеджмента систем себе сделать - тоже не могут. Получая дополнительный слой боли и затрат бонусом. Не, никакое супермикро удобно фжйсбуку или гуглу - не сделает. Это только самим себе сделать и можно в нормальном виде. Те кто мог - сделали. Кто не мог - в лузе относительно них по оверхеду на майнтенанс и управление, тем хуже для них.

> Следует. Накладные расходы на распараллеливание не учитывать невозможно.

При правильном подходе к делу - все в пределах разумного.

> Нет, если вы туда что-то просто пишете, читать не собираясь - параллелится
> до бесконечности. Но вот если надо ещё индекс к этому строить - он неизбежно
> встанет в блокировки. Всё остальное - беллетристика.

Это просто очень олдовое и классическое мышление. Уже появились и другие. Вы вот так - даже кравлер веба более-менее реалтаймный не напишете. А иногда индексом вообще может быть - внезапно - сам контент, или запрос. Man "content addressable network" если мозг вдруг не порвется. Те кто поумнее - и сделали себе системы на совсем других принципах. А всякие похи жалуются что им патчик для генератора энергии не дали. Куда они этот генератор без остального крейсера и варпдрайва интерфейсить собирались - кто его знает. Воинственно трясти копьем это ж не мешает.

Ответить | Правка | К родителю #393 | Наверх | Cообщить модератору

403. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 29-Ноя-23, 09:38 
Да, пока оно в пустоту пишется, инопланетяне сидят и строят индексы.
Ничего не изменилось по сути. И принципы всё те же.

Просто священный гугл не такой священный, и в реальности имеет тонны надёжного и производительного железа.
Повторюсь - это не кеши, которые потерять не жалко. И не хранилка, которая действительно неплохо параллелится, хотя и для специфичных задач.

Ответить | Правка | К родителю #398 | Наверх | Cообщить модератору

409. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 01-Дек-23, 21:37 
> хеш блока или совпал и тогда все ок, или нет, и тот кто его налил идет в баню

В распределёнках самое интересное начинается именно тогда, когда НЕ совпал.
Вот там приключения Чиполлино в стране крокодилов развёртываются в полный рост.
А если внезапно связность между нодами ушаталась - то начинаются приключения снежка в аду.

Ответить | Правка | Наверх | Cообщить модератору

287. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от пох. (?), 24-Ноя-23, 19:38 
> Это вообще - unspecified. Фирмвара что хочет - то и делает. Нет никаких требований что должно
> случиться если энный сектор прочитать не удалось.

казалось бы - очевидно, что - вернуть ошибку чтения, а не произвольные данные с потолка.

Если вы напоролись на диски которые вместо этого возвращают какие-то там нули - назовите конкретную модель.

И да, никакой raid5 от этого не поможет. Там дальше очередные фантазии каких-то местных экспертов.

Ответить | Правка | К родителю #223 | Наверх | Cообщить модератору

295. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 24-Ноя-23, 22:03 
Не, такая серия у сигейта действительно была. Video-only. Этот треш действительно забивал сектора при ремапе (видеопотоку-то фиолетово), в рейды его категорически ставить было нельзя.
Ответить | Правка | Наверх | Cообщить модератору

310. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  –1 +/
Сообщение от Аноним (309), 25-Ноя-23, 12:45 
> Не, такая серия у сигейта действительно была. Video-only.

Названия модели или серии так и нет, зато есть обобщение на все диски под видео.
> Диски под видео - отдельный экземпляр, их здесь где-то ниже упомянули - вот эти да, страшное дело - могут просто смахнуть сектор и сделать вид, что прочиталась фигня. Эти диски лучше никуда больше не ставить.

ATA Streaming feature set появился не позже 2004, со специальными командами для "priority on the time to transfer the data rather than the integrity of the data". Заявление о дисках, которые переносят поведение специальных команд на обычные, звучит совсем неубедительно. Эти команды были придуманы, чтобы не менять поведение обычных, нужна конкретная багованная модель без обобщений.

Ответить | Правка | Наверх | Cообщить модератору

346. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от пох. (?), 26-Ноя-23, 17:07 
>> Не, такая серия у сигейта действительно была. Video-only.
> Названия модели или серии так и нет, зато есть обобщение на все

да какая разница? все равно ты в розницу это чудо не купишь. Что-то специфичное с whitelabel (или как у сигейтов выглядит аналог) ставившееся только в dvrы подключенные к камерам наблюдения. Чтоб видимо использовать там шва6одное по а не самим писать драйвер с чудо-фиче-сетом.

Ну будешь такой на помойке расковыривать - прояви осторожность. А в остальных случаях знание малополезное.

Ответить | Правка | Наверх | Cообщить модератору

351. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Tron is Whistling (?), 26-Ноя-23, 22:49 
А вот это - да, верно.
Ответить | Правка | Наверх | Cообщить модератору

361. "В OpenZFS выявлена ошибка, которая может привести к поврежде..."  +/
Сообщение от Аноним (319), 27-Ноя-23, 03:07 
>> Это вообще - unspecified. Фирмвара что хочет - то и делает.
>> Нет никаких требований что должно случиться если энный сектор
>> прочитать не удалось.
> казалось бы - очевидно, что - вернуть ошибку чтения, а не произвольные
> данные с потолка.

А кто его знает что в голове у тех разработчиков фирмварей. Они решили делать вот так. Это поведение найдено в диком виде для целой кучи девайсов всех мастей и направлений. Чаще всего так flash based прикалывается, для HDD это скорее исключение.

Видимо идея в том что сектор не так уж сильно испорчен и несколько битых битов не такой уж и ужас, даже если FEC и лоханулся, так что может лох и не заметит. Как видим, с господами любящими EXT4 это до некоторой степени катит, чексум же нету! Они и будут уверены что все ЗБС. Если б при частых ошибках такого вида не разлеталось внезапным роялем на бошку, может никто и не заметил бы. Но вон те - вылезающие из дырки по форме тушки и удивленно спрашивающие что случилось и где их данные таки стали вызывать определенные вопросы, эффект и был опознан и классифицирован.

> Если вы напоролись на диски которые вместо этого возвращают какие-то там нули
> - назовите конкретную модель.

Это больше характерно для флешастых девайсов, особенно заезженных, а быстро заездить энтерпрайзный SSD можно воткнув его в bcache например. Популярный способ. Девайсы - разные бывают. Самсуни всякие например. У них вообще фирмвар - стремный по жизни. А еще раньше они от trim себе харакири пытались делать. Достаточно успешно, чтобы загреметь в блеклисты линукс кернела, которые, так то - забавный клад на тему quirk'ов самой разной хрени.

> И да, никакой raid5 от этого не поможет. Там дальше очередные фантазии
> каких-то местных экспертов.

В чистом виде? Умрет в корчах. С чексумами - таки определенные шансы имеет. Ибо за счет чексум известно где левак.

Ответить | Правка | К родителю #287 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру