The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Исключение файловой системы Lustre из ядра Linux, opennews (ok), 10-Июн-18, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


63. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от kvaps (ok), 11-Июн-18, 10:23 
ЕМНИП, в составе ядра был только клиент, он работает во всех дистрибутивах, и позволяет без труда смонтировать lustre где угодно.
Есть ещё серверная часть и два бэкенда для нее:
ldiskfs - для нее требуется специальное патченное ядро
И zfs - код lustre принят в состав проекта zfs on linux и патченное ядро уже не требуется, но требется наличие модулей zfs.

Плюс есть пачка отдельных модулей которые необходимы для работы серверной части, они предоставлены и работают почему-то только в Centos.

Ответить | Правка | Наверх | Cообщить модератору

78. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от Аноним (-), 12-Июн-18, 19:52 
собираются модули под ubuntu, suse, redhat.
А исходники есть в дебиан и arch.
Ответить | Правка | Наверх | Cообщить модератору

82. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от Аноним (-), 13-Июн-18, 08:02 
btw. не путайте божий дар с яшницей - плиз..

> ldiskfs - для нее требуется специальное патченное ядро

правильнее сказать иначе. ldiskfs это очень не много патчей на upstream ext4. патченое ядро не требуется, требуются исходники ext4, патчи накладываются в собственном каталоге.


> И zfs - код lustre принят в состав проекта zfs on linux

ээ.. что курили то? lustre over zfs использует обычный z-vol API. Видимо спутали с теми улучшениями которые в последнее время засылают в zfs on linux - что бы избавиться от кучи проблем у оригинального порта?

> и патченное ядро уже не требуется, но требется наличие модулей zfs.
> Плюс есть пачка отдельных модулей которые необходимы для работы серверной части, они
> предоставлены и работают почему-то только в Centos.

Что курили то? Минимальный набор патчей на ядро - для сборки сервера, это 5 патчей в основном с tunables и поддержка rdonly-disk (нужен для тестирования - заменен на dm flakey).
Набор патчей для ldiskfs - ограничивается
ldiskfs-2.6-rhel6.4.series        ldiskfs-3.0-sles11.series        ldiskfs-3.12-sles12sp1.series
ldiskfs-2.6-rhel6.5.series        ldiskfs-3.0-sles11sp3.series        ldiskfs-4.4-sles12sp2.series
ldiskfs-2.6-rhel6.6.series        ldiskfs-3.0-sles11sp4.series        ldiskfs-4.4-sles12sp3.series
ldiskfs-2.6-rhel6.7.series        ldiskfs-3.10-rhel7.2.series        ldiskfs-4.4.0-45-ubuntu14+16.series
ldiskfs-2.6-rhel6.8.series        ldiskfs-3.10-rhel7.3.series        ldiskfs-4.4.0-49-ubuntu14+16.series
ldiskfs-2.6-rhel6.9.series        ldiskfs-3.10-rhel7.4.series        ldiskfs-4.4.0-62-ubuntu14+16.series
ldiskfs-2.6-rhel6.series        ldiskfs-3.10-rhel7.series        ldiskfs-4.4.0-73-ubuntu14+16.series
ldiskfs-2.6-sles11.series        ldiskfs-3.12-sles12.series

но при желании все могут сделать их себе сами.
опять же "только CentOS" не катит.

Ответить | Правка | К родителю #63 | Наверх | Cообщить модератору

84. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от kvaps (ok), 13-Июн-18, 11:09 
>> И zfs - код lustre принят в состав проекта zfs on linux
> ээ.. что курили то? lustre over zfs использует обычный z-vol API. Видимо
> спутали с теми улучшениями которые в последнее время засылают в zfs
> on linux - что бы избавиться от кучи проблем у оригинального
> порта?

Имел ввиду что в проекте zfs on linux уже есть все необходимые патчи для запуска lustre on zfs

>> и патченное ядро уже не требуется, но требется наличие модулей zfs.
>> Плюс есть пачка отдельных модулей которые необходимы для работы серверной части, они
>> предоставлены и работают почему-то только в Centos.
> Что курили то? Минимальный набор патчей на ядро - для сборки сервера,
> это 5 патчей в основном с tunables и поддержка rdonly-disk (нужен
> для тестирования - заменен на dm flakey).

Когда я тестил lustre на CentOS 7.4 у меня все без проблем завелось и на стоковом ядре, без наложения каких либо патчей.

Интересовала failover-схема с drbd, т.к. FLR на тот момент еще не зарелизили. Но производительность не особо впечатлила в отличии от той же BeeGFS. Возможно дело в тонком тюнинге или отсутствии указанных вами патчей - не знаю.

> опять же "только CentOS" не катит.

По крайней мере так написанно в официальной wiki: http://wiki.lustre.org/Lustre_2.10.4_Changelog

Но да, выше уже ответили.

Ответить | Правка | Наверх | Cообщить модератору

85. "Исключение файловой системы Lustre из ядра Linux"  +1 +/
Сообщение от Аноним (-), 13-Июн-18, 12:23 
> Имел ввиду что в проекте zfs on linux уже есть все необходимые патчи для запуска lustre on zfs

Блин. Ну ZVOL это контейнер с транзакциями, большего люстре и не надо. при некотором желании можно вообще в BDB запустить в userland. Вы же не станете говорить что в BDB есть поддержка люстры?

> Интересовала failover-схема с drbd, т.к. FLR на тот момент еще не зарелизили. Но производительность не особо впечатлила в отличии от той же BeeGFS. Возможно дело в тонком тюнинге или отсутствии указанных вами патчей - не знаю.

Для простого failover вам даже FLR не нужен. DRBD или iscsi, нормальная дисковая полка с EBOD - что бы к дискам был их 2х нод. Скорее всего дело в DRBD, который стоило заменить на iscsi (как минимум).
ну или нормальную дисковую полку с EBOD, тогда можно получить 8-10Gb/s с 2х OST (данные реальных тестов).


> По крайней мере так написанно в официальной wiki: http://wiki.lustre.org/Lustre_2.10.4_Changelog

Тому кто писал changelog надо дать по ушам. Можно просто глянуть на на test matrix.

Ответить | Правка | Наверх | Cообщить модератору

87. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от kvaps (ok), 13-Июн-18, 13:07 
> Вы же не станете говорить что в BDB есть поддержка люстры?

Ну в анонсах zfs on linux на опеннете об этом часто упоминается как и changelog самого zfs on linux.

> Для простого failover вам даже FLR не нужен. DRBD или iscsi, нормальная
> дисковая полка с EBOD - что бы к дискам был их
> 2х нод. Скорее всего дело в DRBD, который стоило заменить на
> iscsi (как минимум).
> ну или нормальную дисковую полку с EBOD, тогда можно получить 8-10Gb/s с
> 2х OST (данные реальных тестов).

Да, согласен, но на тот момент хотелось чего-то бОльшего: репликацию между физически разными серверами и уйти от использования дисковых полок вообще.

Сейчас с релизом FLR такая возможность предумотрена в самой люстре. Очень интересно посмотреть на то как изменятся результаты бенчмарков Lustre с FLR по сравнению с Lustre on DRBD, можно ли будет вырубать OSS "на живую" и какова будет задержка для клиентов.
Обязательно займусь этим как только снова найдется время на это и если не найдется решение получше. Спасибо.

Ответить | Правка | Наверх | Cообщить модератору

88. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от Аноним (-), 13-Июн-18, 16:00 
> Ну в анонсах zfs on linux на опеннете об этом часто упоминается как и changelog самого zfs on linux.

Нужно найти того кто писал и попросить адрес драг-диллера. Трава у него видать качественная.
Единственная фича zfs к которой приложила руку люстра - это xattr in dnode, иначе xattr операции очень дорогие.
Остальное что вы увидели в changelog у zfs, это оптимизации - которые делают люди люстра тима в Intel.
Благодаря им - хоть как-то можно жить.

> Да, согласен, но на тот момент хотелось чего-то бОльшего: репликацию между физически разными серверами и уйти от использования дисковых полок вообще.

1. lustre_rsync (который rsync для изменений по changelog) не подходил?
2. что вы понимаете под репликаций между физически разными серверами?
3. предложите другой метод (кроме FC, ISCSI) что бы раздать кучу дисков в 2 физических сервера одновременно.

Ответить | Правка | Наверх | Cообщить модератору

89. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от kvaps (ok), 13-Июн-18, 17:18 
> 1. lustre_rsync (который rsync для изменений по changelog) не подходил?

Да, была идея поднять две lustre и синхронизировать изменения между ними.
Так как в нашем случае новые данные записываются активно и постоянно, существует вероятная проблема с консистентностью данных. Например как гарантировать то что данные записались в обе фс в каждый конкретный момент времени и будут доступны, даже в случае отключения какого-нибудь из OSS?

Второй вопрос с реализацией клиента - он не должен заметить переключения между двумя фс, по сути можно попробовать использовать обычный iscsi multipathing, думаю это может сработать. Спасибо классную идею!

> 2. что вы понимаете под репликаций между физически разными серверами?

Была идея иметь большое количество OSS-серверов поделеные на отказоустойчивые пары,
а на каждой паре держать только один OST (блочное устройство реплицируемое по сети).

В случае отказа одного OSS, то OST перезапускался бы на другом.
Идея в том, чтобы отдельно взятые OSS всегда можно было перезагружать без видимых задержек для клиента, и в то же иметь зеркалирование данных.
Как я понял FLR сейчас решает эту задачу и без общего OST.

> 3. предложите другой метод (кроме FC, ISCSI) что бы раздать кучу дисков
> в 2 физических сервера одновременно.

Есть еще nbd, AoE, но не совсем понял зачем, iscsi работает отлично.

Ответить | Правка | Наверх | Cообщить модератору

90. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от Аноним (-), 13-Июн-18, 17:35 
> Второй вопрос с реализацией клиента - он не должен заметить переключения между двумя фс, по сути можно попробовать использовать обычный iscsi multipathing, думаю это может сработать. Спасибо классную идею!

Зависит - хватит ли вам одного сервера для хранения данных. Люстра это в первую очередь сетевой страйпинг, когда вам одного OST не хватит для данных файла.

> Была идея иметь большое количество OSS-серверов поделеные на отказоустойчивые пары,
> а на каждой паре держать только один OST (блочное устройство реплицируемое по сети).

Это все о контролерах (серверах) а дисковые хранилища то как? так же полная дупликация?


>В случае отказа одного OSS, то OST перезапускался бы на другом.

это типичный кейс люстры. Правда требует что бы данные были доступны на втором OSS. Это решает iSCSI multipath (как вы заметили) или EBOD с дисковой полки в 2 контролера.

FLR - да позволяет иметь 2 копии, но только одна из них writetable.

> Есть еще nbd, AoE, но не совсем понял зачем, iscsi работает отлично.

у вас есть диски сами по себе, их надо как-то отдать на 2 хоста или зеркалить данные. Если у вас данные изменяются часто, у вас весь сетевой трафик может быть забит одной синхронизацией. Тогда уже sync over SAS или похоже технологии.

Ответить | Правка | Наверх | Cообщить модератору

91. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от kvaps (ok), 13-Июн-18, 18:54 
Кажется мы друг друга немного недопоняли :)

> Зависит - хватит ли вам одного сервера для хранения данных. Люстра это
> в первую очередь сетевой страйпинг, когда вам одного OST не хватит
> для данных файла.

Серверов по прежнему планируется много, и на каждом из них будет по отдельному OST. Проблем с количеством нод быть не должно.
Под это добро планировалось использовать внутренние диски блейд-серверов. Дупликацию должен был обеспечить drbd, синхронизируя блочные устройства по сети.

> это типичный кейс люстры. Правда требует что бы данные были доступны на
> втором OSS. Это решает iSCSI multipath (как вы заметили) или EBOD
> с дисковой полки в 2 контролера.

Или drbd как я сказал выше, но идея себя не оправдала.

> FLR - да позволяет иметь 2 копии, но только одна из них
> writetable.

О, а об этом можно поподробнее? - если нода с writetable копией отключится, lustre переключит операции записи на другую копию?

Ответить | Правка | Наверх | Cообщить модератору

92. "Исключение файловой системы Lustre из ядра Linux"  +1 +/
Сообщение от Аноним (-), 14-Июн-18, 06:03 
> Кажется мы друг друга немного недопоняли :)

Возможно, я привык оперировать слегка другими задачами.

>Серверов по прежнему планируется много, и на каждом из них будет по отдельному OST. Проблем с количеством нод быть не должно.
> Под это добро планировалось использовать внутренние диски блейд-серверов. Дупликацию должен был обеспечить drbd, синхронизируя блочные устройства по сети.

Дело не в количестве нод, а в простом факте - если у вас умрет нода в процессе репликации - вам только в морг.
все журналируемые FS - строятся на одном простом факте, если сработал journal commit - то данные попали на persistent storage. и точка. Если по какой-то причине FUA и тп - не отработали - и flush данных не обеспечен - вместо FS получите венегрет. Простейший пример - это raid контролер со своей памятью, но без батарейки.
Вот вы пытались сделать именно такое.

Будет или медленно или нестабильно или другие инструменты нужны.

> FLR - да позволяет иметь 2 копии, но только одна из них
> writetable.
> О, а об этом можно поподробнее? - если нода с writetable копией отключится, lustre переключит операции записи на другую копию?

Обещали что в итоге будет возможность автоматического переключения - в результате вторая реплика станет активной.
Но ценой вопроса может оказаться синхронная запись в phase1, а async recovery - помоему в phase 3?

Ответить | Правка | Наверх | Cообщить модератору

93. "Исключение файловой системы Lustre из ядра Linux"  +/
Сообщение от kvaps (ok), 14-Июн-18, 06:36 
Ещё раз огромное спасибо за ваши комментарии и за ваш опыт!
Ответить | Правка | Наверх | Cообщить модератору

96. "Исключение файловой системы Lustre из ядра Linux"  +1 +/
Сообщение от Аноним (-), 14-Июн-18, 19:17 
не за что, рад если это чем-то помогло.
Ответить | Правка | К родителю #93 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру