The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Проект Minotaur развивает оптимизатор векторных инструкций для LLVM , opennews (??), 16-Июл-23, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


2. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  –4 +/
Сообщение от Аноним (2), 16-Июл-23, 10:58 
А они учитывают то что многие процессоры тут же включают троттлинг от таких инструкций?
Ответить | Правка | Наверх | Cообщить модератору

6. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от Аноним (6), 16-Июл-23, 11:29 
околесицу и чушь про тротлинг при вызове таких инструкций не несите, хорошо? спасибо.
Ответить | Правка | Наверх | Cообщить модератору

7. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  –1 +/
Сообщение от Аноним (7), 16-Июл-23, 11:33 
Может троттлинг и не точное определение, но то, что ядра снижают частоту при использовании AVX-* - факт.
Ответить | Правка | Наверх | Cообщить модератору

15. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (2), 16-Июл-23, 12:33 
Это то же самое и по той же причине. Своеобразный преемптивный троттлинг, avx легко отобрали пальму первенства по нагреву у sse и fpu. Особенно заметно, когда СО в итоге всё же не справляется и легко падает в полноценный троттлинг. Для примера, компиляция вебкита (и хромиума соотвественно) -- единственный процесс из всех пакетов, который выкидывал мой пк в защиту от перегрева (температура на ~20 градусов выше обычной максимальной).
Ответить | Правка | Наверх | Cообщить модератору

16. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (2), 16-Июл-23, 12:37 
То, что это в принципе самый долгособираемый пакет, вопрос отдельный, троттлить начинало довольно быстро и соответственно всё растягивалось на долго.
Ответить | Правка | Наверх | Cообщить модератору

41. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от Аноним (41), 16-Июл-23, 15:48 
Пользуйтесь процессорами AMD, у них частоты одинаковые при любых инструкциях.
Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору

42. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  –1 +/
Сообщение от Аноним (2), 16-Июл-23, 15:54 
А как же быть с тем, что процессоры АМД не показывают реальную температуру на датчиках? Из-за того, что они склеены из различной отбраковки, результаты могут довольно разниться. У них намного жёстче ограничения по рабочим температурам, как из-за материала затворов, так и из-за клея.
Ответить | Правка | Наверх | Cообщить модератору

73. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от Я (??), 16-Июл-23, 23:05 
какая разница что там на датчиках если процессор не пререгревается и работает нормально без тротлинга?
Ответить | Правка | Наверх | Cообщить модератору

30. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +4 +/
Сообщение от Аноним (29), 16-Июл-23, 14:48 
Это было на самых первых реализациях от интела. Этого уже нет, если укладывается в теплопакет - частота будет та же.

Так и AVX-512 за троттлинг и снижение частоты гнобили, а *внезапно* это оказалось просто легкой болячкой первых интеловских реализаций, вон в Zen 4 никакого снижения частоты от AVX-512 не происходит. И теперь даже memcpy() с ним оказывается эффективнее воткнуть во всех программы, а то что когда-то Линус говорил против этого - оказалось частью истории и неактуальной частностью. Прошло время, ошибки изучили, сделали нормально. Вон, ознакомьтесь с бенчмарками phoronix с/без AVX2 и AVX-512.

Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору

36. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноньимъ (ok), 16-Июл-23, 15:27 
В процессорах нет инструкций для копирования произвольных кусков памяти?
Ответить | Правка | Наверх | Cообщить модератору

57. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Oe (?), 16-Июл-23, 18:15 
Нету, проще каждое поколение наращивать количество ядер и продавать. Ой, уже давно уперлись в потребление в пол-киловатта, поэтому чтобы добавить еще больше ядер, половину ядер урезают по частотам под соусом "энергоэффективности и экологии", так можно еще пару лет делать новые "инновационные" поколения процессоров и впаривать хомякам, не внося абсолютно никаких изменений в архитектуру и техпроцесс.
Ответить | Правка | Наверх | Cообщить модератору

59. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноньимъ (ok), 16-Июл-23, 18:26 
"Прогресс"

Ответить | Правка | Наверх | Cообщить модератору

82. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от n00by (ok), 17-Июл-23, 08:05 
>> В процессорах нет инструкций для копирования произвольных кусков памяти?
> Нету,

Прекратите распространять мракобесие.

Ответить | Правка | К родителю #57 | Наверх | Cообщить модератору

81. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от n00by (ok), 17-Июл-23, 08:02 
Есть, начиная с 16-ти разрядных 8086.

rep movs

В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из кеша (prefetchnta), но давно ускорили.

Ответить | Правка | К родителю #36 | Наверх | Cообщить модератору

90. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноньимъ (ok), 17-Июл-23, 11:26 
> Есть, начиная с 16-ти разрядных 8086.
> rep movs
> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из
> кеша (prefetchnta), но давно ускорили.

Зачем тогда avx используют для копирования?

И разве это не просто способ повторения копирования одного слова?

Ответить | Правка | Наверх | Cообщить модератору

91. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от n00by (ok), 17-Июл-23, 12:36 
>> Есть, начиная с 16-ти разрядных 8086.
>> rep movs
>> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из
>> кеша (prefetchnta), но давно ускорили.
> Зачем тогда avx используют для копирования?
> И разве это не просто способ повторения копирования одного слова?

Не знаю, зачем. Может маркетинг, или очередной выигрыш на уровне погрешности измерений.

Вот цитата 64-ia-32-architectures-optimization-manual.pdf

2.6.6 REP String Enhancement

REP prefix in conjunction with MOVS/STOS instruction and a count value in ECX are frequently used to
implement library functions such as memcpy()/memset().
...
Fast string (ECX >= 76: excluding REP MOVSB): the processor implementation provides hardware
optimization by moving as many pieces of data in 16 bytes as possible. The latency of REP string
latency will vary if one of the 16-byte data transfer spans across cache line boundary:
...
In order for REP string to operate in “fast string” mode, previous microarchitectures requires address
alignment. In Intel microarchitecture code name Nehalem, REP string can operate in “fast string”
mode even if address is not aligned to 16 bytes.

Обратите внимание на "аппаратная оптимизация" (hardware optimization).

Проблема со скоростью копирования была во времена Athlon XP и разобрана в http://files.rsdn.ru/23380/AMD_block_prefetch_paper.pdf
Смысл в том, что память читается не побайтно, а кратно размеру линии кэша, и лишнего загрязнения кэша желательно избегать.
В следующем поколении Intel оптимизировали REP MOVSB и она догнала по скорости оптимизированные циклы.

Ответить | Правка | Наверх | Cообщить модератору

118. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (118), 03-Янв-24, 21:38 
Там целая эпопея https://stackoverflow.com/questions/43343231/enhanced-rep-mo...
Ответить | Правка | К родителю #90 | Наверх | Cообщить модератору

46. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноним (46), 16-Июл-23, 16:51 
Ага, такой лёгкой болячкой оказалось, что вообще нафиг выпилили из новых процессоров.
Ответить | Правка | К родителю #30 | Наверх | Cообщить модератору

56. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от анонимус (??), 16-Июл-23, 18:10 
Выпилили чтобы зеоны продавать, в них-то avx512 остался.
Ответить | Правка | Наверх | Cообщить модератору

65. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (65), 16-Июл-23, 19:19 
Выпилили по совершенно другой причине.
Ответить | Правка | К родителю #46 | Наверх | Cообщить модератору

80. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (46), 17-Июл-23, 07:35 
И пр какой же? Только не надо вот про зионы, как выше написали, эти рынки вообще не пересекаются.
В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.
Ответить | Правка | Наверх | Cообщить модератору

98. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 18-Июл-23, 00:33 
Очевидно, потому что малые E-ядра не могут в AVX-512. Скорее всего, тупо не влезло по площади в кремнии и по энергопотреблению, даже если делать в double pumped варианте без добавления новых исполнительных устройств. Регистров больше, более сложный shuffle блок, 64-битный блок векторного умножения.

А если спросите "а как же модели без E-ядер", то ответ тоже очевиден - сегментирование рынка. Да, чтобы брали зионы за конский ценник, кому оно действительно надо.

> В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.

С пробуждением. До недавнего времени в Pentium'ах и Celeron'ах не было AVX. Никакого, только SSE.
Так что ничто не ново под луной.

Ответить | Правка | Наверх | Cообщить модератору

69. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от S22 (?), 16-Июл-23, 21:44 
В zen4 avx512 выполняется в 2 инструкции так как ширина канала 256. По факту avx512 там не даёт существенных преимуществ над avx2
Ответить | Правка | К родителю #30 | Наверх | Cообщить модератору

71. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от анонимус (??), 16-Июл-23, 22:44 
Phoronix потестил и смысл очень даже есть: https://www.phoronix.com/review/amd-zen4-avx512
а вот с 512бит шириной канала есть вопросы поскольку штука узкоспециализированная, у интел тоже не дураки чтобы выкинуть поддержку из гражданских моделей, ибо греется сильней и зря занимает полезное место. Можно конечно придумать куда впихнуть, но тут проблема курицы и яйца
Ответить | Правка | Наверх | Cообщить модератору

79. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от S22 (?), 17-Июл-23, 07:29 
Увеличение скорости на 10% против нормативных 2х раз.

Avx512 там добавили для галочки. Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?

Ответить | Правка | Наверх | Cообщить модератору

83. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от анонимус (??), 17-Июл-23, 08:10 
> против нормативных 2х раз

uwot

https://www.phoronix.com/review/rocket-lake-avx512
https://www.phoronix.com/review/zen4-avx512-7700x

> как я понимаю многопоточность не будет работать с avx512 в линуксе

Ну да, а HPC для которых всё затевалось на виндосервере работают. Вон Майкл даже на епике потестил и есть сравнение с "настоящим" avx512 на интелах

https://www.phoronix.com/review/amd-epyc-avx512
https://www.phoronix.com/review/intel-sapphirerapids-avx512/

Может посмотреть тесты на железе сперва?

Ответить | Правка | Наверх | Cообщить модератору

99. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 18-Июл-23, 00:35 
> Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?

Чего только не прочитаешь в комментах.

Ответить | Правка | К родителю #79 | Наверх | Cообщить модератору

103. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Staxemail (ok), 18-Июл-23, 07:42 
Не туда смотрите. Вот вам в TensorFlow и в два раза прирост: https://www.phoronix.com/review/amd-ryzen7040-avx512/7

При совершенно том же теплопакете. Да, на райзене, потому что на Ice Lake старая реализация, которая так повышала энергопотребление и из-за этого мобильный CPU снижал частоту. Да, вне задач рендеринга и AI двухкратный выигрыш получить сложно, мало что еще параллелится до такой степени, чтобы 512 бит за раз перемалывать. Но когда что-то параллелится - выигрыш на чистом месте вплоть до двухкратного относительно AVX2 без доп. расхода энергии (8 страница).

Ответить | Правка | К родителю #79 | Наверх | Cообщить модератору

32. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +3 +/
Сообщение от Аноним (65), 16-Июл-23, 14:53 
> А они учитывают то что многие процессоры тут же включают троттлинг от таких инструкций?

А многие не включают.

Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

33. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (2), 16-Июл-23, 15:10 
Вроде, это каждый раз повторяется. Добавляют новые SIMD, не вывозят по тепловыделению, и пока литография не обновится, все процессоры идут бракованные. И не предъявишь ведь как АМД -- ничего не падает.
Ответить | Правка | Наверх | Cообщить модератору

34. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (2), 16-Июл-23, 15:14 
У АМД была похожая история с совместными блоками -- вроде, ядер много, а используется только половина и остальные стоят ждут. Ещё что-то там с шиной межъядерного взаимодействия было. Всё лучше чем сегфолты, конечно. Но старое железо никуда не девается ведь.
Ответить | Правка | Наверх | Cообщить модератору

38. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (27), 16-Июл-23, 15:35 
Всё лучше чем проц сгорает если снять кулер.
Ответить | Правка | Наверх | Cообщить модератору

47. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от Аноним (46), 16-Июл-23, 16:54 
Тут, конечно, пара человек с сокетом  462 найдётся, но в основном все обновились уже.
А то так можно вспомнить и «всё лучше, чем когда математику неправильно считает».
Ответить | Правка | Наверх | Cообщить модератору

49. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от An2 (?), 16-Июл-23, 17:03 
Они тогда решили сэкономить на блоках для плавающей запятой (1 на 2 ядра). В бульдозерах, вроде. Напрасно.
Ответить | Правка | К родителю #34 | Наверх | Cообщить модератору

70. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +3 +/
Сообщение от Аноньимъ (ok), 16-Июл-23, 22:08 
Работало вообще оно отлично для обычных задач.

Да, на всяких расчётах не очень хорошо тянуло в сравнении, хотя там свои нюансы были.

Мне кажется бульдозеры незаслуженно ругали вообще.

Думаю маркетинг подкачал скорее.

Ответить | Правка | Наверх | Cообщить модератору

100. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 18-Июл-23, 01:02 
А вы посмотрите обзоры и сравнения тех времен, и перестанет казаться.

Разделяемый FPU не взлетел потому что, внезапно, программы его активно используют. Напомню, что в случае AMD FPU используется не только для вычислений с плавающей запятой, но и для векторных инструкций. А в Бульдозере, к тому же, использовался сырой процесс, в котором не смогли добиться высоких частот. Вот и получилось, что разделяемый FPU, расчитанный на высокую пропускную способность (throughput) в ущерб задержке (latency), работал на относительно низких частотах.

Ответить | Правка | Наверх | Cообщить модератору

101. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноньимъ (ok), 18-Июл-23, 02:39 
Смотрел обзоры, видел много некомпетентности.

И успешно использовал эти апушки много много лет вплоть до войны.

Не знал с ними горя вообще, играл в танки в фулл аш ди, и прочие вещи делал, даже видео кодировал весьма успешно, хоть и долго.

CPU рендерингом не занимался.

Ответить | Правка | Наверх | Cообщить модератору

102. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноньимъ (ok), 18-Июл-23, 02:48 
Первой их апушкой у меня был
AMD A10-5800K
Разгонялся вообще отлично.
При этом был не особо то горячим, хотя я его скальпнул в итоге и на жм прилепил вначале так, а потом крышку на место вернул.

>расчитанный на высокую пропускную способность (throughput)

Там подсистему памяти(или что-то такое) можно и нужно было гнать, не помню уже что у меня там стояло..

Ответить | Правка | К родителю #100 | Наверх | Cообщить модератору

106. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от n00by (ok), 18-Июл-23, 09:13 
"расчитанный на высокую пропускную способность (throughput) в ущерб задержке (latency)" - вот это про архитектуру NetBurst. Те самые "кукурузные гигагерцы" первых Pentium 4, которые проигрывали ноутбучным Pentium 3 с меньшей частотой. Похоже, что эксперт просто прилепил запомнившуюся фразу куда пришлось.
Ответить | Правка | Наверх | Cообщить модератору

108. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноним (98), 18-Июл-23, 12:57 
Да нет, всё "прилеплено" куда надо. Да, NetBurst был расчитан на высокие частоты, ну так он их и брал. А Бульдозер не смог. И кстати, во времена Бульдозера у Intel уже был прорывной Nehalem и появился легендарный Sandy Bridge, которые рвали его как тузик грелку.

Кстати, если интересно, вот статейка по Бульдозеру:

https://chipsandcheese.com/2023/01/22/bulldozer-amds-crash-m.../
https://chipsandcheese.com/2023/01/24/bulldozer-amds-crash-m.../

Ответить | Правка | Наверх | Cообщить модератору

111. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от n00by (ok), 19-Июл-23, 09:01 
> Да, NetBurst был расчитан на высокие частоты, ну так он их и брал.

Но толку не было, потому она (архитектура NetBurst) и породила мем "кукурузные гигагерцы".

> А Бульдозер не смог.

То есть "расчитанный на высокую пропускную способность (throughput) в ущерб задержке (latency)" не относится.

Ответить | Правка | Наверх | Cообщить модератору

114. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 19-Июл-23, 11:27 
> То есть "расчитанный на высокую пропускную способность (throughput) в ущерб задержке (latency)" не относится.

Относится. Почитайте статьи по ссылкам.

Ответить | Правка | Наверх | Cообщить модератору

115. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от n00by (ok), 19-Июл-23, 15:17 
Вот сам читай их, подбирай цитаты и подтверждай своё заявление. Мне достаточно курса физики, арифметики, а так же понимания, что такое пропускная способность и частота.
Ответить | Правка | Наверх | Cообщить модератору

116. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 19-Июл-23, 23:04 
> Вот сам читай их, подбирай цитаты и подтверждай своё заявление. Мне достаточно курса физики, арифметики...

Всё понятно, удачи с вашим багажом знаний.

Ответить | Правка | К родителю #115 | Наверх | Cообщить модератору

117. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от n00by (ok), 20-Июл-23, 09:18 
>> Вот сам читай их, подбирай цитаты и подтверждай своё заявление. Мне достаточно курса физики, арифметики...
> Всё понятно, удачи с вашим багажом знаний.

Бгг, но ведь ты как то живёшь, не понимая индукцию.

Ответить | Правка | К родителю #116 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру