HW for AI
HW for AI
"По просьбам трудящихся" открываем тему "железо" для AI (ну и SW затронуто, как вторая личина HW). Тема для гиков, эстетов просьба не беспокоится.
Для работы - всё более менее просто - облако с Xeon + NVidia H200/А200 + Ubuntu доминируют.
Для дома (workstation/desktop/laptop) - всё интереснее. Наиболее "brute force" путь - workstation/desktop с приличной памятью на борту и с парой карточек от NVidia. Дороговато, сравнительно шумно (даже при тщательно подобранном корпусе), и горячо, и устаревает довольно быстро. Хотя работает шустро и позволяет грузить сравнительно большие модели. Впрочем, современные действительно большие модели на десктопах уже не поместятся, нужны ёмкие клауды/серверы.
Но пару лет назад я для себя открыл условно говоря llama.cpp (семейство моделей, на самом деле). Производные от "больших" моделей, но с усечённой разрядностью и прочими методами минимизации, скомпилированные на "чистом" CPP, без "обёрток" на питоне. Не требующими питона (хотя он есть, куда ж без него). На шустром маленьком тихом десктопе без NVidia с всего-то 64 GB RAM я получил неплохие результаты для inference. Немного медленнее, чем на солидном десктопе с двумя RTX3090, но тихо и прохладно.
Сейчас один из горячих трендов - Small Language Models [SLM] (+Agentic AI w SLM), что резонирует с вышесказанным. У меня неплохо получается даже на лаптопе с 32 GB RAM. Попробую "рыть" дальше в этом направлении, демократизация у меня началась с демократизации мейнфреймов путём замены на мини-/микро-ЭВМ сто лет назад.
В перспективе интересные AI чипы (хотя и сейчас кое-что имеется) с использованием chiplets, соединённых UCIe (аналог PCIe, но уже не на плате/материнке, а внутри корпуса). Но это будет позже.
Что-то прокукарекало от эппла в плане, "как всегда - лучще всех, и для AI сейчас, тоже", но пока реальных случаев я не слышал. Если действительно существенно быстрее (на одном ящике, о клаудах речи нет), то можно рассмотреть. Смущает потенциально инфраструктура (некоторая морока с портированием от линукса), необозначенность аналога CUDA (как и с интеловским OneAPI, вроде бы работает, но не так легко, как CUDA) и так далее. Смущает также полный волюнтаризм перспектив развития от эппл. Когда-то я взял эппл из-за действительно лучшей производительности на то время. Ненамного, но быстрее аналогов. Но в следующем поколении эппл решил двигать эстетику, кнопочки-рюшечки без упора на производительность. "Идите в жопу, нам лучше знать, что вам надо" Был облом. Тем не менее, будучи всеядным оппортунистом, готов использовать и эппл, если есть серьёзные причины. Поставлю на эппловское "железо" линукс (невзирая на вопли эстетов) - и можно пробовать.
Из-за ожидаемого "AI tsunami" надо держать себя в тонусе.
Для работы - всё более менее просто - облако с Xeon + NVidia H200/А200 + Ubuntu доминируют.
Для дома (workstation/desktop/laptop) - всё интереснее. Наиболее "brute force" путь - workstation/desktop с приличной памятью на борту и с парой карточек от NVidia. Дороговато, сравнительно шумно (даже при тщательно подобранном корпусе), и горячо, и устаревает довольно быстро. Хотя работает шустро и позволяет грузить сравнительно большие модели. Впрочем, современные действительно большие модели на десктопах уже не поместятся, нужны ёмкие клауды/серверы.
Но пару лет назад я для себя открыл условно говоря llama.cpp (семейство моделей, на самом деле). Производные от "больших" моделей, но с усечённой разрядностью и прочими методами минимизации, скомпилированные на "чистом" CPP, без "обёрток" на питоне. Не требующими питона (хотя он есть, куда ж без него). На шустром маленьком тихом десктопе без NVidia с всего-то 64 GB RAM я получил неплохие результаты для inference. Немного медленнее, чем на солидном десктопе с двумя RTX3090, но тихо и прохладно.
Сейчас один из горячих трендов - Small Language Models [SLM] (+Agentic AI w SLM), что резонирует с вышесказанным. У меня неплохо получается даже на лаптопе с 32 GB RAM. Попробую "рыть" дальше в этом направлении, демократизация у меня началась с демократизации мейнфреймов путём замены на мини-/микро-ЭВМ сто лет назад.
В перспективе интересные AI чипы (хотя и сейчас кое-что имеется) с использованием chiplets, соединённых UCIe (аналог PCIe, но уже не на плате/материнке, а внутри корпуса). Но это будет позже.
Что-то прокукарекало от эппла в плане, "как всегда - лучще всех, и для AI сейчас, тоже", но пока реальных случаев я не слышал. Если действительно существенно быстрее (на одном ящике, о клаудах речи нет), то можно рассмотреть. Смущает потенциально инфраструктура (некоторая морока с портированием от линукса), необозначенность аналога CUDA (как и с интеловским OneAPI, вроде бы работает, но не так легко, как CUDA) и так далее. Смущает также полный волюнтаризм перспектив развития от эппл. Когда-то я взял эппл из-за действительно лучшей производительности на то время. Ненамного, но быстрее аналогов. Но в следующем поколении эппл решил двигать эстетику, кнопочки-рюшечки без упора на производительность. "Идите в жопу, нам лучше знать, что вам надо" Был облом. Тем не менее, будучи всеядным оппортунистом, готов использовать и эппл, если есть серьёзные причины. Поставлю на эппловское "железо" линукс (невзирая на вопли эстетов) - и можно пробовать.
Из-за ожидаемого "AI tsunami" надо держать себя в тонусе.
- assassello
- Reactions: 2370
- Сообщения: 8139
- Зарегистрирован: Пн июн 13, 2022 6:46 pm
- Откуда: San Jose, CA
- Интересы: против Путина и, следовательно, против Трампа
Re: HW for AI
Какая практическая польза от домашнего AI?
Серьезно спрашиваю, может мне тоже надо.
Серьезно спрашиваю, может мне тоже надо.
Слава Украине, слава нации! и пиздец - Российской Федерации.
- Uzito
- ⭐ Top 5 most interesting users
- Reactions: 2160
- Сообщения: 8509
- Зарегистрирован: Пт июн 24, 2022 1:35 pm
Re: HW for AI
1) Не платить провайдеруassassello писал(а): ↑Сб сен 13, 2025 12:14 pm Какая практическая польза от домашнего AI?
Серьезно спрашиваю, может мне тоже надо.
2) Получать ответы на вопросы, которыми нежелательно делиться с провайдеров в виду их privary policy. Например "как лечить геморрой".
- assassello
- Reactions: 2370
- Сообщения: 8139
- Зарегистрирован: Пн июн 13, 2022 6:46 pm
- Откуда: San Jose, CA
- Интересы: против Путина и, следовательно, против Трампа
Re: HW for AI
По деньгам, наверное, все это недешевое hardware отбивать долго придется, нет?
Про privacy понятно.
Про privacy понятно.
Слава Украине, слава нации! и пиздец - Российской Федерации.
- Uzito
- ⭐ Top 5 most interesting users
- Reactions: 2160
- Сообщения: 8509
- Зарегистрирован: Пт июн 24, 2022 1:35 pm
Re: HW for AI
H200 это конечно не домашнее развлечение. Но на потребительском железе c 16GB VRAM вполне можно гонять довольно большие модели. А уж если найти несколько б/у RTX 3090 то и тем более.assassello писал(а): ↑Сб сен 13, 2025 12:28 pm По деньгам, наверное, все это недешевое hardware отбивать долго придется, нет?
Про privacy понятно.
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
В принципе многие модели уже лезут в 12 Gb при "загрублении", тем более что можно воткнуть две или даже больше.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.
Ignore list: местное мудачьё
-
elpresidente*
- Site Admin
- Reactions: 1401
- Сообщения: 4032
- Зарегистрирован: Сб май 14, 2022 5:03 pm
Re: HW for AI
Очень интересно. Напишите по подробнее, мне бы хотелось приобрести похожее.Mad Hatter писал(а): ↑Сб сен 13, 2025 1:33 pm В принципе многие модели уже лезут в 12 Gb при "загрублении", тем более что можно воткнуть две или даже больше.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.
- Sergunka
- Reactions: 1251
- Сообщения: 3967
- Зарегистрирован: Вт июн 14, 2022 9:35 pm
- Откуда: Владивосток->Сан Франциско
Re: HW for AI
Можно на кегле поиграть. Прокочать свое резюме или если повезет выйграть приз.assassello писал(а): ↑Сб сен 13, 2025 12:14 pm Какая практическая польза от домашнего AI?
Серьезно спрашиваю, может мне тоже надо.
Re: HW for AI
Uzito, Mad Hatter,
Согласен с вышесказанным, но это продолжает линию "brute force" с более умными минимизированными "огрублёнными" моделями с использованием NVidia GPU.
Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.
Согласен с вышесказанным, но это продолжает линию "brute force" с более умными минимизированными "огрублёнными" моделями с использованием NVidia GPU.
Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
1. LLM quantizationelpresidente* писал(а): ↑Сб сен 13, 2025 2:06 pmОчень интересно. Напишите по подробнее, мне бы хотелось приобрести похожее.Mad Hatter писал(а): ↑Сб сен 13, 2025 1:33 pm В принципе многие модели уже лезут в 12 Gb при "загрублении", тем более что можно воткнуть две или даже больше.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.
https://blog.lamatic.ai/guides/llm-quantization/
2. Использование нескольких GPU для больших моделей которые не помещаются в один - vLLM
https://medium.com/@himanshushukla.shuk ... 992cf1a1ad
https://docs.vllm.ai/
3. теперь про hardware
продают б-ушные серваки, хотя я собрал из компонент
как пример:
https://usedservers.ca/
это для Канады, в Штатах продавцов больше, и eBay в том числе
мой собран на двух-головом AsRock, не самое лучшее железо, есть противные баги, но в целом нормально
CPU: Xeon E5-4657L v2 - 2 штуки, LGA-2011
Ignore list: местное мудачьё
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
это очень интересно - я весь в вниманииmoose писал(а): ↑Сб сен 13, 2025 2:21 pm Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.
Ignore list: местное мудачьё
Re: HW for AI
Использование "старых" CPU "с новыми" GPU влияет на общую производительность. PCIe Gen3 (CPU, MB) vs PCIe Gen4 (GPU) и прочее. Я "подкрутил" CPU и удивился "подкрутке" общей производительности AI. Ожидалось отсустсвие влияния, как-бы всё определяется GPU, ан-нет. Даже думал об апгрейте, но мой жаб сказал - нет. А сейчас и подавно. Оно всё работает и так неплохо, но на новых CPU работало бы ещё быстрее. Но "не стоит шкурка выделки"Mad Hatter писал(а): ↑Сб сен 13, 2025 2:39 pm 3. теперь про hardware
продают б-ушные серваки, хотя я собрал из компонент
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
Я то согласен, но когда смотрю на стоимость бушных серваков свежих поколений, то жаба начинает протестоватьmoose писал(а): ↑Сб сен 13, 2025 2:52 pmИспользование "старых" CPU "с новыми" GPU влияет на общую производительность. PCIe Gen3 (CPU, MB) vs PCIe Gen4 (GPU) и прочее. Я "подкрутил" CPU и удивился "подкрутке" общей производительности AI. Ожидалось отсустсвие влияния, как-бы всё определяется GPU, ан-нет. Даже думал об апгрейте, но мой жаб сказал - нет. А сейчас и подавно. Оно всё работает и так неплохо, но на новых CPU работало бы ещё быстрее. Но "не стоит шкурка выделки"Mad Hatter писал(а): ↑Сб сен 13, 2025 2:39 pm 3. теперь про hardware
продают б-ушные серваки, хотя я собрал из компонент
А чтобы собрать и запустить концепт, хватит и старого железа (или клаудного).
Можно перейти на новое или dedicated cloud если видно что есть финансовая выгода. Но я пока очень далёк от этой точки
Упомянуиый сервер собран 5+ лет назад, давно окупился многократно и пока ещё дееспособен. Так почему нет?
Последний раз редактировалось Mad Hatter Сб сен 13, 2025 2:56 pm, всего редактировалось 2 раза.
Ignore list: местное мудачьё
Re: HW for AI
Я чего-то наворотил, пришёл в дикий восторг, но сейчас уже не помню "явок, имён, паролей". Вечером пройдусь, повторю на десктопе и завтра отпишусь. Обещаю, самому надоMad Hatter писал(а): ↑Сб сен 13, 2025 2:39 pmэто очень интересно - я весь в вниманииmoose писал(а): ↑Сб сен 13, 2025 2:21 pm Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.
Re: HW for AI
Моя жаба квакает в унисон с твоей жабой. И даже когда мне предложили серверный CPU (не самый новый, но всё-таки) бесплатно, я подсчитал стоимость материнки, ящика, питания, памяти и прочего - и отказалсяMad Hatter писал(а): ↑Сб сен 13, 2025 2:54 pm Я то согласен, но когда смотрю на стоимость бушных сервакрв свежих поколений, то жаба начинает протестовать![]()
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
Вот... кроме того. Сейчас популярны AMD EPYC. Они очень мощные в том числе и по потребляемой мощности, величины потрясают. Когда я прокинул сколько может в пике потреблять пара таких CPU, я понял что в домашнюю электросеть такой сервак уже не лезет, да и незачем - я вряд ли смогу так его загрузить.moose писал(а): ↑Сб сен 13, 2025 2:59 pmМоя жаба квакает в унисон с твоей жабой. И даже когда мне предложили серверный CPU (не самый новый, но всё-таки) бесплатно, я подсчитал стоимость материнки, ящика, питания, памяти и прочего - и отказалсяMad Hatter писал(а): ↑Сб сен 13, 2025 2:54 pm Я то согласен, но когда смотрю на стоимость бушных сервакрв свежих поколений, то жаба начинает протестовать![]()
![]()
Ignore list: местное мудачьё
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
Мысли вслух: владение сервером и его ковыряние позволили лучше понять как вообще серверное железо работает и чем оно принципиально отличается от "домашнего". Как устроено управление шинами PCIe (оно распределено между процессорами) и наличие высоко-скоростных бриджей передачи данных между процессорами. Виртуализация более сложная и мощная, к примеру чтобы настроить использование GPU для VM пришлось повозится, но работает в итоге без проблем, что в Linux VM, что в Windows 11, можно запустить любую игрушку к примеру и играть в нее "удаленно" с лептопа (я давно не играю, но остатки интереса есть), похоже на Nvidia GeForce NOW.
К сожалению Nvidia запретила использование vGPU для retail карт, его поддержка есть в Proxmox.
К сожалению Nvidia запретила использование vGPU для retail карт, его поддержка есть в Proxmox.
Последний раз редактировалось Mad Hatter Сб сен 13, 2025 3:15 pm, всего редактировалось 1 раз.
Ignore list: местное мудачьё
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2660
- Сообщения: 14367
- Зарегистрирован: Пн июн 13, 2022 7:22 am
- Откуда: Торонто
Re: HW for AI
100%
на работе активно продвигают ML/AI, вроде как пользуют AWS bedrock и уже навалено задач, которые потенциально ложатся на использование ML, так что деваться некуда
Ignore list: местное мудачьё
Re: HW for AI
Да, ковыряние на низком уровне помогает понять особенности. Для серверной платы с двумя CPU для меня былa немного странной работа сети (local desktop - local server, GBE), насколько я помню. Высоко-скоростных бриджи - QPI/UPI интерфейсы. Помогает также ковыряние на С/С++ с прагмами OpenMP и MPI для понимания работы mesh core interconnect, memory affinity etc. Но сейчас фокус смещён на высокоуровневые концепции, питон и всё такое.Mad Hatter писал(а): ↑Сб сен 13, 2025 3:11 pm Мысли вслух: владение сервером и его ковыряние позволили лучше понять как вообще серверное железо работает и чем оно принципиально отличается от "домашнего". Как устроено управление шинами PCIe (оно распределено между процессорами) и наличие высоко-скоростных бриджей передачи данных между процессорами. Виртуализация более сложная и мощная, к примеру чтобы настроить использование GPU для VM пришлось повозится, но работает в итоге без проблем, что в Linux VM, что в Windows 11, можно запустить любую игрушку к примеру и играть в нее "удаленно" с лептопа (я давно не играю, но остатки интереса есть), похоже на Nvidia GeForce NOW.
К сожалению Nvidia запретила использование vGPU для retail карт, его поддержка есть в Proxmox.
