HW for AI

moose · Сб сен 13, 2025 11:56 am

"По просьбам трудящихся" открываем тему "железо" для AI (ну и SW затронуто, как вторая личина HW). Тема для гиков, эстетов просьба не беспокоится.

Для работы - всё более менее просто - облако с Xeon + NVidia H200/А200 + Ubuntu доминируют.

Для дома (workstation/desktop/laptop) - всё интереснее. Наиболее "brute force" путь - workstation/desktop с приличной памятью на борту и с парой карточек от NVidia. Дороговато, сравнительно шумно (даже при тщательно подобранном корпусе), и горячо, и устаревает довольно быстро. Хотя работает шустро и позволяет грузить сравнительно большие модели. Впрочем, современные действительно большие модели на десктопах уже не поместятся, нужны ёмкие клауды/серверы.

Но пару лет назад я для себя открыл условно говоря llama.cpp (семейство моделей, на самом деле). Производные от "больших" моделей, но с усечённой разрядностью и прочими методами минимизации, скомпилированные на "чистом" CPP, без "обёрток" на питоне. Не требующими питона (хотя он есть, куда ж без него). На шустром маленьком тихом десктопе без NVidia с всего-то 64 GB RAM я получил неплохие результаты для inference. Немного медленнее, чем на солидном десктопе с двумя RTX3090, но тихо и прохладно.

Сейчас один из горячих трендов - Small Language Models [SLM] (+Agentic AI w SLM), что резонирует с вышесказанным. У меня неплохо получается даже на лаптопе с 32 GB RAM. Попробую "рыть" дальше в этом направлении, демократизация у меня началась с демократизации мейнфреймов путём замены на мини-/микро-ЭВМ сто лет назад.

В перспективе интересные AI чипы (хотя и сейчас кое-что имеется) с использованием chiplets, соединённых UCIe (аналог PCIe, но уже не на плате/материнке, а внутри корпуса). Но это будет позже.

Что-то прокукарекало от эппла в плане, "как всегда - лучще всех, и для AI сейчас, тоже", но пока реальных случаев я не слышал. Если действительно существенно быстрее (на одном ящике, о клаудах речи нет), то можно рассмотреть. Смущает потенциально инфраструктура (некоторая морока с портированием от линукса), необозначенность аналога CUDA (как и с интеловским OneAPI, вроде бы работает, но не так легко, как CUDA) и так далее. Смущает также полный волюнтаризм перспектив развития от эппл. Когда-то я взял эппл из-за действительно лучшей производительности на то время. Ненамного, но быстрее аналогов. Но в следующем поколении эппл решил двигать эстетику, кнопочки-рюшечки без упора на производительность. "Идите в жопу, нам лучше знать, что вам надо" Был облом. Тем не менее, будучи всеядным оппортунистом, готов использовать и эппл, если есть серьёзные причины. Поставлю на эппловское "железо" линукс (невзирая на вопли эстетов) - и можно пробовать.

Из-за ожидаемого "AI tsunami" надо держать себя в тонусе.

assassello · Сб сен 13, 2025 12:14 pm

Какая практическая польза от домашнего AI?
Серьезно спрашиваю, может мне тоже надо.

Uzito · Сб сен 13, 2025 12:18 pm

assassello писал(а): ↑Сб сен 13, 2025 12:14 pm Какая практическая польза от домашнего AI?
Серьезно спрашиваю, может мне тоже надо.

1) Не платить провайдеру
2) Получать ответы на вопросы, которыми нежелательно делиться с провайдеров в виду их privary policy. Например "как лечить геморрой".

assassello · Сб сен 13, 2025 12:28 pm

По деньгам, наверное, все это недешевое hardware отбивать долго придется, нет?

Про privacy понятно.

Uzito · Сб сен 13, 2025 1:06 pm

assassello писал(а): ↑Сб сен 13, 2025 12:28 pm По деньгам, наверное, все это недешевое hardware отбивать долго придется, нет?
Про privacy понятно.

H200 это конечно не домашнее развлечение. Но на потребительском железе c 16GB VRAM вполне можно гонять довольно большие модели. А уж если найти несколько б/у RTX 3090 то и тем более.

Mad Hatter · Сб сен 13, 2025 1:33 pm

В принципе многие модели уже лезут в 12 Gb при "загрублении", тем более что можно воткнуть две или даже больше.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.

: Screenshot_20250913_163837.jpg (253.33 КБ) 591 просмотр

Сб сен 13, 2025 2:06 pm

Mad Hatter писал(а): ↑Сб сен 13, 2025 1:33 pm В принципе многие модели уже лезут в 12 Gb при "загрублении", тем более что можно воткнуть две или даже больше.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.

Очень интересно. Напишите по подробнее, мне бы хотелось приобрести похожее.

Sergunka · Сб сен 13, 2025 2:18 pm

assassello писал(а): ↑Сб сен 13, 2025 12:14 pm Какая практическая польза от домашнего AI?
Серьезно спрашиваю, может мне тоже надо.

Можно на кегле поиграть. Прокочать свое резюме или если повезет выйграть приз.

moose · Сб сен 13, 2025 2:21 pm

Uzito, Mad Hatter,

Согласен с вышесказанным, но это продолжает линию "brute force" с более умными минимизированными "огрублёнными" моделями с использованием NVidia GPU.

Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.

Mad Hatter · Сб сен 13, 2025 2:39 pm

elpresidente* писал(а): ↑Сб сен 13, 2025 2:06 pm
Mad Hatter писал(а): ↑Сб сен 13, 2025 1:33 pm В принципе многие модели уже лезут в 12 Gb при "загрублении", тем более что можно воткнуть две или даже больше.
У меня стоит домашний сервак, два Xeon старого поколения ePCI 3.0, но его производительности хватает. Это железо стоит копейки, при том что можно при желании воткнуть до 4х GPU, памяти до пол терабайта, сейчас стоит 384 Gb, стоит смешных денег.
Очень интересно. Напишите по подробнее, мне бы хотелось приобрести похожее.

1. LLM quantization
https://blog.lamatic.ai/guides/llm-quantization/

2. Использование нескольких GPU для больших моделей которые не помещаются в один - vLLM
https://medium.com/@himanshushukla.shuk ... 992cf1a1ad
https://docs.vllm.ai/

3. теперь про hardware
продают б-ушные серваки, хотя я собрал из компонент

как пример:
https://usedservers.ca/
это для Канады, в Штатах продавцов больше, и eBay в том числе
мой собран на двух-головом AsRock, не самое лучшее железо, есть противные баги, но в целом нормально
CPU: Xeon E5-4657L v2 - 2 штуки, LGA-2011

Mad Hatter · Сб сен 13, 2025 2:39 pm

moose писал(а): ↑Сб сен 13, 2025 2:21 pm Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.

это очень интересно - я весь в внимании

moose · Сб сен 13, 2025 2:52 pm

Mad Hatter писал(а): ↑Сб сен 13, 2025 2:39 pm 3. теперь про hardware
продают б-ушные серваки, хотя я собрал из компонент

Использование "старых" CPU "с новыми" GPU влияет на общую производительность. PCIe Gen3 (CPU, MB) vs PCIe Gen4 (GPU) и прочее. Я "подкрутил" CPU и удивился "подкрутке" общей производительности AI. Ожидалось отсустсвие влияния, как-бы всё определяется GPU, ан-нет. Даже думал об апгрейте, но мой жаб сказал - нет. А сейчас и подавно. Оно всё работает и так неплохо, но на новых CPU работало бы ещё быстрее. Но "не стоит шкурка выделки"

Mad Hatter · Сб сен 13, 2025 2:54 pm

moose писал(а): ↑Сб сен 13, 2025 2:52 pm
Mad Hatter писал(а): ↑Сб сен 13, 2025 2:39 pm 3. теперь про hardware
продают б-ушные серваки, хотя я собрал из компонент
Использование "старых" CPU "с новыми" GPU влияет на общую производительность. PCIe Gen3 (CPU, MB) vs PCIe Gen4 (GPU) и прочее. Я "подкрутил" CPU и удивился "подкрутке" общей производительности AI. Ожидалось отсустсвие влияния, как-бы всё определяется GPU, ан-нет. Даже думал об апгрейте, но мой жаб сказал - нет. А сейчас и подавно. Оно всё работает и так неплохо, но на новых CPU работало бы ещё быстрее. Но "не стоит шкурка выделки"

Я то согласен, но когда смотрю на стоимость бушных серваков свежих поколений, то жаба начинает протестовать

А чтобы собрать и запустить концепт, хватит и старого железа (или клаудного).
Можно перейти на новое или dedicated cloud если видно что есть финансовая выгода. Но я пока очень далёк от этой точки

Упомянуиый сервер собран 5+ лет назад, давно окупился многократно и пока ещё дееспособен. Так почему нет?

moose · Сб сен 13, 2025 2:55 pm

Mad Hatter писал(а): ↑Сб сен 13, 2025 2:39 pm
moose писал(а): ↑Сб сен 13, 2025 2:21 pm Вторая, не столь очевидная, линия - обойтись без NVidia GPU вовсе. Развитие CPU и CPU+GPU+NPU (в одном корпусе/в одном чипе), плюс появление ещё более "огрублённых" и "умных" моделей обеспечивает демократизацию AI. Можно делать локальные AI/AgenticAI на локальном десктопе/лаптопе, Новые CPU оптимизированы для AI и обеспечивают неплохую производительность.
это очень интересно - я весь в внимании

Я чего-то наворотил, пришёл в дикий восторг, но сейчас уже не помню "явок, имён, паролей". Вечером пройдусь, повторю на десктопе и завтра отпишусь. Обещаю, самому надо

moose · Сб сен 13, 2025 2:59 pm

Mad Hatter писал(а): ↑Сб сен 13, 2025 2:54 pm Я то согласен, но когда смотрю на стоимость бушных сервакрв свежих поколений, то жаба начинает протестовать

Моя жаба квакает в унисон с твоей жабой. И даже когда мне предложили серверный CPU (не самый новый, но всё-таки) бесплатно, я подсчитал стоимость материнки, ящика, питания, памяти и прочего - и отказался

Mad Hatter · Сб сен 13, 2025 3:03 pm

moose писал(а): ↑Сб сен 13, 2025 2:59 pm
Mad Hatter писал(а): ↑Сб сен 13, 2025 2:54 pm Я то согласен, но когда смотрю на стоимость бушных сервакрв свежих поколений, то жаба начинает протестовать
Моя жаба квакает в унисон с твоей жабой. И даже когда мне предложили серверный CPU (не самый новый, но всё-таки) бесплатно, я подсчитал стоимость материнки, ящика, питания, памяти и прочего - и отказался

Вот... кроме того. Сейчас популярны AMD EPYC. Они очень мощные в том числе и по потребляемой мощности, величины потрясают. Когда я прокинул сколько может в пике потреблять пара таких CPU, я понял что в домашнюю электросеть такой сервак уже не лезет, да и незачем - я вряд ли смогу так его загрузить.

Mad Hatter · Сб сен 13, 2025 3:11 pm

Мысли вслух: владение сервером и его ковыряние позволили лучше понять как вообще серверное железо работает и чем оно принципиально отличается от "домашнего". Как устроено управление шинами PCIe (оно распределено между процессорами) и наличие высоко-скоростных бриджей передачи данных между процессорами. Виртуализация более сложная и мощная, к примеру чтобы настроить использование GPU для VM пришлось повозится, но работает в итоге без проблем, что в Linux VM, что в Windows 11, можно запустить любую игрушку к примеру и играть в нее "удаленно" с лептопа (я давно не играю, но остатки интереса есть), похоже на Nvidia GeForce NOW.
К сожалению Nvidia запретила использование vGPU для retail карт, его поддержка есть в Proxmox.

Mad Hatter · Сб сен 13, 2025 3:14 pm

moose писал(а): ↑Сб сен 13, 2025 11:56 am Что-то прокукарекало от эппла в плане, "как всегда - лучще всех, и для AI сейчас, тоже", но пока реальных случаев я не слышал.

у Яблока произошел epic fail в плане AI

неожиданно...

Mad Hatter · Сб сен 13, 2025 3:20 pm

moose писал(а): ↑Сб сен 13, 2025 11:56 am Из-за ожидаемого "AI tsunami" надо держать себя в тонусе.

100%
на работе активно продвигают ML/AI, вроде как пользуют AWS bedrock и уже навалено задач, которые потенциально ложатся на использование ML, так что деваться некуда

moose · Сб сен 13, 2025 7:20 pm

Mad Hatter писал(а): ↑Сб сен 13, 2025 3:11 pm Мысли вслух: владение сервером и его ковыряние позволили лучше понять как вообще серверное железо работает и чем оно принципиально отличается от "домашнего". Как устроено управление шинами PCIe (оно распределено между процессорами) и наличие высоко-скоростных бриджей передачи данных между процессорами. Виртуализация более сложная и мощная, к примеру чтобы настроить использование GPU для VM пришлось повозится, но работает в итоге без проблем, что в Linux VM, что в Windows 11, можно запустить любую игрушку к примеру и играть в нее "удаленно" с лептопа (я давно не играю, но остатки интереса есть), похоже на Nvidia GeForce NOW.
К сожалению Nvidia запретила использование vGPU для retail карт, его поддержка есть в Proxmox.

Да, ковыряние на низком уровне помогает понять особенности. Для серверной платы с двумя CPU для меня былa немного странной работа сети (local desktop - local server, GBE), насколько я помню. Высоко-скоростных бриджи - QPI/UPI интерфейсы. Помогает также ковыряние на С/С++ с прагмами OpenMP и MPI для понимания работы mesh core interconnect, memory affinity etc. Но сейчас фокус смещён на высокоуровневые концепции, питон и всё такое.

Форум Привет

HW for AI

HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI

Re: HW for AI