AI tech - "the collapse of the Rave Function"?

FelisSilvestris · Вс июл 13, 2025 8:53 am

Ну что может обсудим? АИ и особенно в исполнении ЛЛМ похоже были хайпом.
Вот интересная статейка:
https://arxiv.org/pdf/2412.14161
Carnegie Mellon researchers tested AI agents on 175 realistic workplace tasks and the results were absolutely devastating across every single model.
OpenAI's GPT-4o, the model everyone's been hyping as the future of work, managed to fail a staggering 91.4% of basic office tasks.
Amazon's Nova-Pro-v1 achieved the most spectacular failure rate of 98.3% - essentially making it worse than random chance on most problems.
Meta's Llama-3.1-405b crashed and burned with a 92.6% failure rate, proving that bigger models don't automatically mean better performance.
Even Google's best-performing Gemini 2.5 Pro, which led the pack, still failed 70% of tasks that any competent human worker could handle.
These weren't trick questions or edge cases - we're talking about responding to colleagues, basic web browsing, and simple coding tasks.

Но мне как физику интереснее даже вот это:
https://arxiv.org/abs/2507.06952

Я оптимистична в отношении того что АИ могут быть большим подспорьем в решении скучных задач, но похоже на идеи всемогущества ЛЛМ модели (это то что в основе чартгпт лежит и прочих опенАИ и тп) можно поставить большой крест.

Название своровано из обсуждения на ютубе. По-моему очень уж cute

mikeG · Вс июл 13, 2025 9:29 am

У нас активно пытаются внедрить, много уже экспериментировали. Для кодинга AI пока практически бесполезен.
Простые задачи можно час самому кодировать, а можно за 5 минут сгенерировать нечто нерабочее, а потом час баги в этом искать-исправлять.
Сложные даже пытаться бессмысленно.

Я оптимистична в отношении того что АИ могут быть большим подспорьем в решении скучных задач

В случае с кодированием мы заменяем интересную креативную работу (написание кода) на унылую (разгребание чужого дерьма).
Ну как если бы вместо того, чтобы самому писать, нужно было бы пытаться запустить что-то нерабочее из Индии.

alex_127 · Вс июл 13, 2025 10:29 am

Код - это не только написание строчек кода на каком-то языке.
Мое личное мнение что стоимость написания таких строчек будет стремится к нулю в течении нескольких лет.
Нафига мне код который есть промежуточное представление если я могу ранить спек? И достаточно хорошо формализовать его?

А так за последние три года не один документ у меня без руки АИ не выходил - даже если просто с диктовки убрать артефакты диалога, картинок там в plantuml добавить и так далее.

Соответственно 10-30% задач (вы надеюсь на сами задачи посмотрели?) это уже оглушительный успех - можно соответственно сократить треть работников… и этого точно не было 10 лет назад.

Mad Hatter · Вс июл 13, 2025 1:04 pm

Ну скажем так, для меня большое подспорье что у чатбота можно спросить "как такую хрень сделать в указанном фреймворке" и он ответит за секунду и не надо тратить пару часов на прочесывание stack overflow.
Но иногда бредит. Был на днях случай: спросил как обычно и ответил как обычно, быстро и чётко. Вот только код не работал, так как подставлял в функции не те аргументы. Строго указал на это и через пару итераций получил ответ, что сори, но варианты закончились. Я удивился и на следующий день спросил человека, который является экспертом в данной предметной области, и получил тот же ответ - что поставленная задача не имеет решения в том виде как я её ставил

Так что доверяй, но проверяй.

Uzito · Вс июл 13, 2025 1:59 pm

наверное баян

Код: Выделить всё

AI development 

Step 1: http://architecture.md

Open ChatGPT (4o, not o1/o3/o4) and say:

“ I’m building a [description of your product - the more detailed the better]. Use Next.js for frontend, Supabase for DB + auth. 
Give me the full architecture:
- File + folder structure
- What each part does
- Where state lives, how services connect
Format this entire document in markdown.”

Save its output as http://architecture.md and throw it in an empty folder where your project will live.

Step 2: http://tasks.md

Now say:

“ Using that architecture, write a granular step-by-step plan to build the MVP.
Each task should:
- Be incredibly small + testable
- Have a clear start + end
- Focus on one concern
I’ll be passing this off to an engineering LLM that will be told to complete one task at a time, allowing me to test in between. "

Save it as http://tasks.md. Again, throw it in the folder.

Step 3: In Cursor/Windsurf

“ You’re an engineer building this codebase.
You've been given http://architecture.md and http://tasks.md.
- Read both carefully. There should be no ambiguity about what we’re building.
- Follow http://tasks.md and complete one task at a time.
- After each task, stop. I’ll test it. If it works, commit to GitHub and move to the next. "

Include this as well - this is crucial:

### CODING PROTOCOL ###
" Coding Instructions

- Write the absolute minimum code required
- No sweeping changes
- No unrelated edits - focus on just the task you're on
- Make code precise, modular, testable
- Don’t break existing functionality
- If I need to do anything (e.g. Supabase/AWS config), tell me clearly  "

This system fixes the biggest problem with vibe coding:

You’re not dumping everything into the IDE and praying.
You’re giving it a roadmap.
You’re keeping it on rails.
You stay in control.

This workflow lets you ship clean, testable AI-assisted code - without the spiral.

Буратино · Пн июл 14, 2025 5:33 am

alex_127 писал(а): ↑Вс июл 13, 2025 10:29 am Код - это не только написание строчек кода на каком-то языке.
Мое личное мнение что стоимость написания таких строчек будет стремится к нулю в течении нескольких лет.
Нафига мне код который есть промежуточное представление если я могу ранить спек? И достаточно хорошо формализовать его?

А так за последние три года не один документ у меня без руки АИ не выходил - даже если просто с диктовки убрать артефакты диалога, картинок там в plantuml добавить и так далее.

Соответственно 10-30% задач (вы надеюсь на сами задачи посмотрели?) это уже оглушительный успех - можно соответственно сократить треть работников… и этого точно не было 10 лет назад.

Ну так как сократили 30% работников за последние 2-3 года?

Nab · Сообщение **Nab** » Пн июл 14, 2025 5:46 am

Nvidia beats Apple and Microsoft to become the world’s first $4 trillion public company ()

я конечно дико извиняюс, но $4Т - это больше чем GDP Великобритании и Италии, и чуть меньше GDP Японии....

Mad Hatter · Пн июл 14, 2025 6:13 am

Да, это просто охренеть

alex_127 · Пн июл 14, 2025 8:57 am

Буратино писал(а): ↑Пн июл 14, 2025 5:33 am
alex_127 писал(а): ↑Вс июл 13, 2025 10:29 am Код - это не только написание строчек кода на каком-то языке.
Мое личное мнение что стоимость написания таких строчек будет стремится к нулю в течении нескольких лет.
Нафига мне код который есть промежуточное представление если я могу ранить спек? И достаточно хорошо формализовать его?

А так за последние три года не один документ у меня без руки АИ не выходил - даже если просто с диктовки убрать артефакты диалога, картинок там в plantuml добавить и так далее.

Соответственно 10-30% задач (вы надеюсь на сами задачи посмотрели?) это уже оглушительный успех - можно соответственно сократить треть работников… и этого точно не было 10 лет назад.
Ну так как сократили 30% работников за последние 2-3 года?

процесс идет... плюс предполагаемое изменение функций работника. никто же не говорил что вот так сразу возьмут и к понедельнику сократят. такое только в сказках.
То что хайринг в ИТ сейчас в заднице для новичков вы может быть согласитесь...

FelisSilvestris · Пн июл 14, 2025 9:32 am

Меня больше посмешила статья про симулацию движения планет. Ну да, и Калман фильтр неплохо работал предсказывая траекторию по данным уже так больше полувека. Ну и ЛЛМ предсказывает может даже получше, это звучит правдоподобно. Но очень забавно что ЛЛМ не способна понять лежащий в основе данных закон природы от слова совсем.
Со скейлингом тоже отмечаются проблемы. Глюки у моделей не изчезают при скейлинге.
Но корпорациям уже достигшим по сути монстровских размеров, надо продолжать показывать экспоненциальный рост. Отсюда взяли эту хрень с очень ограниченными возможностями и носятся с ней как с писаной торбой, рассказывая что эта дурилка картонная решит все проблемы человечества и надо потому в нее вложить еще больше триллионов.
Я не против применения АИ, я как раз за то чтоб использовать любые модели, ЛЛМ в том числе, чтоб облегчить жизнь. Но там где они нужны.
Меня как-то расстроил случай, когда мне надо было переформатировать текст статьи в формате журнала куда я его посылала. Ну там старая как мир задача - две колонки или одна, фонты и прочая фигня. Текст еще и был в ворде а не в латехе. И где-то несколько лет назад я пользовалась онлайн серфисом, причем толи бесплатным толи за совсем уж копейки, который мне все сделал. Задача вроде не требует АИ, там все программируется. Я запустила серч, которыей теперь тоже монитизирован до предела и он рекомендовал какую-то хрень, которая еще и с АИ. Т.е. разговариваешь там с АИ даешь им текс, оно его превращает в нужный формат. Результат был ужасным и они хотели подписку за почти $100. Они не вставили рисунки, знаки переноса которые больше не нужны, не удалили. Дальше я не стала смотреть и потребовала деньги назад. Был долгий разговор с АИ в котором они не могли найти аккаунт с которого я разговаривала с ними. Ну вообщем я оспорила чарж по кредитке и деньги вернули. Статью я переделала на две колонки сама

.
Я не пыталась писать код с помощью АИ пока, но после того что АИ даже текст отформатировать не смог, как-то верится, что и остальное на том же уровне.

FelisSilvestris · Пн июл 14, 2025 9:46 am

Я иногда использовала АИ в документах, но у меня ни один документ не выгодил без корректоровок после корректировок АИ и проверок особенно того что АИ понавставлял.
И иногда он работает неплохо. А иногда дает какую-то белиберду. И важно не пропустить белиберду при проверке

.

Опять же я всегда за прогресс.
Можно сказать сейчас вся моя работа преключилась на обслугу АИ, все для датацентров, все для победы - фотодетекторы, оптические микросхемы, быстродействующие, не перегревающиеся, подтребляющие поменьше, не в целях борьбы с глобальным потеплением, а чтоб датацентры не расплавились от усиленной работы

.

FelisSilvestris · Пн июл 14, 2025 10:28 am

Да, статья с тестированием реалистик таскс, не о том что 30% задач может выполнять АИ, а о том что при выполнении простейших задач только в 30% случаев получилось хорошо. Из этого никак не следует что 30% персонала можно сократить

.
Это как если вы наняли работника, который в 30% случаев выполняет работу хорошо. По-моему это означете что к нему надо приставить еще одного работника чтоб проверял

alex_127 · Пн июл 14, 2025 11:07 am

Большая статья "для ИТ" тут https://corecursive.com/coding-agents/# ... s-identity

"I think that a lot of resistance to AI coding tools comes from the same place: fear of losing something that has defined you for so long. People are reacting against overblown hype, and there is overblown hype. I get that, but I also think there’s something deeper going on here. When you’ve worked hard to build your skills, when coding is part of your identity and where you get your worth, the idea of a tool that might replace some of that is very threatening.

But here’s what I want to encourage you to do: put some of that fear aside, at least for a learning experiment. Treat these tools like something that you need to get familiar with. Treat it like something you should explore in a side project, something worth spending time on. Not because they solve every problem, but because they’re worth understanding."

alex_127 · Пн июл 14, 2025 11:10 am

FelisSilvestris писал(а): ↑Пн июл 14, 2025 10:28 am Да, статья с тестированием реалистик таскс, не о том что 30% задач может выполнять АИ, а о том что при выполнении простейших задач только в 30% случаев получилось хорошо. Из этого никак не следует что 30% персонала можно сократить .
Это как если вы наняли работника, который в 30% случаев выполняет работу хорошо. По-моему это означете что к нему надо приставить еще одного работника чтоб проверял

В реалистичных случаях проверить гораздо тяжелее. Вот например я загнал свои 401к данные и спросил посмотреть на inefficiencies. Как определить что он или адвайзер сделал работу лучше?

Sky · Сообщение **Sky** » Пн июл 14, 2025 1:11 pm

Буратино писал(а): ↑Пн июл 14, 2025 5:33 am
alex_127 писал(а): ↑Вс июл 13, 2025 10:29 am Код - это не только написание строчек кода на каком-то языке.
Мое личное мнение что стоимость написания таких строчек будет стремится к нулю в течении нескольких лет.
Нафига мне код который есть промежуточное представление если я могу ранить спек? И достаточно хорошо формализовать его?

А так за последние три года не один документ у меня без руки АИ не выходил - даже если просто с диктовки убрать артефакты диалога, картинок там в plantuml добавить и так далее.

Соответственно 10-30% задач (вы надеюсь на сами задачи посмотрели?) это уже оглушительный успех - можно соответственно сократить треть работников… и этого точно не было 10 лет назад.
Ну так как сократили 30% работников за последние 2-3 года?

Буратина , поправлю Вас , от предпенсионных программистов избавляются со времен dot-com бабла . ..ну , куда уж вам конкурировать с дышишем вам в затылок Американским молодняком :

Sky · Сообщение **Sky** » Пн июл 14, 2025 1:19 pm

Вот , Мад Хаттер .. Он , вообще , когда нибудь работает ???? ..

Sky · Сообщение **Sky** » Пн июл 14, 2025 1:20 pm

Упс , повтор

Форум Привет

AI tech - "the collapse of the Rave Function"?

AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?

Re: AI tech - "the collapse of the Rave Function"?