Вот интересная статейка:
https://arxiv.org/pdf/2412.14161
Carnegie Mellon researchers tested AI agents on 175 realistic workplace tasks and the results were absolutely devastating across every single model.
OpenAI's GPT-4o, the model everyone's been hyping as the future of work, managed to fail a staggering 91.4% of basic office tasks.
Amazon's Nova-Pro-v1 achieved the most spectacular failure rate of 98.3% - essentially making it worse than random chance on most problems.
Meta's Llama-3.1-405b crashed and burned with a 92.6% failure rate, proving that bigger models don't automatically mean better performance.
Even Google's best-performing Gemini 2.5 Pro, which led the pack, still failed 70% of tasks that any competent human worker could handle.
These weren't trick questions or edge cases - we're talking about responding to colleagues, basic web browsing, and simple coding tasks.
Но мне как физику интереснее даже вот это:
https://arxiv.org/abs/2507.06952
Я оптимистична в отношении того что АИ могут быть большим подспорьем в решении скучных задач, но похоже на идеи всемогущества ЛЛМ модели (это то что в основе чартгпт лежит и прочих опенАИ и тп) можно поставить большой крест.
Название своровано из обсуждения на ютубе. По-моему очень уж cute
