Forwarded from Data Secrets
Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.
Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.
Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.
Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.
Что касается апдейтов в продукте:
– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.
– Из беты вышли Claude для Chrome и для Excel.
– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.
🔥 www.anthropic.com/news/claude-opus-4-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Neural Kovalskii
Лучшие практики и подходы для RAG
(буду наполнять)
Очередной раз спросили в чате канала что почитать про RAG (https://xn--r1a.website/neuraldeepchat)
Соберем тут все лучшее присылайте и ваши статьи и разборы
Тут материалы предыдущих ответов
1) https://xn--r1a.website/neuraldeepchat/3176
2) https://xn--r1a.website/neuraldeepchat/2953
1) Чанкование (sliding window) можно подглядеть концепты от langchain
2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)
3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B
4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B
5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0
Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)
Презентация от Дяди
Построение RAG систем от исследований до индустрии
Хорошо описанные подходы от Богдана
https://xn--r1a.website/bogdanisssimo/2047
Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main
Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra
Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/
#RAG
#best_rag_practice
Сохраняй в избранное чтобы не потерять
(буду наполнять)
Очередной раз спросили в чате канала что почитать про RAG (https://xn--r1a.website/neuraldeepchat)
Соберем тут все лучшее присылайте и ваши статьи и разборы
Тут материалы предыдущих ответов
1) https://xn--r1a.website/neuraldeepchat/3176
2) https://xn--r1a.website/neuraldeepchat/2953
1) Чанкование (sliding window) можно подглядеть концепты от langchain
2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)
3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B
4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B
5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0
Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)
Презентация от Дяди
Построение RAG систем от исследований до индустрии
Хорошо описанные подходы от Богдана
https://xn--r1a.website/bogdanisssimo/2047
Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main
Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra
Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/
#RAG
#best_rag_practice
Сохраняй в избранное чтобы не потерять
Telegram
Чат Kovalskii Варианты?
Ask about ALL
Чат канала @neuraldeep
Kovalskii на все ответит!
Прошу общаться вежливо и дружелюбно, без политики
Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76
Чат канала @neuraldeep
Kovalskii на все ответит!
Прошу общаться вежливо и дружелюбно, без политики
Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76
🔥4👍1
Forwarded from БлоGнот
OpenAI выкатила GPT-5.2 Pro и GPT-5.2 Thinking — по заявлению компании, лучшие в мире модели для научной работы. На бенчмарке GPQA Diamond, где вопросы уровня аспирантуры специально составлены так, чтобы ответ нельзя было найти через поиск, Pro-версия показывает 93.2%. На FrontierMath — 40.3% решённых задач экспертного уровня, новый рекорд.
Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.
Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.
https://openai.com/index/gpt-5-2-for-science-and-math/
Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.
Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.
https://openai.com/index/gpt-5-2-for-science-and-math/
Openai
Advancing science and math with GPT-5.2
GPT-5.2 is our strongest model yet for math and science work.
❤1
Forwarded from эйай ньюз
Вышла Gemini 3 Flash
Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.
Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.
Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).
Блогпост
@ai_newz
Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.
Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.
Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).
Блогпост
@ai_newz
🤔1
Можно часами ломать голову над задачей, а можно настроить AI на гениальные идеи 😎
Эксперты Cloud.ru разработали бесплатный курс — «Креативное мышление и AI для решения задач», который поможет освоить креативные методики и научить AI генерировать нестандартные ответы.
А еще: с помощью подробной инструкции создадите креативного AI-ассистента, который будет выдавать нешаблонные решения для ваших задач.
Все это в удобном для вас темпе: начните и завершите курс, когда комфортно.
Перейти к курсу
Эксперты Cloud.ru разработали бесплатный курс — «Креативное мышление и AI для решения задач», который поможет освоить креативные методики и научить AI генерировать нестандартные ответы.
На курсе вы:😶🌫️ Прокачаете стратегическое мышление😶🌫️ Научитесь находить первоначальную проблему😶🌫️ Освоите ТОС и CRAFT для генерации идей😶🌫️ Поймете, как воплотить задумку в реальность
А еще: с помощью подробной инструкции создадите креативного AI-ассистента, который будет выдавать нешаблонные решения для ваших задач.
Все это в удобном для вас темпе: начните и завершите курс, когда комфортно.
Перейти к курсу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2😁1
Forwarded from Нейросети и Блендер
Media is too big
VIEW IN TELEGRAM
Документальный фильм «The Thinking Game»
Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).
😶🌫️ ☺️ Ниже приведены 10 аргументов, почему данная картина представляет ценность для всех, кто погружен в сферу AI:
Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.
Видеоигры как полигон для обучения. Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.
Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.
Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.
Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.
Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.
Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.
Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.
Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.
Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.
Поглядеть можно тут.
Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).
Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.
Видеоигры как полигон для обучения. Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.
Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.
Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.
Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.
Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.
Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.
Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.
Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.
Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.
Поглядеть можно тут.
Please open Telegram to view this post
VIEW IN TELEGRAM