This media is not supported in your browser
VIEW IN TELEGRAM
Случился коллаб года: Kaggle объединились с HuggingFace и теперь все модели, доступные на HF, можно моментально напрямую запускать в Kaggle Notebooks
Этим можно пользоваться и на одной платформе, и на другой. Например, если вы перешли в карточку модели на HF, то теперь там можно ткнуть на “Use this model” -> “Kaggle”, и сразу откроется ноутбук с подгруженной моделью.
То же самое можно сделать с вкладки HuggingFace на Kaggle по кнопке "Code". Также там будут видны все открытые относящиеся к этой модели ноутбуки других пользователей.
Обещают, что скоро будут и другие интересные фичи
Этим можно пользоваться и на одной платформе, и на другой. Например, если вы перешли в карточку модели на HF, то теперь там можно ткнуть на “Use this model” -> “Kaggle”, и сразу откроется ноутбук с подгруженной моделью.
То же самое можно сделать с вкладки HuggingFace на Kaggle по кнопке "Code". Также там будут видны все открытые относящиеся к этой модели ноутбуки других пользователей.
Обещают, что скоро будут и другие интересные фичи
🔥336❤35⚡25👍21😁3🐳3🤔2🕊2
DeepSeek выпустили новую статью, в которой поделились большим списком инженерных хаков по обучению и инференсу моделей
Все, что не убивает, делает сильнее. DeepSeek в условиях санкций на оборудование уже собрали целый список того, что помогает им даже при большом дефиците железа содержать свои системы и обучать модели. Ну и, как истинные любители открытости, всеми этими фичами они решили поделиться просто так.
Топ-3:
1. Multi-head Latent Attention. Это метод сжатия KV-кеша, позволяющий радикально сократить объём памяти, необходимый для хранения ключей и значений из всех attention-голов. Идея в том, чтобы вместо хранения всех сырых K/V векторов для каждого хэдa проектировать их в компактный обучающийся латентный вектор небольшой размерности. В итоге вместо квадратичного роста хранимых данных получается линейный.
2. FP8 Mixed-Precision Training и Inference. Инженерная стратегия, которая позволяет при обучении модели одновременно использовать и более легкие числа в формате FP8, и более точные в FP16 / FP22/FP32. Так мы балансируем между производительностью и стабильностью, а затраты и энергопотребление падают почти в два раза.
3. Multi-Token Prediction. Это значит, что вместо генерации по одному токену модель пытается предсказать сразу несколько (например 2–4) следующих токена. Токены-кандидаты генерирует отдельный легковесный слой, а основная модель их просто сверяет с истинным декодингом. Если совпадают – принимаются без дорасчёта. Это дает ускорение инференса до 1.8х без потерь в качестве.
В статье – еще несколько интересных советов (некоторые мы даже уже разбирали во время опенсорса DeepSeek), так что трушным инженерам советуем почитать полностью.
Мир им: строгие запреты на ввоз железа
Они всему миру: детальные открытые советы по оптимизации этого железа
Респект же
Все, что не убивает, делает сильнее. DeepSeek в условиях санкций на оборудование уже собрали целый список того, что помогает им даже при большом дефиците железа содержать свои системы и обучать модели. Ну и, как истинные любители открытости, всеми этими фичами они решили поделиться просто так.
Топ-3:
1. Multi-head Latent Attention. Это метод сжатия KV-кеша, позволяющий радикально сократить объём памяти, необходимый для хранения ключей и значений из всех attention-голов. Идея в том, чтобы вместо хранения всех сырых K/V векторов для каждого хэдa проектировать их в компактный обучающийся латентный вектор небольшой размерности. В итоге вместо квадратичного роста хранимых данных получается линейный.
2. FP8 Mixed-Precision Training и Inference. Инженерная стратегия, которая позволяет при обучении модели одновременно использовать и более легкие числа в формате FP8, и более точные в FP16 / FP22/FP32. Так мы балансируем между производительностью и стабильностью, а затраты и энергопотребление падают почти в два раза.
3. Multi-Token Prediction. Это значит, что вместо генерации по одному токену модель пытается предсказать сразу несколько (например 2–4) следующих токена. Токены-кандидаты генерирует отдельный легковесный слой, а основная модель их просто сверяет с истинным декодингом. Если совпадают – принимаются без дорасчёта. Это дает ускорение инференса до 1.8х без потерь в качестве.
В статье – еще несколько интересных советов (некоторые мы даже уже разбирали во время опенсорса DeepSeek), так что трушным инженерам советуем почитать полностью.
Мир им: строгие запреты на ввоз железа
Они всему миру: детальные открытые советы по оптимизации этого железа
Респект же
❤264🔥106👍63🫡3🤔1
Nvidia построит огромный датацентр вместе с ИИ-стартапом Humain из Саудовской Аравии
Компания поставит для этого более 18 тысяч чипов, и не каких-нибудь, а GB300 Blackwell.
Самое интересное, что Humain принадлежит суверенному фонду Саудовской Аравии, то есть по сути – государству. Сегодня совокупные активы фонда оцениваются в 430 миллиардов долларов.
Nvidia видимо решили действовать по-крупному, пока и туда поставки не запретили
Компания поставит для этого более 18 тысяч чипов, и не каких-нибудь, а GB300 Blackwell.
Самое интересное, что Humain принадлежит суверенному фонду Саудовской Аравии, то есть по сути – государству. Сегодня совокупные активы фонда оцениваются в 430 миллиардов долларов.
Nvidia видимо решили действовать по-крупному, пока и туда поставки не запретили
👍78😁32🔥12❤7🤔1🐳1
Сегодня в 18:00 стрим OpenAI для «разработчиков и тех, кто хочет ими стать»
Напоминаем, что уже во вторник пройдет Google I/O, так что, следуя добрым традициям конкуренции, сегодня OpenAI должны показать что-то заслуживающее внимания.
Может что-то связанное с недавней покупкой Windsurf?
Напоминаем, что уже во вторник пройдет Google I/O, так что, следуя добрым традициям конкуренции, сегодня OpenAI должны показать что-то заслуживающее внимания.
Может что-то связанное с недавней покупкой Windsurf?
😁67👍26🔥16
О, Kaggle объединились с OpenAI и запускают конкурс по нахождению ранее неизвестных человечеству археологических объектов
Это, кстати, первое в истории Kaggle ключевое соревнование, то есть оно будет специально выделено как главное на платформе. Призовой фонд – 400 тысяч долларов, за первое место заплатят $250,000 (правда наличными только половину, остальное кредитами OpenAI).
Задача – взять открытые данные со спутниковых снимков и карт + любую модель от OpenAI и предложить пайплайн, который сможет выявлять наличие археологических объектов. Если среди найденных объектов окажутся те, которых нет в существующих базах данных, то можете рассчитывать на приз.
Для трушных Индиан Джонсов
www.kaggle.com/competitions/openai-to-z-challenge/
Это, кстати, первое в истории Kaggle ключевое соревнование, то есть оно будет специально выделено как главное на платформе. Призовой фонд – 400 тысяч долларов, за первое место заплатят $250,000 (правда наличными только половину, остальное кредитами OpenAI).
Задача – взять открытые данные со спутниковых снимков и карт + любую модель от OpenAI и предложить пайплайн, который сможет выявлять наличие археологических объектов. Если среди найденных объектов окажутся те, которых нет в существующих базах данных, то можете рассчитывать на приз.
Для трушных Индиан Джонсов
www.kaggle.com/competitions/openai-to-z-challenge/
❤135🔥59👍33🤔3
Юрист Anthropic использовал Claude для оформления юридических ссылок. В итоге компании пришлось извиняться.
Прошло почти два года с момента громкой истории о том, как в Америке адвокат чуть не лишился лицензии из-за того, что использовал ChatGPT для генерации аргументов. И... ничего не поменялось😐
Вот только на этот раз на удочку попался не какой-нибудь случайный юрист, а представитель Anthropic. Сейчас компания судится с Universal Music Group по поводу авторских прав на музыку. И для выступления на суде одна из представителей стартапа, Оливия Чен, решила использовать Claude.
Она попросила бота процитировать для ее показаний соответсвующую статью из законодательства, и он, естественно, все выдумал. В итоге Anthropic пришлось извиняться и за своего юриста, и за галлюцинации своей модели. В официальном письме судье они написали, что "это хотя бы была честная ошибка цитирования, а не попытка подделки авторитета".
Прошло почти два года с момента громкой истории о том, как в Америке адвокат чуть не лишился лицензии из-за того, что использовал ChatGPT для генерации аргументов. И... ничего не поменялось
Вот только на этот раз на удочку попался не какой-нибудь случайный юрист, а представитель Anthropic. Сейчас компания судится с Universal Music Group по поводу авторских прав на музыку. И для выступления на суде одна из представителей стартапа, Оливия Чен, решила использовать Claude.
Она попросила бота процитировать для ее показаний соответсвующую статью из законодательства, и он, естественно, все выдумал. В итоге Anthropic пришлось извиняться и за своего юриста, и за галлюцинации своей модели. В официальном письме судье они написали, что "это хотя бы была честная ошибка цитирования, а не попытка подделки авторитета".
Please open Telegram to view this post
VIEW IN TELEGRAM
😁190👍29😎20🤯8❤4🗿3🤓2🐳1
Стрим OpenAI через 10 минут. Официально подтверждено: покажут превью агента-программиста Codex (скорее всего доступно будет только в Pro, но все-таки интересно)
https://www.youtube.com/watch?v=hhdpnbfH6NU
https://www.youtube.com/watch?v=hhdpnbfH6NU
YouTube
A research preview of Codex in ChatGPT
Greg Brockman, Jerry Tworek, Joshua Ma, Hanson Wang, Thibault Sottiaux, Katy Shi, and Andrey Mishchenko introduce and demo Codex in ChatGPT.
⚡21🔥18❤10👍9🗿1
OpenAI представили агента-программиста Codex
Это облачный агент, способный выполнять множество задач параллельно. Из возможностей:
➖ Может писать новые функции, отвечать на вопросы по коду, исправлять ошибки и предлагать pull request для ревью.
➖ Каждая задача выполняется в отдельной облачной песочнице, предварительно загруженной вашим репозиторием.
➖ Есть возможность настраивать поведение агента через файлы AGENTS. md.
Работает это все на модели Codex-1, основанной на o3. Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро.
Пробуем тут: https://chatgpt.com/codex
Это облачный агент, способный выполнять множество задач параллельно. Из возможностей:
Работает это все на модели Codex-1, основанной на o3. Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро.
Пробуем тут: https://chatgpt.com/codex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥79👍39❤12🤯9
У Meta черная полоса
Ранее компания потерпела провал с релизом Llama-4, а сейчас стало известно, что откладывается выпуск модели Behemoth. Ее обещали как самую крупную из серии Llama 4 и должны были выпустить в этом месяце, но теперь неясно, увидим ли мы ее вообще.
Во-первых, руководство Meta осталось очень недовольно работой команды Llama, и теперь планирует «изменения в составе». К слову, уже на данных момент по собственному желанию из команды ушли 11 из 14 ключевых ученых, которые работали над ранними версиями Llama.
Во-вторых, Behemoth не соответствует заявленным метрикам. Цукерберг обещал, что когда модель выйдет, то на нескольких тестах побьет передовые LM от OpenAI, Google и Anthropic. Но теперь что-то пошло не так и из-за проблем с обучением Behemoth уже показывает себя не так обнадеживающе.
И это все после того, как Meta фактически обманули пользователей, выпустив на LMSYS не юзер-версию модели, а внутреннюю, затюненную специально под арену (подробнее об этой истории мы писали тут).
Ну в общем, F😬
Ранее компания потерпела провал с релизом Llama-4, а сейчас стало известно, что откладывается выпуск модели Behemoth. Ее обещали как самую крупную из серии Llama 4 и должны были выпустить в этом месяце, но теперь неясно, увидим ли мы ее вообще.
Во-первых, руководство Meta осталось очень недовольно работой команды Llama, и теперь планирует «изменения в составе». К слову, уже на данных момент по собственному желанию из команды ушли 11 из 14 ключевых ученых, которые работали над ранними версиями Llama.
Во-вторых, Behemoth не соответствует заявленным метрикам. Цукерберг обещал, что когда модель выйдет, то на нескольких тестах побьет передовые LM от OpenAI, Google и Anthropic. Но теперь что-то пошло не так и из-за проблем с обучением Behemoth уже показывает себя не так обнадеживающе.
И это все после того, как Meta фактически обманули пользователей, выпустив на LMSYS не юзер-версию модели, а внутреннюю, затюненную специально под арену (подробнее об этой истории мы писали тут).
Ну в общем, F
Please open Telegram to view this post
VIEW IN TELEGRAM
😁143🫡77🕊24❤8🤯5👌5👀5🔥2🏆2🤓2👨💻2
Розыгрыш Machine Learning футболок
В честь выпуска нашего большого конспекта по LLM мы решили запустить розыгрыш 10 футболок для истинных любителей глубокого обучения.
Это лимитированная авторская линейка от Data Secrets. Каждая футболка – целый альманах, на котором любой найдет любимую архитектуру. Гарантирует +100 очков к прохождению собеса или экзамена. Итак, что делать:
➖ Отдать бусты нашему каналу (чем больше голосов, тем выше шанс победить)
➖ Нажать на кнопку "Участвовать"
➖ Ждать итогов 28 мая
P.S. Для всех, у кого нет Telegram Premium, мы скоро обязательно проведем еще один розыгрыш футболок.
🎉 UPD: Розыгрыш завершен!
🏆 Победители:
1. @artyomjk
2. @ddmtrx
3. @toiletsandpaper
4. @KovalSD
5. @yadvichuk
6. @samorukov
7. @Okulov
8. @ILonelyLockleyI
9. @ViacheslavDobrynin
10. Manger
🔍 Проверить результаты
В честь выпуска нашего большого конспекта по LLM мы решили запустить розыгрыш 10 футболок для истинных любителей глубокого обучения.
Это лимитированная авторская линейка от Data Secrets. Каждая футболка – целый альманах, на котором любой найдет любимую архитектуру. Гарантирует +100 очков к прохождению собеса или экзамена. Итак, что делать:
P.S. Для всех, у кого нет Telegram Premium, мы скоро обязательно проведем еще один розыгрыш футболок.
🎉 UPD: Розыгрыш завершен!
🏆 Победители:
1. @artyomjk
2. @ddmtrx
3. @toiletsandpaper
4. @KovalSD
5. @yadvichuk
6. @samorukov
7. @Okulov
8. @ILonelyLockleyI
9. @ViacheslavDobrynin
10. Manger
🔍 Проверить результаты
Please open Telegram to view this post
VIEW IN TELEGRAM
❤74🗿49🔥24👍21🤨12🤓11🤯3🫡3🦄3😁2🤝1
Понедельник! Сейчас в ИИ-гонке затишье, но неделя обещает быть насыщенной. Чего ждем:
1. Gemini Ultra и проект Astra с ИИ-очками от Google. На этой неделе у них крупнейшая анонс-конференция в году, Google I/O. В прошлом году именно на этом мероприятии показали Gemini 1.5 Pro с контекстом в 1млн токенов и Gemini 1.5 Flash.
2. o3-pro или GPT-5. Почти наверняка OpenAI что-то припасли чтобы перетянуть на себя внимание от Google. Вчера некоторые пользователи даже заметили, что Альтман твитнул строку «4+1», но сейчас твит удален.
3. Grok-3.5, который Илон Маск обещает уже вторую неделю.
1. Gemini Ultra и проект Astra с ИИ-очками от Google. На этой неделе у них крупнейшая анонс-конференция в году, Google I/O. В прошлом году именно на этом мероприятии показали Gemini 1.5 Pro с контекстом в 1млн токенов и Gemini 1.5 Flash.
2. o3-pro или GPT-5. Почти наверняка OpenAI что-то припасли чтобы перетянуть на себя внимание от Google. Вчера некоторые пользователи даже заметили, что Альтман твитнул строку «4+1», но сейчас твит удален.
3. Grok-3.5, который Илон Маск обещает уже вторую неделю.
Ученые из Google и Кэмбриджа предложили вид модели, которая мыслит образами, а не текстом
Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.
Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:
1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.
2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.
Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.
Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.
Вот бы с какой-нибудь сложной геометрией такое потестили
huggingface.co/papers/2505.11409
Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.
Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:
1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.
2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.
Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.
Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.
Вот бы с какой-нибудь сложной геометрией такое потестили
huggingface.co/papers/2505.11409
❤191👍85🔥44 9🏆7 7⚡6 5🤯4☃2🤔1
Воу: Microsoft сделали своего ИИ-ассистента Copilot VS Code опенсорсным
Код будет открыт под лицензией MIT. Разработчики говорят, что исторически VS Code имеет большую ценность именно как опенсорс проект, и они не хотят это терять.
https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor
Код будет открыт под лицензией MIT. Разработчики говорят, что исторически VS Code имеет большую ценность именно как опенсорс проект, и они не хотят это терять.
https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor
🔥237👍53❤🔥22 13 10🤯5✍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
В приложении NotebookLM теперь можно самому подключаться к сгенерированным подкастам
Приложение начинают раскатывать уже сегодня, скоро можно будет скачать. Туда добавили несколько новых фичей:
➖ Сгенерированные по источникам ИИ-подкасты теперь можно будет скачивать и слушать оффлайн
➖ Источники можно будет шерить напрямую из любых других приложений. Например: Смотрим видео в приложении YouTube -> Нажимаем "Поделиться" -> Выбираем NotebookLM -> Все, видео уже попало в источники
➖ Ну и самое интересное: если вы слушаете подскаст онлайн, вы в любой момент можете тыкнуть "Join" и присоединиться к ИИ-ведущим как гость, чтобы задать вопрос, высказать мнение или что-то уточнить
🤌
Приложение начинают раскатывать уже сегодня, скоро можно будет скачать. Туда добавили несколько новых фичей:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥240👍49 15 14 10🤯6❤4
Media is too big
VIEW IN TELEGRAM
Стартап flowith выпустили ИИ-агента, который может работать без ограничения по времени и контексту
Более того: можно запускать неограниченное количество задач (в том числе отложенных) одновременно.
А еще внутри каждой задачи агент сам параллелится: например, может создать 39 суб-агентов и отправить их искать разную информацию в разные уголки интернета, а потом собрать все в один отчет.
Работать все может довольно долго и основательно: контекст каждой задачи – больше 10 миллионов токенов, а количество шагов ризонинга может достигать нескольких сотен или даже тысяч.
Попробовать можно тут (но сервер периодически лежит от нагрузки)
Manus moment 2.0
Более того: можно запускать неограниченное количество задач (в том числе отложенных) одновременно.
А еще внутри каждой задачи агент сам параллелится: например, может создать 39 суб-агентов и отправить их искать разную информацию в разные уголки интернета, а потом собрать все в один отчет.
Работать все может довольно долго и основательно: контекст каждой задачи – больше 10 миллионов токенов, а количество шагов ризонинга может достигать нескольких сотен или даже тысяч.
Попробовать можно тут (но сервер периодически лежит от нагрузки)
Manus moment 2.0