Скачки нарисованных лошадей
Еще весной модель для генерации картинок gpt-image от OpenAI будоражила умы, выдавая тонны полезных картинок в стиле аниме Ghibli, логотипов и подобного контента. Модель лично меня поразила, особенно то, что можно было накидать несколько картинок и объединить их в одну фоточку, например, так. Это был скачок, модель вырвалась вперед.
Затем скакнул Google, чья Nano Banana завирусилась, так как в ней можно не просто нагенерировать что-то прикольное, но и редактировать в pixel perfect режиме (части, которые не редактируются, остаются неизменными) в большинстве случаев. Особенно порадовало, что в обучении явно участвовали данные, широко описывающие мировую культуру. Модель и советские мультики знает и даже Васю Ложкина.
Еще она генерирует надписи на русском и других языках, даже если это чертеж турбины в разрезе. Опять-таки иногда сбивается и опять-таки это очередной скачок.
Тут бесплатная интеграция моего хорошего знакомого Макса Купрашевича и его команды, которая среди прочего пилит модель Malvina для попиксельного редактирования картинок и которую можно попробовать в GigaChat'е.
И вот OpenAI спешит нам напомнить, что у неё тоже есть достойная модель, зарелизив GPT Image 1.5. В глаза бросается то, что надписи стали генерироваться лучше, в том числе на русском. Мне особенно нравится кейс, когда нашел хорошую инфографику для презы и хочется ее перевести, а часть легенды убрать/переделать.
Скорость тоже стала выше, раза в 2-3. Качество вообще улучшилось в разы, но, кмк, до гугловской модели пока недотягивает. Кажется, что Gemini понимает инструкцию чуть получше (экспертное мнение, сделанное по пяти картинкам).
Тестируем, ждём GPT Image 2.0 Pro+
https://openai.com/index/new-chatgpt-images-is-here/
Еще весной модель для генерации картинок gpt-image от OpenAI будоражила умы, выдавая тонны полезных картинок в стиле аниме Ghibli, логотипов и подобного контента. Модель лично меня поразила, особенно то, что можно было накидать несколько картинок и объединить их в одну фоточку, например, так. Это был скачок, модель вырвалась вперед.
Затем скакнул Google, чья Nano Banana завирусилась, так как в ней можно не просто нагенерировать что-то прикольное, но и редактировать в pixel perfect режиме (части, которые не редактируются, остаются неизменными) в большинстве случаев. Особенно порадовало, что в обучении явно участвовали данные, широко описывающие мировую культуру. Модель и советские мультики знает и даже Васю Ложкина.
Еще она генерирует надписи на русском и других языках, даже если это чертеж турбины в разрезе. Опять-таки иногда сбивается и опять-таки это очередной скачок.
Тут бесплатная интеграция моего хорошего знакомого Макса Купрашевича и его команды, которая среди прочего пилит модель Malvina для попиксельного редактирования картинок и которую можно попробовать в GigaChat'е.
И вот OpenAI спешит нам напомнить, что у неё тоже есть достойная модель, зарелизив GPT Image 1.5. В глаза бросается то, что надписи стали генерироваться лучше, в том числе на русском. Мне особенно нравится кейс, когда нашел хорошую инфографику для презы и хочется ее перевести, а часть легенды убрать/переделать.
Скорость тоже стала выше, раза в 2-3. Качество вообще улучшилось в разы, но, кмк, до гугловской модели пока недотягивает. Кажется, что Gemini понимает инструкцию чуть получше (экспертное мнение, сделанное по пяти картинкам).
Тестируем, ждём GPT Image 2.0 Pro+
https://openai.com/index/new-chatgpt-images-is-here/
❤20👍7⚡3😁2👾1
RAG для чайников
Дошли руки почитать подаренную издательством Питер книжку про RAG'и — "RAG и генеративный ИИ" Дэниса Ротмана.
Переводить техническую литературу вообще сложно, но к этой книге претензии скорее по количеству необязательной информации в ней. Штуки типа версий библиотек для jupyter ноутбуков, которые надо установить, настройки сред и т.д. можно было бы сократить, оставив ссылки на сами ноутбуки.
Во-вторых, это куча сниппетов с кодом под конкретные библиотеки, которые вообще вряд ли кто-то будет читать, а тем более переписывать (ссылок на репозиторий с кодом я не увидел).
В остальном же это базовые знания о том, что такое RAG, зачем нужен, как хранятся данные, как оптимизировать и т.д.
Для знакомства с темой подойдет, но, если пойти почитать статьи на Хабре или спросить у ИИ, то точно будет не хуже.
Дошли руки почитать подаренную издательством Питер книжку про RAG'и — "RAG и генеративный ИИ" Дэниса Ротмана.
Переводить техническую литературу вообще сложно, но к этой книге претензии скорее по количеству необязательной информации в ней. Штуки типа версий библиотек для jupyter ноутбуков, которые надо установить, настройки сред и т.д. можно было бы сократить, оставив ссылки на сами ноутбуки.
Во-вторых, это куча сниппетов с кодом под конкретные библиотеки, которые вообще вряд ли кто-то будет читать, а тем более переписывать (ссылок на репозиторий с кодом я не увидел).
В остальном же это базовые знания о том, что такое RAG, зачем нужен, как хранятся данные, как оптимизировать и т.д.
Для знакомства с темой подойдет, но, если пойти почитать статьи на Хабре или спросить у ИИ, то точно будет не хуже.
👍26✍7❤4💅2👀1
Mistral OCR 3
Mistral выпустили новую модель для распознавания текстов. В демо примерах она разбирается даже с врачебным почерком (на английском), мой рукописный текст нормально не распознала.
Работает быстро, есть доступ по API за $2 доллара за 1000 страниц, а если посылать батчами, то за $1. Есть playground попробовать.
Сделал Colab, чтобы попробовать автоматизировать распознавание через API (ссылка).
Есть нюанс. Последняя модель mistral-ocr-latest на моем тексте (попробовал распознать удмуртский pdf) почему-то поубирала диакритики с кириллических букв (ӵ, ӟ и т.д.), а это важно. Предыдущая модель mistral-ocr-2505 их сохраняет. Возможно, что затюнили на рукописные тексты и всякие low-res картинки, чтобы подтянуть бенчи.
Вышла новая, используем старую.
https://mistral.ai/news/mistral-ocr-3
Mistral выпустили новую модель для распознавания текстов. В демо примерах она разбирается даже с врачебным почерком (на английском), мой рукописный текст нормально не распознала.
Работает быстро, есть доступ по API за $2 доллара за 1000 страниц, а если посылать батчами, то за $1. Есть playground попробовать.
Сделал Colab, чтобы попробовать автоматизировать распознавание через API (ссылка).
Есть нюанс. Последняя модель mistral-ocr-latest на моем тексте (попробовал распознать удмуртский pdf) почему-то поубирала диакритики с кириллических букв (ӵ, ӟ и т.д.), а это важно. Предыдущая модель mistral-ocr-2505 их сохраняет. Возможно, что затюнили на рукописные тексты и всякие low-res картинки, чтобы подтянуть бенчи.
Вышла новая, используем старую.
https://mistral.ai/news/mistral-ocr-3
Google
PDF processing. Mistral OCR
Colab notebook
💔14👍5🔥4❤3✍3
Прогноз на 2026
Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем).
🟢 В 2026 (и в '27) AGI все еще не будет достигнут. Хайп стихает, Илья Суцкевер говорит, что надо менять подход.
🟢 Роботы-гуманоиды типа Optimus остаются красивыми демонстрациями, а не продуктом, работающим в обычных домах.
🟢 Ни одна страна не выходит в единоличные лидеры в GenAI гонке. Видимо, из-за наличия сильных open-source моделей.
🟢 Развитие альтернативных архитектур и подходов набирает обороты в отличие от обычного масштабирования. Развитие World models и Neurosymbolic AI.
🟢 Предыдущий (2025) год задним числом воспринимается как начало сдувания пузыря ИИ, разочарование инвесторов в GenAI растет.
🟢 "Backlash to Generative AI and radical deregulation will escalate." Видимо, имеется в виду, что будет расти негативная реакция на ИИ (из-за увеличения скама, наличия косяков, обесценивания чьего-то творческого труда и т.д.). Регулирование будет ослабляться, тем самым усиливая внедрение и негативную реакцию со стороны общественности. Имхо.
Запоминаем. Наверняка ошибся и AGI в январе.
https://garymarcus.substack.com/p/six-or-seven-predictions-for-ai-2026
Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем).
Запоминаем. Наверняка ошибся и AGI в январе.
https://garymarcus.substack.com/p/six-or-seven-predictions-for-ai-2026
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
25 AI Predictions for 2025, from Marcus on AI
With a review of last year’s predictions
👍20😁10🔥7💯3👀2
Градиент обреченный pinned «Прогноз на 2026 Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем). 🟢 В 2026 (и в '27) AGI все…»
Spotify утёк
На Annas Archive "забэкапили" Spotify. 300TB торрентов с музыкой выложат для скачивания, группами архивов по популярности треков.
🟢 В 300TB будет 86 миллионов треков из 256, покрывающих 99.6% прослушиваний.
🟢 Как по мне, так самое интересное это архив с метаданными, который уже выложили. Один архив на ~200Gb, второй на 3.9TB, в них данные по всем 256M треков. В блоге есть семпл на топ 10k песен.
🟢 Есть еще торрент 2025_07_coverart.tar на 2.2TB, можно покачать обложечки.
То есть можно взять и поанализировать данные от огромного сервиса (!). Например, пишут что у 70% от всех треков прослушиваний <1000. Больше статистики и картинок в блоге.
Suno потирает руки.
https://annas-archive.li/blog/backing-up-spotify.html
На Annas Archive "забэкапили" Spotify. 300TB торрентов с музыкой выложат для скачивания, группами архивов по популярности треков.
То есть можно взять и поанализировать данные от огромного сервиса (!). Например, пишут что у 70% от всех треков прослушиваний <1000. Больше статистики и картинок в блоге.
Suno потирает руки.
https://annas-archive.li/blog/backing-up-spotify.html
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53😁10⚡9❤6👍3😱2🎃2
Задумался, а какой может быть антоним к выражению "испанский стыд"? Типа когда гордишься за кого-то, кто не имеет к тебе отношения.
Надо придумать. Какая-нибудь румынская гордость что ли.
Надо придумать. Какая-нибудь румынская гордость что ли.
👏16😁16👍5 4🤔3
🔺 Идеи на следующий год
Друзья, нас всё больше и больше, всех ещё раз приветствую! Канал этот я заводил, чтобы делиться интересными вещами и наработками по мере погружения в машинное обучение, чтобы найти попутчиков с общими увлечениями и вообще.
Зреет несколько идей, чего бы ещё интересно-полезного сделать. Может быть, запустим стримы про вайб-код на время? Типа придумываем проектик — например, сделать клон дуолинго с нуля; написать телеграм-бота, который бы нормально комментировал посты, а не эти спам-поделья (которых я, кстати, уже штук 300 удалил из канала за последнее время); разворачивание этого всего через докер на сервере вместе с сертами и т.д. Плюс какие-то общие практики разработки. Обсуждаем минут 10 и 50 минут кодим.
Кодим в разных средах — cursor, claude code, windsurf и т.д., заодно теститм их.
Кажется, что и начинающим разработчикам будет полезно, и тем, кто хочет начать делать свой пет-проект, но никак не начнет, и новые среды я бы сам потестировал с удовольствием, а то уже привыкаю к одному и тому же, надо бы разнообразить.
Что думаете? Какие ещё есть идеи?
Друзья, нас всё больше и больше, всех ещё раз приветствую! Канал этот я заводил, чтобы делиться интересными вещами и наработками по мере погружения в машинное обучение, чтобы найти попутчиков с общими увлечениями и вообще.
Зреет несколько идей, чего бы ещё интересно-полезного сделать. Может быть, запустим стримы про вайб-код на время? Типа придумываем проектик — например, сделать клон дуолинго с нуля; написать телеграм-бота, который бы нормально комментировал посты, а не эти спам-поделья (которых я, кстати, уже штук 300 удалил из канала за последнее время); разворачивание этого всего через докер на сервере вместе с сертами и т.д. Плюс какие-то общие практики разработки. Обсуждаем минут 10 и 50 минут кодим.
Кодим в разных средах — cursor, claude code, windsurf и т.д., заодно теститм их.
Кажется, что и начинающим разработчикам будет полезно, и тем, кто хочет начать делать свой пет-проект, но никак не начнет, и новые среды я бы сам потестировал с удовольствием, а то уже привыкаю к одному и тому же, надо бы разнообразить.
Что думаете? Какие ещё есть идеи?
🔥50👍19❤6 2⚡1👀1
🔺 Tencent-HY-MT1.5
Tencent под ёлочку выложили свои модели машинного перевода в open source. Есть две модели, 7B и её дистиллированная в 1.8B версия. По качеству 7B догоняет закрытые модели, маленькую можно деплоить на телефон (квантизованные версии уже выложили) и т.д., но это все звучит не ново.
Можно лишь добавить, что HY-MT1.5-7B — это обновленная версия модели, участвовавшей в WMT25 и выигравшей там во многих категориях.
Есть другие интересные фичи:
🟢 Terminology intervention. В промпте можно указать, как бы вы хотели перевести те или иные термины, т.е. передать такой мини-словарик. Ясно, что в большие универсальные модели типа ChatGPT и Gemini можно передать что угодно и попросить перевести, но тут и модели маленькие и чисто под MT. Так что выглядит прикольно.
🟢 Contextual Translation. Учли и то, что предыдущие переведенные абзацы текста и общий контекст улучшают понимание рабочего сегмента, повышая качество перевода. Можно помещать контекст до подпромпта с задачей, он будет учтен.
🟢 Formatted translation. Научили оставлять на месте разметку типа тегов и т.д., чтобы не ломать xml-подобные документы и markdown при переводе. Все это тоже можно указать в промпте.
🟢 Получилась модель как будто и узко специализированная, и умеющая только переводить, но гораздо более гибкая чем аналоги за счет дополнительных приседаний при обучении. Надо смотреть на реальных кейсах.
Поддерживает 30+ языков, включая русский. В репе есть инструкции по дообучению.
👉 HF | GitHub
@doomgrad
Tencent под ёлочку выложили свои модели машинного перевода в open source. Есть две модели, 7B и её дистиллированная в 1.8B версия. По качеству 7B догоняет закрытые модели, маленькую можно деплоить на телефон (квантизованные версии уже выложили) и т.д., но это все звучит не ново.
Можно лишь добавить, что HY-MT1.5-7B — это обновленная версия модели, участвовавшей в WMT25 и выигравшей там во многих категориях.
Есть другие интересные фичи:
Поддерживает 30+ языков, включая русский. В репе есть инструкции по дообучению.
👉 HF | GitHub
@doomgrad
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍17✍7👀2 2
🔺 Лайфхак с Gemini
Google купил короткий домен g.ai и получился небольшой лайфхак для быстрых объяснений и ответов на вопросы с помощью Gemini. Работает бесплатно, без логина и VPN.
Домен ведет на гугловский AI-based поиск, где, собственно, работает Gemini, поэтому спросить можно что угодно. Выбрать модель и генерить картинки нельзя, можно загрузить их и попросить распознать, в остальном работает как обычно.
P.S. Конкретно по изучению китайского мне больше нравится Qwen Chat, более развернуто отвечает про перевод, да и доверия по части китайского вызывает больше. Что характерно.
@doomgrad
Google купил короткий домен g.ai и получился небольшой лайфхак для быстрых объяснений и ответов на вопросы с помощью Gemini. Работает бесплатно, без логина и VPN.
Домен ведет на гугловский AI-based поиск, где, собственно, работает Gemini, поэтому спросить можно что угодно. Выбрать модель и генерить картинки нельзя, можно загрузить их и попросить распознать, в остальном работает как обычно.
P.S. Конкретно по изучению китайского мне больше нравится Qwen Chat, более развернуто отвечает про перевод, да и доверия по части китайского вызывает больше. Что характерно.
@doomgrad
2❤🔥19👍11⚡3👾2✍1
🔺 Вкатываемся в вайбкод с OpenCode
Главная вещь, чтобы куда-то вкатываться, на мой взгляд, это желание. Если есть желание, то уже не особо важно с чего начинать. Но чем интересен OpenCode и зачем нам ещё один клиент для разработки?
🟢 Это полностью открытая набирающая популярность утилита. На GitHub у неё уже ~58k звезд.
🟢 В силу открытости, умельцы реверсят API обычных потребительских подписок, делая плагины для их использования (например, gemini). Компании, впрочем, с этим борются и мешают делать такие обертки. Всё равно любопытно как это делается, код у всего открыт.
🟢 Само собой, можно использовать любые платные модели в отличие от пропиетарных клиентов. Но кроме них сейчас доступен ряд довольно мощных моделей бесплатно (например, есть GLM-4.7) через их родного провайдера. Локальные модели подключать тоже можно.
🟢 Документация очень простая, видно, что написано сообществом для сообщества. По сути инструкция, куда тыкать по шагам, чтобы начать работать.
Лично среди моих знакомых разработчиков есть ещё много людей, которые используют обычные LLM-чаты для кода (или вообще не использующие никакие модели).
Тут, мне кажется, у специалистов, использующих в работе утилиты типа OpenCode, Claude Code или Cursor, есть некоторое преимущество, которое можно реализовывать в этом году. Причем, как среди новичков, так и среди "старичков".
Пробуем, вкатываемся.
@doomgrad
Главная вещь, чтобы куда-то вкатываться, на мой взгляд, это желание. Если есть желание, то уже не особо важно с чего начинать. Но чем интересен OpenCode и зачем нам ещё один клиент для разработки?
Лично среди моих знакомых разработчиков есть ещё много людей, которые используют обычные LLM-чаты для кода (или вообще не использующие никакие модели).
Тут, мне кажется, у специалистов, использующих в работе утилиты типа OpenCode, Claude Code или Cursor, есть некоторое преимущество, которое можно реализовывать в этом году. Причем, как среди новичков, так и среди "старичков".
Пробуем, вкатываемся.
@doomgrad
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍10⚡4 3
Читаю доки по https://github.com/code-yeongyu/oh-my-opencode (спасибо Виталию за ссылку), пишут, что там есть режим ultrawork, при котором используются все фичи, агенты запускаются в параллель и работа идёт "until completion" на топовых моделях.
По описанию, фичам и отзывам, если они реальные, это какой-то космолет среди агентов.
Срочно форкаем, делаем стартап на $1B рублей.
@doomgrad
По описанию, фичам и отзывам, если они реальные, это какой-то космолет среди агентов.
Срочно форкаем, делаем стартап на $1B рублей.
@doomgrad
GitHub
GitHub - code-yeongyu/oh-my-opencode: The Best Agent Harness. Meet Sisyphus: The Batteries-Included Agent that codes like you.
The Best Agent Harness. Meet Sisyphus: The Batteries-Included Agent that codes like you. - code-yeongyu/oh-my-opencode
😁13🔥7❤4✍3 1
🔺 GLM-Image
Китайские товарищи из Zhipu AI выпустили модель для генерации картинок GLM-Image (text-to-image и image-to-image).
В свой главный сайт z.ai (там, кстати, можно бесплатно общаться с их GLM моделью, по качеству неплохая), почему-то сразу не втащили, еще и старую модель отключили, пока генерятся только вызовы функции.
Потыкал её на fal.ai. Круто прокачали надписи на китайском. Никакие палочки в символах не слипаются; это сколько надо было втащить картинок с иероглифами в обучение.
Жалко, что кириллицу не досыпали, в нее вообще не умеет. Культурный контекст, видимо, тоже китайский в основном, даже Чебурашку не знает.
Заявляют, что отлично работает как редактор изображений и генератор промо-картинок. По API доступна, поэтому, думаю, своего пользователя найдет.
Веса выложили в открытый доступ.
👉 HF | GitHub | Документация API
@doomgrad
Китайские товарищи из Zhipu AI выпустили модель для генерации картинок GLM-Image (text-to-image и image-to-image).
В свой главный сайт z.ai (там, кстати, можно бесплатно общаться с их GLM моделью, по качеству неплохая), почему-то сразу не втащили, еще и старую модель отключили, пока генерятся только вызовы функции.
Потыкал её на fal.ai. Круто прокачали надписи на китайском. Никакие палочки в символах не слипаются; это сколько надо было втащить картинок с иероглифами в обучение.
Жалко, что кириллицу не досыпали, в нее вообще не умеет. Культурный контекст, видимо, тоже китайский в основном, даже Чебурашку не знает.
Заявляют, что отлично работает как редактор изображений и генератор промо-картинок. По API доступна, поэтому, думаю, своего пользователя найдет.
Веса выложили в открытый доступ.
👉 HF | GitHub | Документация API
@doomgrad
👍10 4❤2✍1🏆1
Что-то я подсел в последнее время на книжки про Графа Аверина (фэнтези про колдунов и их "дивов" в антураже альтернативного Петербурга). Подсел, пока катался поездами на праздниках, слушаю в озвучке Александра Клюквина.
Обложки у них, конечно, очень похожи на сгенерированные, тема с альтернативной историей обычно не очень заходит (и было уже много раз), да и в целом фэнтези не так много читаю.
То ли это Клюквин так добавляет, то ли что. Начал слушать третью часть.
👉 Делитесь, что читаете
—
Upd.
Что еще читал из необычного не так давно:
«Описание города» Дмитрия Данилова. Медитативное чтиво про то, как человек составляет описание неназванного города (можно гадать по ходу). Надо первые несколько страниц почитать, чтобы понять в чем необычность.
«Про кабанов, бобров и выхухолей» Надежды Панковой. Прикольная книга. Просто человек, который работает в заповеднике, описывает поведение диких зверей. Видно, что любит свою работу.
«Квантовая случайность» Николя Жизана. Небольшая, но клевая. Популярно про квантовые эффекты типа нелокальности и про Неравенства Белла.
Обложки у них, конечно, очень похожи на сгенерированные, тема с альтернативной историей обычно не очень заходит (и было уже много раз), да и в целом фэнтези не так много читаю.
То ли это Клюквин так добавляет, то ли что. Начал слушать третью часть.
👉 Делитесь, что читаете
—
Upd.
Что еще читал из необычного не так давно:
«Описание города» Дмитрия Данилова. Медитативное чтиво про то, как человек составляет описание неназванного города (можно гадать по ходу). Надо первые несколько страниц почитать, чтобы понять в чем необычность.
«Про кабанов, бобров и выхухолей» Надежды Панковой. Прикольная книга. Просто человек, который работает в заповеднике, описывает поведение диких зверей. Видно, что любит свою работу.
«Квантовая случайность» Николя Жизана. Небольшая, но клевая. Популярно про квантовые эффекты типа нелокальности и про Неравенства Белла.
❤9👍4✍3💯2🤔1🗿1