Еще одна специализированная версия Gemma от Google: теперь для общения с дельфинами
Моделька так и называется – DolphinGemma. Цель – анализировать и генерировать звуковые последовательности, имитирующие естественную коммуникацию дельфинов. Это буквально ключ к межвидовому общению.
Над проектом Google работали с Wild Dolphin Project. Это организация, которая дольше всех в мире (с 1985 года, на секундочку) собирает данные о дельфинах и записывает их разговоры в естественной среде. У них хранятся десятилетия видеозаписей и аудиозаписей, которые дополнены информацией об индивидуальных характеристиках дельфинов (характер, жизненный путь, поведение).
Сама модель DolphinGemma небольшая, около 400M, можно запустить на смартфоне. Ключевой момент – это обучение токенизатора SoundStream. В остальном обычная LM, которая пытается предсказать следующий токен. Только вместо человеческого языка –🐬
Тесты показали, что DolphinGemma реально способна извлекать паттерны и структуры из звуков животных. Следующим шагом исследователи хотят создать систему CHAT (Cetacean Hearing Augmentation Telemetry), то есть установить какой-то общий "словарь", используя привычные дельфинам вещи – рыбу, водоросли, яркие предметы.
Обещают даже скоро опенсорснуть -> blog.google/technology/ai/dolphingemma/
Моделька так и называется – DolphinGemma. Цель – анализировать и генерировать звуковые последовательности, имитирующие естественную коммуникацию дельфинов. Это буквально ключ к межвидовому общению.
Над проектом Google работали с Wild Dolphin Project. Это организация, которая дольше всех в мире (с 1985 года, на секундочку) собирает данные о дельфинах и записывает их разговоры в естественной среде. У них хранятся десятилетия видеозаписей и аудиозаписей, которые дополнены информацией об индивидуальных характеристиках дельфинов (характер, жизненный путь, поведение).
Сама модель DolphinGemma небольшая, около 400M, можно запустить на смартфоне. Ключевой момент – это обучение токенизатора SoundStream. В остальном обычная LM, которая пытается предсказать следующий токен. Только вместо человеческого языка –
Тесты показали, что DolphinGemma реально способна извлекать паттерны и структуры из звуков животных. Следующим шагом исследователи хотят создать систему CHAT (Cetacean Hearing Augmentation Telemetry), то есть установить какой-то общий "словарь", используя привычные дельфинам вещи – рыбу, водоросли, яркие предметы.
Обещают даже скоро опенсорснуть -> blog.google/technology/ai/dolphingemma/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤86🔥62👍18🤯13😁1
OpenAI преодолел отметку в 800 000 000 пользователей. Это 10% населения Земли.
Если судить по количеству еженедельных активных пользователей, за 2024 они выросли в 4 раза. Сообщается, что к концу 2025 стартап планирует достичь 1 миллиарда юзеров (и это уже не звучит как что-то нереальное).
Спасибо Ghibli генерациям
Если судить по количеству еженедельных активных пользователей, за 2024 они выросли в 4 раза. Сообщается, что к концу 2025 стартап планирует достичь 1 миллиарда юзеров (и это уже не звучит как что-то нереальное).
Спасибо Ghibli генерациям
🤯164❤34👍19🔥9🐳3⚡2😁2
В Nvidia скрестили трансформеры с Mamba-2 и выпустили Nemotron-H
Исследователи взяли обычный трансформер, но большинство слоев внимания заменили на слои Mamba-2. Mamba – это модель из семейства State space models, это такой умный вариант LSTM (вот тут наш понятный разбор того, как SSM работают).
Для модели 56B осталось только 10 слоев селф-аттеншена, а для модели 8B – 4 слоя. С точки зрения экономии ресурсов и ускорения это очень круто, потому что в слоях mamba память константная. То есть вычисления вообще не зависят от длины контекста (в отличие от внимания, которое масштабируется квадратично).
Интуитивно кажется, что тогда должно страдать качество. Но нет: результаты сопоставимы с чистыми трансформерами схожих размеров. Например, Nemotron-H-56B примерно на уровне с Llama-3.1-70B и Qwen-2.5-72B. При этом летает все в 2-3 раза быстрее.
Интересно, появится ли моделька на арене (веса здесь)
arxiv.org/pdf/2504.03624
Исследователи взяли обычный трансформер, но большинство слоев внимания заменили на слои Mamba-2. Mamba – это модель из семейства State space models, это такой умный вариант LSTM (вот тут наш понятный разбор того, как SSM работают).
Для модели 56B осталось только 10 слоев селф-аттеншена, а для модели 8B – 4 слоя. С точки зрения экономии ресурсов и ускорения это очень круто, потому что в слоях mamba память константная. То есть вычисления вообще не зависят от длины контекста (в отличие от внимания, которое масштабируется квадратично).
Интуитивно кажется, что тогда должно страдать качество. Но нет: результаты сопоставимы с чистыми трансформерами схожих размеров. Например, Nemotron-H-56B примерно на уровне с Llama-3.1-70B и Qwen-2.5-72B. При этом летает все в 2-3 раза быстрее.
Интересно, появится ли моделька на арене (веса здесь)
arxiv.org/pdf/2504.03624
👍70🔥17🍓9❤🔥3❤2🤔1🗿1
Оп, Google начали нанимать на позицию Post-AGI Research
Условия: не списывать с книжек по фантастике (по возможности), не предсказать вымирание человечества (по желанию)
Ключевые вопросы включают изучение траектории от AGI к ASI, сознание в машинах, влияние ASI на основы человеческого общества. Вы также будете сотрудничать с кросс-функциональными командами разработки и проводить эксперименты для нашей миссии.
Условия: не списывать с книжек по фантастике (по возможности), не предсказать вымирание человечества (по желанию)
😁194🤯27❤17🗿8🫡7👍3
OpenAI выкатили новый гайд для промпт-инженеринга GPT-4.1 и раскрыли главную загадку длинного контекста
Если у вас длинный контекст + инструкции, то лучше помещать инструкции И в начало, И в конец. Но если вы очень экономите токены, то – в начало. Теперь вы знаете.
Наверное, так специально предобрабатывали трейн, потому что по умолчанию у LLM обычно все наоборот (инструкции перед контекстом воспринимаются хуже).
P.S. В сам гайд тоже советуем заглянуть. Там много примеров и готовых удобных заготовок.
Если у вас длинный контекст + инструкции, то лучше помещать инструкции И в начало, И в конец. Но если вы очень экономите токены, то – в начало. Теперь вы знаете.
Наверное, так специально предобрабатывали трейн, потому что по умолчанию у LLM обычно все наоборот (инструкции перед контекстом воспринимаются хуже).
P.S. В сам гайд тоже советуем заглянуть. Там много примеров и готовых удобных заготовок.
👍92🤔16❤9🍓6🔥4😁2🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь официально: OpenAI делает соцсеть
Она будет похожа на X. Сейчас уже даже есть внутренний прототип: галерея изображений, сгенерированных пользователями. Ее ночью раскатили на всех юзеров, уже можно посмотреть (бесплатным тоже доступно, да). Пока что стартап собирает фидбэк.
Зачем им это? Первая причина – это данные. Вторая – тоже данные. Много открытых онлайн данных для обучения, как у Meta и XAI. Ну и бесплатная реклама через интеграцию моделей, как для Grok в X.
А теперь вспомним, как пару месяцев назад в ответ на запрос Маска купить OpenAI Альтман ответил «Мы бы лучше купили X». Масштабы пасхалки представили?
Она будет похожа на X. Сейчас уже даже есть внутренний прототип: галерея изображений, сгенерированных пользователями. Ее ночью раскатили на всех юзеров, уже можно посмотреть (бесплатным тоже доступно, да). Пока что стартап собирает фидбэк.
Зачем им это? Первая причина – это данные. Вторая – тоже данные. Много открытых онлайн данных для обучения, как у Meta и XAI. Ну и бесплатная реклама через интеграцию моделей, как для Grok в X.
А теперь вспомним, как пару месяцев назад в ответ на запрос Маска купить OpenAI Альтман ответил «Мы бы лучше купили X». Масштабы пасхалки представили?
👍117🤨48😁15❤12🔥8🤯4🤔3
Сегодня и завтра здесь будет очень много технических ML-докладов и занятных открытых дискуссий. Всем самым интересным будем делиться здесь.
Трансляцию, кстати, уже запустили, так что можете взглянуть на программу и посмотреть доклады в онлайне. Вот на что пойдем сегодня сами и советуем вам:
➖ Доклад про футурологию ИИ и цифровое послесмертие от Константина Воронцова (9:30)➖ Дискуссия про мифы ИИ с Юрием Дорном и Радославом Нейчевым (13:00)➖ Дебаты о науке и жизни с Андреем Райгородским (14:10)➖ Большой разговор про ключевые вызовы в развитии LLM (15:50)➖ Обзор актуальных многообещающих исследований и трендов в ML-ресерче (17:00)➖ Кейс сессии про агентов, ИИ в медицине, MLOps, бигдату и ML в бизнесе (весь день)
Кто участвует оффлайн – подходите общаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤77👍28❤🔥12🤯3🔥1🤔1🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
На Kaggle обновление: они продолжают усиливать интеграцию Google Colab
1. Теперь можно синхронизировать апдейты между платформами. Если вы загружали блокнот из Colab, а потом еще раз меняли его в Colab, то на Kaggle эти изменения появятся по одному щелчку мыши.
2. Кроме того, появилась кнопка «Изменить в Colab». Она редиректнет вас из ноутбука Kaggle в Colab, и все внесеннные после этого изменения появятся на Kaggle автоматически.
3. Ну и приятная мелочь: теперь можно импортировать из Colab тетрадки пачками, а не по одной за раз.
www.kaggle.com/product-announcements/570265
1. Теперь можно синхронизировать апдейты между платформами. Если вы загружали блокнот из Colab, а потом еще раз меняли его в Colab, то на Kaggle эти изменения появятся по одному щелчку мыши.
2. Кроме того, появилась кнопка «Изменить в Colab». Она редиректнет вас из ноутбука Kaggle в Colab, и все внесеннные после этого изменения появятся на Kaggle автоматически.
3. Ну и приятная мелочь: теперь можно импортировать из Colab тетрадки пачками, а не по одной за раз.
www.kaggle.com/product-announcements/570265
🔥68👍26❤11🍾2
Data Secrets
Радослав Нейчев: «То, что в науке нет денег – это и миф, и нет» 😭
На Data Fusion сейчас прошла дискуссия про разоблачение мифов в ИИ и ML. Обсудили зарплату теоретиков, то, что бизнес не умеет внедрять ИИ, и даже гуманитариев в ML (да, так тоже можно). Понравилась цитата Радослава Нейчева, руководителя из Яндекса и зам.завкафедры МОиЦГ МФТИ:
Короче, любишь науку – люби и саночки возить. Полную запись сессии смотрите здесь.
На Data Fusion сейчас прошла дискуссия про разоблачение мифов в ИИ и ML. Обсудили зарплату теоретиков, то, что бизнес не умеет внедрять ИИ, и даже гуманитариев в ML (да, так тоже можно). Понравилась цитата Радослава Нейчева, руководителя из Яндекса и зам.завкафедры МОиЦГ МФТИ:
«Хорошие деньги в науке получать можно, просто они висят не так низко, как в других сферах. Тут ничего не заработаешь, если филонить.
В науке нужно постоянно бежать, чтобы просто оставаться на месте. Ты должен быть умен, начитан, трудолюбив и иметь чутье. Это сложно, но это единственный вариант заработать, и то не сразу. Сначала ты работаешь на имя, потом оно на тебя»
Короче, любишь науку – люби и саночки возить. Полную запись сессии смотрите здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🤨36❤27🔥10🤯7😁5🫡5✍3💯3👾3🍓2
Может ли LLM расследовать преступления?
Однажды Илья Суцкевер в своем интервью объяснял, почему задача next token prediction может привести к реальному интеллекту, и приводил вот такой пример:
Цитата стала вирусной и тут исследователи из Калифорнии решили проверить, действительно ли модели способны на такой анализ. Они протестили LM на игре Ace Attorney. Это очень популярная японская игра, в которой игрок выступает в роли адвоката и расследует преступление.
Большой контекст, много деталей, необходимость планирования и выстраивания стратегии – ну в общем достаточно крутой и естественный бенчмарк.
Результат: o1 и Gemini прошли игру практически до конца. Правда разница в костах на решение при этом зверская (график 2). Чуть хуже справились Claude 3.7, GPT-4.1 и Claude 3.5. Вывод: не такие уж и стохастические попугаи.
Арена тут. У этой лабы, кстати, есть тесты и на других играх: марио, 2048, Tetris и пр.
Однажды Илья Суцкевер в своем интервью объяснял, почему задача next token prediction может привести к реальному интеллекту, и приводил вот такой пример:
Представьте, что вам нужно прочитать огромный детектив и в конце предсказать последнее слово в предложении "Оказалось, убийцей был ...". Если модель может это сделать, значит, она действительно понимает историю.
Цитата стала вирусной и тут исследователи из Калифорнии решили проверить, действительно ли модели способны на такой анализ. Они протестили LM на игре Ace Attorney. Это очень популярная японская игра, в которой игрок выступает в роли адвоката и расследует преступление.
Большой контекст, много деталей, необходимость планирования и выстраивания стратегии – ну в общем достаточно крутой и естественный бенчмарк.
Результат: o1 и Gemini прошли игру практически до конца. Правда разница в костах на решение при этом зверская (график 2). Чуть хуже справились Claude 3.7, GPT-4.1 и Claude 3.5. Вывод: не такие уж и стохастические попугаи.
Арена тут. У этой лабы, кстати, есть тесты и на других играх: марио, 2048, Tetris и пр.
👍106🔥45❤19🤯4👌1
Неочевидные тренды в ИИ ресерче: подборка литературы от исследователей
Только что прошла ключевая сессия Data Fusion с обзором главных актуальных исследований в ИИ (запись). Четверо ученых и руководителей научных лабораторий рассказали, в каких областях сейчас самый живой и многообещающий рисерч. Пересказываем:
1. Parameter-Free Optimization. Подбор гиперпараметров – боль любого процесса обучения. Здесь же мы пытаемся подбирать гиперпараметры не наобум, а как-то автоматизированно. Например, рассчитывая растояние до теоретического оптимума. Лучшие статьи: раз, два, три.
2. Федеративное обучение. Aka защищенное обучение aka персонализированное обучение. То есть модель обучается на данных так, что они не попадают в руки разработчиков. Это могут быть данные кучи разных компаний/людей, которые лежат на разных серверах и остаются защищенными. Лучшие статьи: раз, два, три.
3. Текстовые диффузионные модели. Идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность. Это больше похоже на то, как текст пишут люди. Почитать: раз, два.
4. Нейросетевой стандарт сжатия изображений JPEG AI. Он был принят на международном уровне недавно, и это первый полностью ИИшный стандарт. Возможно, это действительно будущее изображений. Во-первых, оказывается, что с таким сжатием очень легко классифицировать сгенерированные картинки. Во-вторых, это быстро и можно "бесплатно" прикручивать декодеры, которые будут и сжимать, и обрабатывать каринку под запрос. Почитать: раз, два.
5. Генеративные потоковые сети. Свежий подход для генерации дискретных структур. Ну, например, графов. Так можно генерировать молекулы с заданными свойствами, CoT логических рассуждений для LLM или переформулировать задачу RL. Почитать.
И, конечно, все упоминали RL и ризонинг. Тут без комментариев, вы и так все знаете. Список, что почитать.
Что бы добавили?
Только что прошла ключевая сессия Data Fusion с обзором главных актуальных исследований в ИИ (запись). Четверо ученых и руководителей научных лабораторий рассказали, в каких областях сейчас самый живой и многообещающий рисерч. Пересказываем:
1. Parameter-Free Optimization. Подбор гиперпараметров – боль любого процесса обучения. Здесь же мы пытаемся подбирать гиперпараметры не наобум, а как-то автоматизированно. Например, рассчитывая растояние до теоретического оптимума. Лучшие статьи: раз, два, три.
2. Федеративное обучение. Aka защищенное обучение aka персонализированное обучение. То есть модель обучается на данных так, что они не попадают в руки разработчиков. Это могут быть данные кучи разных компаний/людей, которые лежат на разных серверах и остаются защищенными. Лучшие статьи: раз, два, три.
3. Текстовые диффузионные модели. Идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность. Это больше похоже на то, как текст пишут люди. Почитать: раз, два.
4. Нейросетевой стандарт сжатия изображений JPEG AI. Он был принят на международном уровне недавно, и это первый полностью ИИшный стандарт. Возможно, это действительно будущее изображений. Во-первых, оказывается, что с таким сжатием очень легко классифицировать сгенерированные картинки. Во-вторых, это быстро и можно "бесплатно" прикручивать декодеры, которые будут и сжимать, и обрабатывать каринку под запрос. Почитать: раз, два.
5. Генеративные потоковые сети. Свежий подход для генерации дискретных структур. Ну, например, графов. Так можно генерировать молекулы с заданными свойствами, CoT логических рассуждений для LLM или переформулировать задачу RL. Почитать.
И, конечно, все упоминали RL и ризонинг. Тут без комментариев, вы и так все знаете. Список, что почитать.
Что бы добавили?
❤58👍36🔥12👏2🤯2🐳2⚡1
Итак, выпустили полноценную o3 и o4-mini
o3 выбивает даже лучшие метрики, чем были, когда ее анонсили. На AIME 2025 это рекордные 98.4%. При этом o4-mini еще круче: ее результат 99.5. А на Humanity Last Exam результаты сопоставимы с Deep Research. Кодинг тоже не отстает.
Обе модели мультимодальные, и не просто мультимодальные, а с ризонингом поверх изображений. Плюс модели специально натаскивали на использование инструментов (поиск, интерпретатор и все такое), так что агентные способности на высоте.
При этом o3 даже немного дешевле o1. Цены: инпут $10.00 / 1M и аутпут $40.00 / 1M (для o1 это 15 и 60). o4-mini: $1.1 / 1M и $4.4 / 1M.
Еще приятно, что масштабирование на ризонинге теперь дешевле. То есть с ростом метрик за счет увеличения ризонинга цена теперь растет медленнее, чем это было с o1.
Обе модели будут доступны Plus, Pro и Team, их уже раскатывают. Позже o4-mini будет также доступна фри юзерам.
https://openai.com/index/introducing-o3-and-o4-mini/
o3 выбивает даже лучшие метрики, чем были, когда ее анонсили. На AIME 2025 это рекордные 98.4%. При этом o4-mini еще круче: ее результат 99.5. А на Humanity Last Exam результаты сопоставимы с Deep Research. Кодинг тоже не отстает.
Обе модели мультимодальные, и не просто мультимодальные, а с ризонингом поверх изображений. Плюс модели специально натаскивали на использование инструментов (поиск, интерпретатор и все такое), так что агентные способности на высоте.
При этом o3 даже немного дешевле o1. Цены: инпут $10.00 / 1M и аутпут $40.00 / 1M (для o1 это 15 и 60). o4-mini: $1.1 / 1M и $4.4 / 1M.
Еще приятно, что масштабирование на ризонинге теперь дешевле. То есть с ростом метрик за счет увеличения ризонинга цена теперь растет медленнее, чем это было с o1.
Обе модели будут доступны Plus, Pro и Team, их уже раскатывают. Позже o4-mini будет также доступна фри юзерам.
https://openai.com/index/introducing-o3-and-o4-mini/
👍91❤26🔥15🆒7❤🔥4🤓2