Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Дочерняя компания Google DeepMind набирает людей на первые испытания лекарственных препаратов, изобретенных ИИ

Лаборатория называется Isomorphic Labs, и в ней работают те же люди, что стояли за AlphaFold. Это та самая громкая модель для предсказания структуры белков и других молекул от Google.

В общем, недавно Isomorphic Labs получили финансирование в размере 600 миллионов долларов и сейчас сообщают журналистам, что скоро планируют перейти Рубикон в мире ИИ-медицины.

Амбиций у них хоть отбавляй: они верят, что в будущем смогут побороть с помощью ИИ любую болезнь. Сейчас они работают над единым ядром для разработки лекарств.

По слухам – есть успехи. Представители самой компании говорят, что несколько раз уже проводили испытания на людях.
1👍174🔥77🤔2422😁8🤯7🫡7🕊32
С OpenAI Цукерберг разобрался и теперь перешел на Apple

Из корпорации Тима Кука к нему ушел директор отдела AI models Руомин Панг. Он руководил полным циклом обучения моделей Apple Foundation, которые лежат в основе Apple Intelligence и других ИИ-функций на устройствах Apple.

Говорят, в Meta его компенсационный пакет будет равен «миллионам долларов в год».

Кстати, вчера также стало известно, что Дэниел Гросс, который на днях покинул должность CEO компании Ильи Суцкевера, тоже ушел в Meta. Плюсом Цукерберг переманил еще по одному рисерчеру из OpenAI и Anthropic.

Цук – HR года
1🤯258😁11931🔥17👍9👏6👀6🤝321
Мы дождались: Grok-4 выйдет завтра

Илон Маск назначил прямой эфир на 8 вечера среды по PT. По Москве это, правда, будет 6 утра четверга. Придется админам пожертвовать сном 😭

Напоминаем, кстати, что первый раз Маск обещал выход Grok-4 «через неделю» 29 апреля :)
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁18551🔥28👍167🤯33
У МТС теперь есть свой AI для понимания данных, и он уже работает на бизнес

В MTС Web Services запустила первого в России AI-агента для автоматического документирования корпоративных данных – называется он MWS Data Scout.

Суть: берёт все базы компании, парсит, находит, что где лежит, как связаны таблицы, где чувствительные данные, – и аккуратно описывает всё это в понятной форме. Не просто по названиям столбцов, а по смыслу. К примеру, указывает, округлены ли цифры в «Выручке», по какой методике ода считалась или в какой валюте указана «Сумма сделки».


AI-агент интегрируется с DataHub, OpenMetadata и другими каталогами. Подключить агента можно и локально в вашем контуре, и из облака.

Это большой шаг в сторону автоматизации дата-менеджмента. Особенно для банков, промышленности, ритейла и остального бизнеса, где данных море, а описывать их всегда нужно вручную.

В будущем этот агент сможет строить пайплайны, прогонять данные до BI и ML и ловить аномалии.

Говорят, только на описании данных компании могут сэкономить от 50 миллионов рублей. А сам процесс ускоряется в 10 раз. И это уже не говоря о гораздо более высоком качестве и полноте документации.
1😁71👍412111🗿7🤯3🫡2
Ученые предложили потенциально новую парадигму для генеративок: Energy-Based трансформеры

В исследовании принимали участие ученые из Амазона, Стэнфорда, Гарварда, Амстердамского и Иллинойского университетов. Сейчас разберемся, что они придумали.

Основная идея – минимизация функции энергии. Модель выдает не просто токен за токеном, а выводит энергию – число, показывающее, насколько хорошо кандидат-предсказание сочетается с контекстом. Чем ниже энергия, тем разумнее предсказание.

То есть мы начинаем с шумной или случайной последовательности и итеративно улучшаем ее, снижая энергию градиентным спуском, пока не сойдёмся к оптимуму. Чем-то снова напоминает диффузию.

Это дает: (а) динамическое время на рассуждения: энергия может сойтись за 2, а может за 10000 шагов; (б) универсальный подход для ризонинга (в отличие от того, как думают LLM сейчас) + самопроверку на каждом шаге.

И даже по метрикам все неплохо: пишут, что EBT лучше обобщается на новые задачи и быстрее учится, да и перплексия получается приятная. На других модальностях тоже все ок.

Единственный нюанс – вычисления. Для модели нужны градиенты второго порядка, ну и каждый шаг оптимизации энергии – это дополнительный проход. Так что получается в среднем в 6-7 раз тяжелее обычного трансформера.

Но может, что-то из этого и выйдет

Статья | GitHub
188👍46🔥23🤨10🤔6
В Твиттере завирусился тренд: нужно скинуть картинку, которую поймут только люди из твоей субкультуры

Среди реплаев нашлось вот это золото

Согласны? Узнали?
3🔥212😁18228😎9👍8🕊3🗿3
OpenAI затягивает гайки в системе безопасности

После выхода R1 от DeepSeek Альтман решил усилить контроль за безопасностью внутри компании. Напоминаем, что представители OpenAI утверждали, что китайцы обучили свою модель с помощью методов дистилляции из их моделей.

И видимо, в компании действительно в это верят, потому что сейчас вступает в силу куча новых корпоративных ограничений. Например:

Доступ к новым моделям и продуктам есть только у нескольких лиц. Кроме того, только небольшая часть сотрудников имеет право обсуждать разработки в общих офисных помещениях.

Доступ в офисы и отдельные их части осуществляется по отпечатку пальца.

Все внешние интернет-соединения требуют явного одобрения.

Кроме того, Альтман набрал много новых кибербезопасников и переписал NDA.

Пентагон покуривает в сторонке
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥13782😁64👍20179🤯7🕊2🫡1
Google выпустили крайне интересный инструмент, с помощью которого можно «вырезать» из большой модели готовые модельки поменьше

Нет, это не дистилляция и не прунинг. Помните, недавно они выложили в опенсорс полноценную Gemma 3n? Так вот у этой модели была необычная архитектура – матрешечный трансформер 🪆

Подробно мы рассказывали, что это такое, здесь. Кратко: Gemma 3n эластична, то есть у нее есть вложенные модели – отсюда и название.

В частности, сама она была обучена как модель на Е4В (это 4В effective параметров) с 35 слоями и размером скрытого слоя 16384, но внутри нее есть полностью самодостаточная модель на E2B уже с 30 слоями и размерностью 8192. Тренят это все, конечно, специальным образом с помощью Matryoshka Representation Learning.

Но и это не все: из такой матрешки можно извлекать модели вообще любого размера между 2В и 4В. Раньше – теоретически, а теперь и на практике с помощью готовой тулзы от самих Google.

То есть: вы выбираете, какой размер будет оптимален для вашего железа -> выставляете соответствующую конфигурацию -> отрабатывает метод Mix-n-Match, который вырезает из модели нужное вложение (это происходит без обучения) -> вы получаете готовые веса, которые можете, кстати, сразу же залить на HF.

Ну очень свежо и практично. Все, к слову, оформлено в виде ноутбука ipynb, так что запустить можно одной кнопкой. Ссылка
1🤔121🔥8642👍15👨‍💻3🤝1
Немецкие ученые выпустили модель, которая имитирует психику человека

Она называется Centaur и обучена предсказывать поведение людей. Для обучения использовали огромный датасет с 160 поведенческими экспериментами и порядком десяти миллионов кейсов человеческих реакций.

То есть модель смотрела на то, как ведут себя разные люди в той или иной ситуации -> запоминала -> училась имитировать.

И в итоге научилась неплохо: точность высокая даже на новых ситуациях, которые модель не видела на трейне. Более того, она может даже оценить время реакции и подробно объяснить, почему человек поведет себя так или иначе.

Звучит жутковато, конечно, но просто представьте, какой тут потенциал для приложений. Систему можно использовать как симуляцию для бесконечных экспериментов, и с помощью нее попытаться лучше понять когнитивную природу человека, его психику и причины разных расстройств. Это, по сути, то, о чем ученые мечтали веками: единая (эмпирическая) теория поведения.

Самое интересное, что Centaur даже согласуется с реальной мозговой активностью: активации сети коррелируют со сканами МРТ живых людей. А под капотом при этом просто Llama-3.1 70B, дотюненная с QLoRA.

Все веса выложены в опенсорс. Сделали даже вариант модели поменьше, его можно легко запустить в колабе.

Киберпанк как он есть

www.nature.com/articles/s41586-025-09215-4
2146🔥106👍3427🤯21135😁3😎221
OpenAI будет обучать учителей использовать ChatGPT в школах

Стартап присоединился к Американской федерации учителей и запускает пятилетнюю академию, в которой 400 000 учителей будут осваивать и практиковать применение ИИ в своей работе.

Если что, 400 000 – это примерно каждый десятый учитель в Штатах. Все они получат приоритетный доступ к продуктам OpenAI, гранд в виде токенов и кредитов API и бесплатную техподдержку. Плюс – семинары, митапы, воркшопы и онлайн курсы.

Уже представили свою школьную Марь Ивановну на тренинге по ИИ?
1😁12448🤔17👍9🤯8🔥7👏2🤩2🫡1
И снова в эфире рубрика «скандалы и расследования»: Huawei опенсорснули собственную базовую модель, но она оказалась копией Qwen 👽

В общем, совсем недавно Huawei опубликовали модель PanGu – вот веса. И это был не файнтюн какого-то другого опенсорса: основной упор в релизе компания делала именно на то, что они предобучали модель с нуля на собственных чипах Ascend. Мол, посмотрите, не только на Nvidia можно обучать годные модели. Такой вот маркетинговый ход.

И все было окей: адекватные метрики, интересная архитектура и инженерные хаки. Но через несколько дней вышла статья от неких HonestyAGI, в которой они показывают, что веса PanGu – это практически полная копия весов Qwen 2.5.

По графикам корреляция достигает 0.927. То есть, фактически, это та же самая модель, просто немного переупакованная.

В Huawei обвинения отрицают и говорят, что в статье приведены неправильные расчеты. Но вот прикол: журналисты пишут, что анонимный исследователь якобы из команды PanGu подтвердил им, что они не напрямую (?), но действительно переиспользовали веса Qwen. Все, говорит, из-за невероятной скорости гонки ИИ – иначе было не выделиться.

Вот такая история. Huawei с задачей пропиарить свои чипы не сильно справились, но шуму зато наделали много
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁1494019👍5🤯53🔥22