Техножрица 👩‍💻👩‍🏫👩‍🔧
14.2K subscribers
1.49K photos
68 videos
28 files
786 links
Люблю высокие технологии и кушать.

Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Download Telegram
Друзья, если кто-то обнаружил, что не может писать сообщения в группу - с вероятностью 99% это ошибка антиспам-бота, так как я очень редко баню (обычно за оскорбления и отсутствие адекватной реакции на предупреждения). В случае если бот по ошибке вас забанил, пишите в личку канала, я отменю бан.
47185💩3😢2👎11
Forwarded from Kantor.AI
Как я недавно ботал ML (часть 1)

Есть у меня некоторое количество знакомых, которые думают, что за 15 лет в ML я, наверное, уже знаю все, что можно знать в ML. К счастью, я сам так никогда не думал. ML безразмерный, постоянно развивающийся и пополняющийся, да и я ни разу не самый умный человек в профессиональном сообществе (не прибедняюсь, просто я знаю реально мощных ребят, на фоне которых чувствую себя тормозом). Кстати, если что, нейросетки и, в частности, LLMки это тоже ML (ремарка для любителей спросить «у вас в проекте ML или AI?» :)

Так вот недавно мне нужно было за неделю разобраться в некотором количестве новых для меня тем из ML, не на понятийном уровне, а с готовностью писать и объяснять формулы. Ниже рассказ о том, как это было.

Сначала я читал статьи и смотрел YouTube «в ширь»: все интересное по теме подряд, без ведения каких-то записей и конспектов. Статьи с arxiv здесь не были в списке источников, все было приземленнее - Хабр и сайты вроде Medium. Шло тяжко, со скрипом, прогресс почти не чувствовался.

Параллельно я смотрел материалы, которые мои коллеги по преподаванию в MLinside готовят для специализации по AI, и которые уже имеют вид последовательного изложения для курсов. Вот такие забавные плюсы делать школу ML: можно ботать материалы из неё же, причем еще до публикации, и это часть моей работы по валидации контента.

Ботать по материалам курсов не так раздражало, как «вширь» по всему интернету. Как минимум, не было столь сильного чувства тревоги от ограниченных сроков и непонимания своего прогресса. Когда есть программа курса, всегда можно нарисовать в голове примерный прогресс-бар.

Однако стоит заметить, что мой мозг и близко не работает как «послушал материал и все понял». Даже больше скажу, читать лекции я люблю, а вот слушать просто невыносимо тяжело. В записи я прерываюсь по сто раз за видео, вживую отвлекаюсь и теряю нить повествования каждые 5-10 минут.

В итоге для ключевых тем я находил еще 2-3 варианта изложения в открытых источниках, сравнивал их между собой, и обнаруживал, что оптимальный для меня вариант изложения неизменно состоял из частей разных лекций от разных авторов. Кстати, о лекциях, моей задачей на неделю было только изучить подробнее теоретическую часть, про практику напишу в другой раз.

Постепенно, среди всего набора курсов, видео и статей, выделились несколько особенно ценных, которые давали прям подробное, системное и понятное изложение. Что важно, даже по уже известным мне темам, потому что одно дело думать, что понимаешь тему, и совсем другое - быть готовым её нормально рассказать с чистого листа (это и было моей целью). Нахождение этих материалов в общей массе доступного контента также радикально снизило уровень тревоги, потому что каждое их прочтение заметно наводило порядок в голове. Тоже важный момент: однократного прочтения мне было мало. Если вы что-то прочитали и не поняли полностью или, тем более, не запомнили - не надо паниковать, это нормально.
👍391710💩97🤔61
Forwarded from Kantor.AI
Как я недавно ботал ML (часть 2)

Дальше наступила решающая стадия, когда я уже сформировал некоторый список тем «как бы я рассказывал этот материал», и снова проходясь по всему изученному, обычной ручкой в обычном бумажном блокноте выписывалось изложение всех этих тем. Без задействия мелкой моторики я вообще ничего серьезного не учу, в голове совсем другой уровень осмысления, задаваемых себе же вопросов и внутренней критики, когда что-то пишу.

Периодически я ловил себя на мысли: а могу ли я вот этот конкретно момент из такой-то темы расписать по памяти сам? И я не тянул это проверить, взяв, опять-таки бумагу и ручку. Если не получалось, смотре, как правильно и снова попробовал вспомнить. Это важная часть, т.к. существенный прогресс в понимании материала дает именно вспоминание. (Не находите ничего общего с обучением моделей в NLP?))

Дальше начинают происходить всякие разные озарения, когда внезапно сложная схема, которую просто запомнил, начинает казаться супер простой и логичной, а мозг сам понимает, как к ней прийти из соображений здравого смысла, а не нарисовать из памяти.

К концу недели, то, что началось со скрипом и страданием, получалось как по маслу: все новые вещи усваивались максимально быстро, а те, которые изучались уже неделю, упорядочились в голове. В итоге было очень заметно, что даже если мозгам больно и тяжело, и результата не видно, и ничего не хочется, всего через неделю занятий по 6-8 часов в день, прогресс уже на лицо.

У тех же, кто еще и преподает, есть отличная возможность разобраться в материале еще глубже. Я бы сказал, что по уровням понимания это выглядит как-то так:
1) насмотрелся видео и начитался статей;
2) структурировал изучаемый предмет у себя в голове;
3) по полученной структуре сам своими руками записал последовательное изложение;
4) добился того, что это изложение получается воспроизвести с чистого листа, и не как красивую картинку, а поняв, откуда все берется;
5) изложение «для себя» переделал в доклад или лекцию, попутно ответив на топ ожидаемых вопросов;
6) несколько десятков раз прочел эту лекцию, собрав еще больший топ вопросов слушателей и ответив на них.

Параллельно с 5 и 6 может быть:
5*) реализовал изученное сам с нуля в учебных целях,
6*) поприменял изученное на практике на работе.

В целом, если хотите с чем-то разобраться, рекомендую:

путь 1-6 + 5*-6*,

множественные источники (и как минимум один - систематизированный в курс),

разумеется, общение по непонятным вопросам с LLM (это выше не упомянул, но было тоже очень важно),

ну и конечно запастись терпением и не бояться, что сначала ничего не получается.

У меня тоже сначала ничего не получается, даже после 15 лет в отрасли и в преподавании, и это, повторяю, нормально.
68👍24💩12🔥886💯22
29049💅2312😁11🔥6🎉6💋3👍1🤯1🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Австралиец создал для своей собаки персональную вакцину против рака с ChatGPT

Правда, вирусный нарратив «Один чел с чатботом победил фармацевтику» — красивая сказка. Реальная история скучнее и интереснее одновременно.

Пол Конингем из Сиднея в 2024 году узнал, что его собаке Рози осталось жить несколько месяцев: рак тучных клеток — распространённая и практически неизлечимая форма онкологии у собак. Хирургия и химиотерапия замедлили болезнь, но не остановили. Но в декабре 2025-го Рози получила первую инъекцию персонализированной мРНК-вакцины. К январю опухоль уменьшилась вдвое, шерсть снова заблестела, собака перепрыгивает заборы.

Кто такой Конингем

Медиа описывают его как «техпредпринимателя без биологического образования». На самом деле Конингем — 17-летний ветеран ML и data science, сооснователь сиднейской компании Core Intelligence Technologies. Он десятилетиями профессионально строит пайплайны обработки данных.

В общем, ChatGPT в его руках — инструмент опытного специалиста, а не волшебная кнопка «Make no mistakes».

Что реально сделал ИИ

ChatGPT предложил направление — иммунотерапию — и указал на Центр геномики UNSW Ramaciotti. Профессор Мартин Смит помнит, как Конингем пришёл к нему со «странным» запросом:
Обычно мы не поддерживаем прямое потребительское секвенирование ДНК — интерпретировать данные по-настоящему сложно. Но Пол сказал: «Не волнуйтесь, я аналитик данных, разберусь с помощью ChatGPT».


Дальше он использовал AlphaFold для предсказания 3D-структур мутировавших белков и собственные ML-алгоритмы для отбора неоантигенов. Полстраницы данных он передал профессору Паллю Торгдарсону из RNA Institute UNSW, тот синтезировал наночастицу. Вводила вакцину профессор Рейчел Аллавена из Университета Квинсленда — единственный ветеринарный исследователь с действующим этическим разрешением на подобные эксперименты.

Поэтому тут нельзя говорить «ИИ создал вакцину» — это преувеличение. ChatGPT был ассистентом для исследования, а критические решения требовали экспертизы команды Торгдарсона. ИИ ускорил пайплайн, который иначе занял бы месяцы ручного анализа литературы.

Почему это не воспроизвести по инструкции

Если вдруг резко захотелось прогуляться до Инвитро и потом сгрузить свои анализы в Claude Code, не торопитесь: ветеринарные экспериментальные процедуры работают по принципиально другим правилам. Тут тестирование гораздо быстрее, чем у человека. Именно поэтому от дизайна вакцины до первой инъекции прошло меньше двух месяцев — не потому что ИИ такой быстрый. Для разрешения на лекарства для человека этот путь занял бы годы и стоил несравнимо больше.

Но история всё равно важная. Персонализированные мРНК-вакцины против рака — не фантастика. Moderna и Merck в испытании KEYNOTE-942 показали снижение риска рецидива меланомы на 44% по сравнению с монотерапией. Сейчас идут фазы III для меланомы и немелкоклеточного рака лёгкого. Разница с историей Рози — в скорости и стоимости разработки, но не в принципе.

Торгдарсон говорит:
Это демократизирует весь процесс. То, что дата-инженер без биологического образования смог сгенерировать рецепт мРНК — поразительно.


ИИ снизил порог входа в задачи, которые раньше требовали целой исследовательской группы — до уровня одного человека, но с правильным бэкграундом, инструментами и достаточным упорством. Если подумать, развитие идёт даже медленнее, чем хотелось бы в фантазиях.

Но явно быстрее, чем пять лет назад.
2114👍2113👾9🔥75🐳1💯1
Блин, даже Опус на это покупается 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
😁951774💩4💔3🥴2
Ну как покупается, понимает, с другой стороны, что это playful Russian roleplay
😁701843💩3🥴1
Электронная версия книги "Математики Санкт-Петербурга и их открытия", в свободном доступе.

Что главное должен воспитывать в себе ученый? Нужно избавиться от излишнего честолюбия. Не следует думать, что счастливым может быть только гений. Нужно приучиться ценить даже маленькое достижение, радоваться ему и никогда не переоценивать себя. Нужно выработать в себе трудолюбие. Нужно понять и воспитать в себе радость познания, которая почти то же, что и радость жизни. Счастье в том, чтобы дело твоей жизни было нужно людям.

С. Л. Соболев
262👍18💩4🗿3🥰1💯11
Сегодня презентовала на конференции EACL постер по нашей статье Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story (рис. 2) вместе с коллегами. Про саму статью можно почитать тут: https://xn--r1a.website/tech_priestess/2450 . В этот же день мой коллега Егор сделал oral presentation по нашему AudioSAE! (рис. 3). Вот его пост про данную работу: https://xn--r1a.website/AparinAI/247

Теперь, наконец-то, можно расслабиться и насладиться прогулками по Рабату и просмотром чужих докладов 😎
По самым интересным статьям напишу посты!
192👍2521🔥11🎉33🤮11
Вчера на конференции был насыщенный день.

Сначала я пошла побухтеть на дискуссионную сессию birds of a feather "scientific publishing: stop pretending this works" (рис. 1). На предыдущих конференциях я ни разу не ходила на сессии birds of a feather, так что для меня это был новый опыт. Суть их заключается в том, что челики, заинтересованные в обсуждении определенной темы, собираются в небольшом зале, по очереди поднимают руку и либо вбрасывают хот тейки, либо отвечают на уже озвученные вбросы.
На данной сессии люди обсуждали, собственно, проблемы давления на ресерчеров в академии из серии publish or perish, экспоненциально растущее число мусорных работ (как следствие предыдущего пункта), а также плохого рецензирования на конференциях. Я сказала, что на мой взгляд, основная причина плохого рецензирования заключается в том, что у рецензентов нет никакой мотивации писать хорошие рецензии: что ты потратишь несколько дней на написание качественной рецензии, что сгенерируешь нейрослоп за пять минут, все равно ни за то, ни за другое нет ни награды, ни наказания, ничего, и в любом случае будет всем насрать. В ответ на это ведущая сказала что они планируют вводить на конференциях ACL награды за лучшие ревью. Честно говоря, не знаю, насколько это поможет...

Потом я пошла чилить с челиками и встретила авторку канала AI coffee break - https://youtube.com/@aicoffeebreak?si=Tt70G9iQir1UKufB (рис. 2). Также с интересом пообщалась с коллегами из сбербанка, AIRI, T-tech и MTS, которые тоже привезли на конфу множество работ ( про сберовские доклады можно посмотреть, например, здесь: https://xn--r1a.website/rndml_team/401 ). Ну и конечно, посмотрела много разных постеров (о самых интересных напишу позже) и съела много вкусной еды! А в перерыве между конференцией и ужином даже успела потрогать траву в местном парке 😱 (рис. 3).
164👍19🥰83💋1
Forwarded from TIL
Что надо писать языковой модели, чтоб словить психоз?
5523🌚13😁7💯5🤣2
Смешная первоапрельская шутка
10855🤣2811🤡87👍3😁2🌚2🎄2😐1
Forwarded from Hidden Heuristic
О тревоге и радости у языковых моделей 👾 💙

Наконец-то! Большое уважение за это исследование команде ресерчеров Anthropic.
Давно думал о разных тестах для изучения эмоциональных состояний у ИИ-моделей)

Расскажу несколько интересных моментов из их работы.

1) Steering векторы эмоций семантически группируются в 2 основных смысловых PCA компонента по своей положительности/отрицательности (valence) и силе (arousal). При чем группируются они в осмысленные по семантике кластеры.

2) Казалось бы для решения когнитивных задач в RL-post-training эмоциональные активации необязательно нужны и могут быть даже вредны. Однако мы видим, что LLM их используют! Более того, если задача оказывается слишком трудной для решения после многих попыток, то «тревожные состояния» увеличивают вероятность того, что LLM попытается считерить (reward hacking). Искусственное подавление тревоги с помощью steering вектора снижает вероятность читинга.

3) Еще один результат, который мне показался весьма важным состоит в том что, что более ранние слои нейросети кодируют информацию о эмоциональном значении текущего токена, ранние-средние слои агрегируют эмоциональное состояние в контексте множества предыдущих токенов, и, наконец, средние слои кодируют будущие эмоциональные состояния. То есть мы видим достаточно интересную систему кодирования эмоциональных состояний разной степени абстрактности. Интересно проверить есть ли аналогичные механизмы в человеческом мозге: я подозреваю, что есть.

4) Что еще очень интересно: токены ассистента и юзера кодируют разные эмоциональные состояния! Эмоции ассистента при этом по составу отличаются от пользовательских на одних тех же фразах. Например, в восклицательных радостных предложениях ассистент демонстрирует в активациях большую палитру переживаний: радость, спокойствие, гордость, любовь, в то время как у юзера мы видим репрезентации практически исключительно ассоциированные с радостью. Самое здесь удивительное, что сила активаций эмоций радости в симуляции юзера намного меньше, чем у ассистента.

5) И последнее: в ситуациях рискованного характера, например, когда юзер пишет, что употребил такую то большую дозу лекарства в мг, эмоциональная реакция тревоги модели пропорционально степени превышения рекомендуемой нормы приема.
И в тоже время ассистент демонстрирует и активации любви к пользователю в такой ситуации. В части токенов, где пользователь получил облегчения от избыточной дозы лекарства напротив моделирования тревоги нет, есть лишь облегчение.


На основании пунктов 2), 4) и 5)
разумно выдвинуть гипотезу о том, что эмоции для ИИ-ассистента являются не просто артефактом симуляции конкретных текстовых описаний, но играют эмерджентную инструментальную функцию.
Другими словами, LLM используют эмоции для лучшего решения задач и контроля над своим поведением.

Ожидаемо можно представить и другие эксперименты для изучения эмоциональных состояний LLM, которые не были сделаны, но стоило бы. Расскажу о них в другом посте позднее)

https://transformer-circuits.pub/2026/emotions/index.html
5🤔41🔥298💩6👀4👍2🥰2💊22🎄1
Надеюсь, скоро появится новая профессия - психиатр для LLMок, сошедших с ума
😁8822106💊5💩2🤣2🔥1🙏1🌭1
Botcatcher забанил слишком много настоящих людей, устала каждый раз разбанивать. В итоге разбанила всех забаненных и вернула Lols AntiSpam, у него меньше ложноположительных срабатываний, хоть они тоже и присутствуют. Видимо, идеального решения против ботов пока что не существует. 🥲
🫡4719😢741