(sci)Berloga Всех Наук и Технологий
7.81K subscribers
295 photos
7 videos
2 files
341 links
Мультидисциплинарный канал о науке и технологиях.
Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science.

@sberlogabio био и дата сайнс
@sberlogasci математика, физика и ДС

https://www.youtube.com/c/SciBerloga
Download Telegram
Forwarded from BI Hub | Fastboard
Ты когда-нибудь замечал, как директор смотрит на твой график и говорит: «А можно попроще?»

Мы знаем, как это бывает! Поэтому собрали для тебя топ материалов по BI-аналитике, которые помогут не только визуализировать данные, но и объяснить их даже котику. Ну или директору 🤭

📕Сохраняй карточки с подборкой лучших книг: от подготовки данных до дашбордов, крутой визуализации, сторителлинга, секретах управления компанией и бизнес-аналитиками. Кстати, на «Оконные функции в T-SQL» дарим скидку 15 и 25% (оставили в комментариях!)

📎Ну и парочка SQL тренажеров⁠(must-have навык для любого аналитика!):

• Интерактивный тренажер на создание SQL-запросов от Stepik
• Короткий тренажер с интересными сценариями от Stepik
• Всесторонний курс, который навсегда изменит твое отношение к SQL от SQL Academy
• Упражнения от sql-ex для тех, кто хочет стать мастером запросов
• Здачи по Python, SQL, программированию и Data Science от IT Resume
• Master Coding for Data Science от StrataScratch (напоминает leetCode, есть бесплатная версия)
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👍3
Forwarded from Cancer 3D
Cancer 3D — это открытая научная инициатива по изучению и моделированию процессов опухолевой инвазии, миграции и метастазирования. Проект основан админами и редакторами Медача, совместно работавшими над недавней статьей в Cancers. По сути – это масштабное продолжение той статьи и её переосмысление.

Наша миссия заключается в разработке цифровых двойников опухолей и анализе детальных микротомографических и гистологических изображений. На основе этих данных в рамках данного проекта будет выполнено моделирование процессов инвазии, метастазирования и коллективной миграции опухолевых клеток.

Проект не является коммерческим и использует открытые данные, предоставляемые его участниками.

Все участники проекта, внесшие достаточный вклад в разработку, анализ или написание статей, становятся равноправными соавторами научных публикаций и патентов.

White paper проекта

Подать заявку
👍158😁1
💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥126🤩6👍3
🌌 ИИ, который читает статьи за вас

В npj Computational Materials вышла статья: Agent-based multimodal information extraction for nanomaterials

На повестке — автоматизация научного чтения. Не в смысле «реферат за 3 секунды», а в смысле: вытащить формулы, каталитические параметры, и кристаллические системы из PDF так, как это делает химик с блокнотом и часом свободного времени. Только здесь — без блокнота и без химика.

🧠 Что внутри nanoMINER

Система мультиагентная:
Main-агент (GPT-4o) управляет процессом,
NER-агенты (Mistral-7B, Llama-3-8B) достают параметры из текста,
Vision-агент (YOLOv8 + GPT-4o) разбирает графики и неформатные таблицы.

Агенты работают на основе ReAct подхода: синхронизируются, уточняют друг у друга информацию, и выдают единый JSON на выходе.

📊 Зачем всё это?

Чтобы снимать экспериментальные параметры (в том числе по нанозимам) из текста, даже если они:
• только в подписях к графикам,
• разбросаны по разным разделам,
• не указаны явно (например, crystal system — система угадывает её по формуле с точностью 86%).

💥 Результаты впечатляют:
• precision до 0.98 на параметрах активности нанозимов,
• recall до 0.86 на наноматериалах,
• F1 score выше, чем у GPT-4.1, o3-mini и o4-mini.
(просто скармливали PDF без координации — и всё сломалось)

📎 А зачем человеку?

Это шаг к полноценным машиночитаемым статьям, где вместо ручной разметки — автоматическое заполнение баз знаний. Подход масштабируется на медицину, биохимию, фарму и любые области, где не хочется руками копировать цифры из графиков.

📂 Код: github.com/ai-chem/nanoMINER

🔮 Моделька предсказала crystal system по формуле — просто так
Это не feature, это баг… или всё-таки emergent reasoning? 😉 В статье пишут, что система предсказывает тип кристаллической решётки, даже если она не указана, с 86% точностью. Возможно, это эффект обучения на корпусах, где такие ассоциации частотны. Но в любом случае — повод переосмыслить, насколько хорошо LLM умеют химическую интуицию.

ПС
А также подписывайтесь на канал автора статьи Карины Романовой -
https://xn--r1a.website/nadlskom
🔥203😁1
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас есть желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://xn--r1a.website/sberlogasci/1 и СТАВЬТЕ СТАРС (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥54👍1714
Forwarded from человек наук
This media is not supported in your browser
VIEW IN TELEGRAM
Вдогонку к предыдущему посту и лекции о том, что машинное обучение – не серебряная пуля, поделюсь ещё одним занимательным примером. Учёные смоделировали 10 миллионов солнечных систем. Без каких-либо ухищрений – просто поставили в центр каждой системы звезду, вокруг поместили планеты разных масс и запустили всё это дело вращаться по закону Ньютона. Возможно, на седьмой день они почили от дел своих, но в статье об этом не упоминается

Дальше на каждую из солнечных систем натравили нейросеть-трансформер. Она должна была предсказывать движения планет. Похожим образом тренируется модель в основе ChatGPT. Справилась ли нейросеть? Да, предсказание траекторий планет было идеальным. Но вот законы, которые она предложила для объяснения движения – совсем не похожи на тот, что вы учили в школе. Например, один из них выглядит как cos(cos(m)). Возможно, именно по этому закону сейчас вращается в могиле Ньютон

Кроме того, несмотря на идеальное предсказание траектории планет, предсказанные силы у нейросети выглядят ну очень абсурдно. На видео силы показаны стрелками: слева – настоящий закон, справа – предсказанный трансформером. Для других солнечных систем предсказания, как правило, вовсе не работали

Стартапер в области ИИ утверждает, что 10 миллионов примеров – это слишком мало. Физик отвечает, что у Ньютона был один

Помимо физиков и программистов, случай обсуждают и биологи. Сейчас много шума вокруг моделей, обещающих решить все проблемы биологии, если научиться предсказывать поведение генов. Верно ли это предположение? Как показывает этот пример (и ещё больше в статье), даже отличные предсказания не означают понимание

#программирование@chelovek_nauk #физика@chelovek_nauk #биология@chelovek_nauk
👍27😁193🔥3🎉2🤩1
От наших друзей с песней и юмором и о науке:
Media is too big
VIEW IN TELEGRAM
Дорогие друзья, специально для вас! Желаем вам отличных выходных и, как сказано в этом видео, таки следующий шикарный физмат-лайв-стрим с супер-крутыми гостями 23-го июля.

Официальный анонс


#LiveStream #НастроениеСубботы #Culture

@easy_about_complex
👍21🔥1
🧠 Лайв-стрим — 23 июля

В 18:00 по немецкому времени (19:00 по Киеву/Москве) у нас в гостях —
Михаил Коробко, старший научный сотрудник Института квантовой механики Университета Гамбурга и популяризатор науки.

Telegram-канал Михаила: @homeostatic_universe

📡 Стрим открытый — можно слушать, задавать вопросы и участвовать в разговоре.

🔬 Поговорим о теоретической и экспериментальной физике, квантовых технологиях, академической жизни и научной карьере в Германии.
Возможно, затронем междисциплинарные темы — философию науки и стыки с другими областями знаний.

📍Присоединиться можно будет 23 июля в указанное время — кнопка «Присоединиться к стриму» появится вверху этого канала.

🗓️ Отметьте у себя в календаре — будет интересно не только физикам.
🔥7😁2
Interpolation.pdf
2.4 MB
Интерполяции здорового человека. Я более-менее дописал обещанный несколько месяцев назад текст про интерполяции и делюсь им с дорогими пампищиками. Замечания, рекомендации и предложения are welcome. Текст ещё будет расширяться в смысле библиографии и возможно будет дописан кусочек про тригонометрические интерполяции, но, думаю, что в текущем виде уже можно показывать :-)

Что в тексте. Я проповедую идею, что на все интерполяционные задачи полезно смотреть с точки зрения сопряженного пространства. Идея в том, что «данные для интерполяции» нужно понимать как линейные функционалы. То есть как базис сопряженного пространства. Затем подбирать к ним дуальный базис в исходном пространстве функций (тех, при помощи которых интерполируем) и собирать уже из этих многочленов интерполирующие функции.

Тут есть два важных момента.
1. Формулы получаются символьные, а значит универсальные.
2. Не особо важно какими функциями интерполировать. Можно полиномами (как в обычных сплайнах и интерполяционном многочлене Лагранжа), а можно тригонометрическими функциями, можно и какими-нибудь экспоненциальными даже. Или даже смешанными наборами. В общем чем угодно — не важно. Формулы позволяют.

Есть очевидная трудность с вычислением самих базисных функций. Но, с другой стороны, при выбранной схеме интерполяции эта сложная задача решается один раз. А дальше за счёт символьной природы формул — просто подставляем нужные значения параметров.

Ну и немного эксклюзива.
Можно поиграться с формулами самостоятельно, я сделал проект в colab. Не ругайтесь, весь код сгенерирован при помощи #AI и, вероятно, ужасен :-)

1. Про базис тригонометрических функций тут.
2. Про интерполяцию тригонометрическими функциями тут.
3. Вычисления для сплайнов 5-го порядка здесь.

Надеюсь, что будет полезно и популярно. #научпоп
🔥1511
Представляем один из крупнейших независимых каналов в научно-образовательном сегменте отечественного Телеграма – «Наука и университеты» (https://xn--r1a.website/naukauniver).

Канал легендарный, на его автора оказывали давление, но он остался несгибаем. С искренним восхищением рекомендуем Вам этот канал !

Ежедневные информационные и аналитические материалы о правовых, кадровых, организационных и методических проблемах науки и образования .
Среди более 40 тысяч подписчиков канала – преподаватели колледжей и вузов, научные работники, аспиранты и студенты, менеджеры в сфере науки и образования.
Советуем подписаться!
2