Forwarded from Математика не для всех
Гибкость в дизайне исследований также играет ключевую роль. Например, если в клиническом испытании можно менять критерии включения и исключения пациентов или анализировать данные разными способами, то вероятность получения "положительного" результата возрастает, даже если эффект отсутствует. Это особенно заметно в области исследований новых лекарственных препаратов, где компании могут выбирать методики анализа, которые показывают их продукт в наилучшем свете.
Финансовые интересы оказывают мощное влияние на результаты научных исследований. Например, фармацевтические компании заинтересованы в том, чтобы их препараты демонстрировали положительные результаты, что может приводить к предвзятости в выборе данных или методов анализа. Аналогичная ситуация наблюдается и в пищевой промышленности: исследования, финансируемые производителями сахара, часто приходят к выводу, что жиры вреднее сахара, тогда как независимые исследования показывают обратное.
В "горячих" научных областях с большим числом исследовательских групп конкуренция за публикации также ведет к снижению надежности результатов. Например, в области геномных исследований шизофрении десятки групп работают над выявлением генов, связанных с заболеванием. Даже если отдельное исследование демонстрирует статистически значимую ассоциацию, вероятность ее истинности остается низкой. Если десять групп независимо проведут такие же эксперименты, вероятность того, что хотя бы одна из них найдет "значимый" результат, высока просто из-за случайности.
Что делать?
Для решения этой проблемы Иоаннидис предлагает несколько подходов. Важно увеличивать мощность исследований за счет проведения крупных выборок или мета-анализов с низким уровнем предвзятости. Регистрация исследований до их проведения позволит снизить вероятность избирательной публикации только "интересных" результатов. Также необходимо более осмысленно подходить к оценке гипотез перед началом исследования и повышать стандарты научных работ.
Основной вывод статьи заключается в том, что современная научная практика требует пересмотра. Одного лишь достижения статистической значимости недостаточно для подтверждения гипотезы. Необходимо учитывать вероятность истинности результатов и критически относиться к опубликованным данным. Иоаннидис призывает научное сообщество к более строгим стандартам исследований и отказу от слепой погони за сенсациями, чтобы наука могла выполнять свою основную функцию — поиск объективной истины.
Финансовые интересы оказывают мощное влияние на результаты научных исследований. Например, фармацевтические компании заинтересованы в том, чтобы их препараты демонстрировали положительные результаты, что может приводить к предвзятости в выборе данных или методов анализа. Аналогичная ситуация наблюдается и в пищевой промышленности: исследования, финансируемые производителями сахара, часто приходят к выводу, что жиры вреднее сахара, тогда как независимые исследования показывают обратное.
В "горячих" научных областях с большим числом исследовательских групп конкуренция за публикации также ведет к снижению надежности результатов. Например, в области геномных исследований шизофрении десятки групп работают над выявлением генов, связанных с заболеванием. Даже если отдельное исследование демонстрирует статистически значимую ассоциацию, вероятность ее истинности остается низкой. Если десять групп независимо проведут такие же эксперименты, вероятность того, что хотя бы одна из них найдет "значимый" результат, высока просто из-за случайности.
Что делать?
Для решения этой проблемы Иоаннидис предлагает несколько подходов. Важно увеличивать мощность исследований за счет проведения крупных выборок или мета-анализов с низким уровнем предвзятости. Регистрация исследований до их проведения позволит снизить вероятность избирательной публикации только "интересных" результатов. Также необходимо более осмысленно подходить к оценке гипотез перед началом исследования и повышать стандарты научных работ.
Основной вывод статьи заключается в том, что современная научная практика требует пересмотра. Одного лишь достижения статистической значимости недостаточно для подтверждения гипотезы. Необходимо учитывать вероятность истинности результатов и критически относиться к опубликованным данным. Иоаннидис призывает научное сообщество к более строгим стандартам исследований и отказу от слепой погони за сенсациями, чтобы наука могла выполнять свою основную функцию — поиск объективной истины.
🔥14👍7❤1😁1
Forwarded from Alexander C
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 L. Peshkin (Harvard Medical School) "Principal Compounds: A scalable Pharmaco-biology + Machine Learning approach to Reverse Engineering of Molecular Circuits underlying Macro-Phenotypes"
⌚️ 19 Марта Среда, 19.00 по Москве (17.00 CET)
Add to Google Calendar
Доклад будет посвящен некоторой задаче на стыке фармакологии, машинного обучения, теории информации и кодирования , решение которой будет иметь практические применения для тестирования и понимания эффекта компаундов.
Следующие публикации рекомендуются к прочтению:
https://pubmed.ncbi.nlm.nih.gov/24707051/
https://www.biorxiv.org/content/10.1101/2020.09.26.312348v1
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 L. Peshkin (Harvard Medical School) "Principal Compounds: A scalable Pharmaco-biology + Machine Learning approach to Reverse Engineering of Molecular Circuits underlying Macro-Phenotypes"
⌚️ 19 Марта Среда, 19.00 по Москве (17.00 CET)
Add to Google Calendar
Доклад будет посвящен некоторой задаче на стыке фармакологии, машинного обучения, теории информации и кодирования , решение которой будет иметь практические применения для тестирования и понимания эффекта компаундов.
Следующие публикации рекомендуются к прочтению:
https://pubmed.ncbi.nlm.nih.gov/24707051/
https://www.biorxiv.org/content/10.1101/2020.09.26.312348v1
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🔥13❤7👍1
Forwarded from BI Hub | Fastboard
Ты когда-нибудь замечал, как директор смотрит на твой график и говорит: «А можно попроще?»
Мы знаем, как это бывает! Поэтому собрали для тебя топ материалов по BI-аналитике, которые помогут не только визуализировать данные, но и объяснить их даже котику.Ну или директору 🤭
📕 Сохраняй карточки с подборкой лучших книг: от подготовки данных до дашбордов, крутой визуализации, сторителлинга, секретах управления компанией и бизнес-аналитиками. Кстати, на «Оконные функции в T-SQL» дарим скидку 15 и 25% (оставили в комментариях!)
📎 Ну и парочка SQL тренажеров(must-have навык для любого аналитика!):
• Интерактивный тренажер на создание SQL-запросов от Stepik
• Короткий тренажер с интересными сценариями от Stepik
• Всесторонний курс, который навсегда изменит твое отношение к SQL от SQL Academy
• Упражнения от sql-ex для тех, кто хочет стать мастером запросов
• Здачи по Python, SQL, программированию и Data Science от IT Resume
• Master Coding for Data Science от StrataScratch (напоминает leetCode, есть бесплатная версия)
Мы знаем, как это бывает! Поэтому собрали для тебя топ материалов по BI-аналитике, которые помогут не только визуализировать данные, но и объяснить их даже котику.
• Интерактивный тренажер на создание SQL-запросов от Stepik
• Короткий тренажер с интересными сценариями от Stepik
• Всесторонний курс, который навсегда изменит твое отношение к SQL от SQL Academy
• Упражнения от sql-ex для тех, кто хочет стать мастером запросов
• Здачи по Python, SQL, программированию и Data Science от IT Resume
• Master Coding for Data Science от StrataScratch (напоминает leetCode, есть бесплатная версия)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥4👍3
Forwarded from Cancer 3D
Cancer 3D — это открытая научная инициатива по изучению и моделированию процессов опухолевой инвазии, миграции и метастазирования. Проект основан админами и редакторами Медача, совместно работавшими над недавней статьей в Cancers. По сути – это масштабное продолжение той статьи и её переосмысление.
Наша миссия заключается в разработке цифровых двойников опухолей и анализе детальных микротомографических и гистологических изображений. На основе этих данных в рамках данного проекта будет выполнено моделирование процессов инвазии, метастазирования и коллективной миграции опухолевых клеток.
Проект не является коммерческим и использует открытые данные, предоставляемые его участниками.
Все участники проекта, внесшие достаточный вклад в разработку, анализ или написание статей, становятся равноправными соавторами научных публикаций и патентов.
White paper проекта
Подать заявку
Наша миссия заключается в разработке цифровых двойников опухолей и анализе детальных микротомографических и гистологических изображений. На основе этих данных в рамках данного проекта будет выполнено моделирование процессов инвазии, метастазирования и коллективной миграции опухолевых клеток.
Проект не является коммерческим и использует открытые данные, предоставляемые его участниками.
Все участники проекта, внесшие достаточный вклад в разработку, анализ или написание статей, становятся равноправными соавторами научных публикаций и патентов.
White paper проекта
Подать заявку
👍15❤8😁1
Forwarded from что-то на DL-ском
Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!
Мы с коллегами
Наш доменный эксперт Сабина:
С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.
Что мы имеем по итогу статьи:
Как работает:
Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве
Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤6🤩6👍3
🌌 ИИ, который читает статьи за вас
В npj Computational Materials вышла статья: Agent-based multimodal information extraction for nanomaterials
На повестке — автоматизация научного чтения. Не в смысле «реферат за 3 секунды», а в смысле: вытащить формулы, каталитические параметры, и кристаллические системы из PDF так, как это делает химик с блокнотом и часом свободного времени. Только здесь — без блокнота и без химика.
🧠 Что внутри nanoMINER
Система мультиагентная:
— Main-агент (GPT-4o) управляет процессом,
— NER-агенты (Mistral-7B, Llama-3-8B) достают параметры из текста,
— Vision-агент (YOLOv8 + GPT-4o) разбирает графики и неформатные таблицы.
Агенты работают на основе ReAct подхода: синхронизируются, уточняют друг у друга информацию, и выдают единый JSON на выходе.
📊 Зачем всё это?
Чтобы снимать экспериментальные параметры (в том числе по нанозимам) из текста, даже если они:
• только в подписях к графикам,
• разбросаны по разным разделам,
• не указаны явно (например, crystal system — система угадывает её по формуле с точностью 86%).
💥 Результаты впечатляют:
• precision до 0.98 на параметрах активности нанозимов,
• recall до 0.86 на наноматериалах,
• F1 score выше, чем у GPT-4.1, o3-mini и o4-mini.
(просто скармливали PDF без координации — и всё сломалось)
📎 А зачем человеку?
Это шаг к полноценным машиночитаемым статьям, где вместо ручной разметки — автоматическое заполнение баз знаний. Подход масштабируется на медицину, биохимию, фарму и любые области, где не хочется руками копировать цифры из графиков.
📂 Код: github.com/ai-chem/nanoMINER
🔮 Моделька предсказала crystal system по формуле — просто так
Это не feature, это баг… или всё-таки emergent reasoning? 😉 В статье пишут, что система предсказывает тип кристаллической решётки, даже если она не указана, с 86% точностью. Возможно, это эффект обучения на корпусах, где такие ассоциации частотны. Но в любом случае — повод переосмыслить, насколько хорошо LLM умеют химическую интуицию.
ПС
А также подписывайтесь на канал автора статьи Карины Романовой - https://xn--r1a.website/nadlskom
В npj Computational Materials вышла статья: Agent-based multimodal information extraction for nanomaterials
На повестке — автоматизация научного чтения. Не в смысле «реферат за 3 секунды», а в смысле: вытащить формулы, каталитические параметры, и кристаллические системы из PDF так, как это делает химик с блокнотом и часом свободного времени. Только здесь — без блокнота и без химика.
🧠 Что внутри nanoMINER
Система мультиагентная:
— Main-агент (GPT-4o) управляет процессом,
— NER-агенты (Mistral-7B, Llama-3-8B) достают параметры из текста,
— Vision-агент (YOLOv8 + GPT-4o) разбирает графики и неформатные таблицы.
Агенты работают на основе ReAct подхода: синхронизируются, уточняют друг у друга информацию, и выдают единый JSON на выходе.
📊 Зачем всё это?
Чтобы снимать экспериментальные параметры (в том числе по нанозимам) из текста, даже если они:
• только в подписях к графикам,
• разбросаны по разным разделам,
• не указаны явно (например, crystal system — система угадывает её по формуле с точностью 86%).
💥 Результаты впечатляют:
• precision до 0.98 на параметрах активности нанозимов,
• recall до 0.86 на наноматериалах,
• F1 score выше, чем у GPT-4.1, o3-mini и o4-mini.
(просто скармливали PDF без координации — и всё сломалось)
📎 А зачем человеку?
Это шаг к полноценным машиночитаемым статьям, где вместо ручной разметки — автоматическое заполнение баз знаний. Подход масштабируется на медицину, биохимию, фарму и любые области, где не хочется руками копировать цифры из графиков.
📂 Код: github.com/ai-chem/nanoMINER
🔮 Моделька предсказала crystal system по формуле — просто так
Это не feature, это баг… или всё-таки emergent reasoning? 😉 В статье пишут, что система предсказывает тип кристаллической решётки, даже если она не указана, с 86% точностью. Возможно, это эффект обучения на корпусах, где такие ассоциации частотны. Но в любом случае — повод переосмыслить, насколько хорошо LLM умеют химическую интуицию.
ПС
А также подписывайтесь на канал автора статьи Карины Романовой - https://xn--r1a.website/nadlskom
Nature
Agent-based multimodal information extraction for nanomaterials
npj Computational Materials - Agent-based multimodal information extraction for nanomaterials
🔥20❤3😁1
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас есть желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://xn--r1a.website/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас есть желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://xn--r1a.website/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥54👍17❤14
Forwarded from человек наук
This media is not supported in your browser
VIEW IN TELEGRAM
Вдогонку к предыдущему посту и лекции о том, что машинное обучение – не серебряная пуля, поделюсь ещё одним занимательным примером. Учёные смоделировали 10 миллионов солнечных систем. Без каких-либо ухищрений – просто поставили в центр каждой системы звезду, вокруг поместили планеты разных масс и запустили всё это дело вращаться по закону Ньютона. Возможно, на седьмой день они почили от дел своих, но в статье об этом не упоминается
Дальше на каждую из солнечных систем натравили нейросеть-трансформер. Она должна была предсказывать движения планет. Похожим образом тренируется модель в основе ChatGPT. Справилась ли нейросеть? Да, предсказание траекторий планет было идеальным. Но вот законы, которые она предложила для объяснения движения – совсем не похожи на тот, что вы учили в школе. Например, один из них выглядит как
Кроме того, несмотря на идеальное предсказание траектории планет, предсказанные силы у нейросети выглядят ну очень абсурдно. На видео силы показаны стрелками: слева – настоящий закон, справа – предсказанный трансформером. Для других солнечных систем предсказания, как правило, вовсе не работали
Стартапер в области ИИ утверждает, что 10 миллионов примеров – это слишком мало. Физик отвечает, что у Ньютона был один
Помимо физиков и программистов, случай обсуждают и биологи. Сейчас много шума вокруг моделей, обещающих решить все проблемы биологии, если научиться предсказывать поведение генов. Верно ли это предположение? Как показывает этот пример (и ещё больше в статье), даже отличные предсказания не означают понимание
#программирование@chelovek_nauk #физика@chelovek_nauk #биология@chelovek_nauk
Дальше на каждую из солнечных систем натравили нейросеть-трансформер. Она должна была предсказывать движения планет. Похожим образом тренируется модель в основе ChatGPT. Справилась ли нейросеть? Да, предсказание траекторий планет было идеальным. Но вот законы, которые она предложила для объяснения движения – совсем не похожи на тот, что вы учили в школе. Например, один из них выглядит как
cos(cos(m)). Возможно, именно по этому закону сейчас вращается в могиле НьютонКроме того, несмотря на идеальное предсказание траектории планет, предсказанные силы у нейросети выглядят ну очень абсурдно. На видео силы показаны стрелками: слева – настоящий закон, справа – предсказанный трансформером. Для других солнечных систем предсказания, как правило, вовсе не работали
Стартапер в области ИИ утверждает, что 10 миллионов примеров – это слишком мало. Физик отвечает, что у Ньютона был один
Помимо физиков и программистов, случай обсуждают и биологи. Сейчас много шума вокруг моделей, обещающих решить все проблемы биологии, если научиться предсказывать поведение генов. Верно ли это предположение? Как показывает этот пример (и ещё больше в статье), даже отличные предсказания не означают понимание
#программирование@chelovek_nauk #физика@chelovek_nauk #биология@chelovek_nauk
👍27😁19❤3🔥3🎉2🤩1