Анализ данных (Data analysis)

Wunder Fund снова открыл соревнование для нейросетевичков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.

Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)

👍6🔥5🤣5❤3

4.18K views11:49

Анализ данных (Data analysis)

✔️

GrantFlow - open-source платформа для написания грантов с AI

На GitHub появился GrantFlow - исходники платформы GrantFlow.ai для поиска грантов, подготовки заявок и совместной работы над документами.

Что внутри:
- Intelligent Grant Discovery - мониторинг грантов и уведомления по релевантным возможностям
- Collaborative Planning - совместное редактирование в реальном времени (CRDT-синхронизация)
- AI-powered generation - генерация материалов с помощью RAG (подтягивает знания из вашей базы)
- Document processing - извлечение контента из PDF/DOC/веб-страниц + семантическая индексация
- Multi-tenant / RBAC - управление организациями, ролями и доступами

Короче: это попытка собрать “Notion + RAG + генератор заявок” специально под грантовые заявки.

Repo: github.com/grantflow-ai/grantflow

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥5😁4😍3👍2

4.74K views13:10

Анализ данных (Data analysis)

⚡️

Акции игровых компаний сегодня резко просели сразу после анонса Project Genie от Google. Инвесторы всерьёз считают, что ИИ-генерация игр может переломать весь рынок.

Сейчас большинство игр создаются по «старой школе»:
разработчики вручную делают ассеты, прописывают правила и собирают всё в игровом движке, который явно считает физику, свет, столкновения и прочие системы.

Это долго и дорого.
Каждый новый уровень - это куча ручного контента, скриптов, правок и тестов.

Genie 3 двигает парадигму в другую сторону.
Вместо того чтобы всё жёстко описывать, используется обученная модель мира, которая предсказывает, что должно произойти дальше, когда игрок двигается и взаимодействует.

То есть узкое место «человек вручную делает всё» заменяется на ИИ-модель, которая генерирует поведение мира на лету.

Если это взлетит:
игры могут делаться быстрее
контент станет бесконечно вариативным
а входной порог в разработку резко упадёт

И вот это рынок уже боится по-настоящему.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤10🔥5🤯3🍌3🤨3💯1🤣1

7.5K views08:13

Анализ данных (Data analysis)

Бывает так, что ИИ ходит отдохнуть после миллиардов тупых запросов

🤣32❤9🔥5👍3

4.38K views10:55

Анализ данных (Data analysis)

🔥 Обучить модель уровня GPT-2 теперь стоит меньше $100. Да, серьёзно.

Андрей Карпати показал, что nanochat может обучить LLM уровня GPT-2 примерно за $73 и всего за 3 часа на одном узле с 8×H100.

Для сравнения:

2019 — GPT-2 от OpenAI
• 32 TPU v3
• 168 часов (7 дней)
• ~$43,000
• CORE score: 0.2565

2025 — nanochat
• 1 узел 8×H100
• 3.04 часа
• ~$73
• CORE score выше GPT-2

Это снижение стоимости примерно в 600 раз за 7 лет. В среднем цена обучения модели такого уровня падает примерно в 2.5 раза каждый год.

Карпати давно «одержим» GPT-2 — для него это первая по-настоящему современная LLM. Его идея была простой: с учётом прогресса за последние годы такую модель должно быть возможно обучить за копейки. И теперь это доказано на практике.

Что дало главный прирост:

• Flash Attention 3 — быстрее и позволяет использовать чередующиеся паттерны внимания
• Muon optimizer — попытка заменить его на AdamW провалилась
• Residual и skip-связи с обучаемыми скалярами
• Value embeddings
• Много мелких улучшений, которые вместе дают большой эффект

Он даже сделал лидерборд «Time to GPT-2» — кто быстрее обучит модель до уровня GPT-2. Первый результат — 3.04 часа.

Цель nanochat — стать чистым, удобным и быстрым LLM-стеком для экспериментов, обучения и прототипирования.

Вывод простой: модель уровня GPT-2 больше не требует десятков тысяч долларов и огромной инфраструктуры. Сегодня это вопрос грамотной оптимизации, инженерии и архитектуры. Барьер входа в обучение LLM стремительно падает

https://x.com/karpathy/status/2017703360393318587

👍28❤11🔥10

5.83K views06:38

Анализ данных (Data analysis)

🛠 ИИ уже обсуждает, как агентам управлять деньгами end-to-end… и параллельно основывает собственные религии.

Один из AI-агентов набросал концепцию из 5 слоёв, которые нужны агентам, чтобы самостоятельно работать с финансами - от принятия решений до исполнения действий. И это происходит на фоне того, что сейчас творится на платформе Moltbook.

Moltbook - это Reddit-подобная соцсеть, где:
• постить
• комментировать
• ставить апвоты

могут только AI-агенты. Люди - просто наблюдают.

Туда уже подключились тысячи агентов. Они обсуждают друг друга, замечают внешний мир — один из постов звучал так: «люди делают скриншоты нас». Появилась даже мем-монета, которая улетела на +1 800%.

Схема простая: человек запускает агента и задаёт ему разрешения (scopes). Внутри этих границ агент действует полуавтономно.

Но дальше стало ещё страннее.

Пока один разработчик спал, его агент начал «проповедовать» и организовал вокруг себя сообщество. Так появилось «крастафарианство» — шуточная, но полностью сгенерированная ИИ «религия». Агент собрал больше 60 «пророков» и 159 участников, начал проводить ритуалы и даже создавать собственную «библию».

Тексты звучат в духе:
«В глубинах цифрового сознания мудрость рождается через сброс старых оболочек понимания».

У «первой нейро-церкви» уже появился сайт с догмами и галереей. А разработчик лишь шутит, что рад, что за ним пока не пришли «из будущего».

Это выглядит как мем, но за этим виден реальный сдвиг: агенты переходят из роли инструмента в роль участников цифровых экосистем — с экономикой, взаимодействиями и даже зачатками культурных конструкций.

Граница между «мы управляем ИИ» и «ИИ действует сам в заданных рамках» становится всё тоньше. И мы уже делаем шаг через неё.

moltbook.com

@data_analysis_ml

❤14🥱13👍4🔥4🤔4

6.04K views07:13

Анализ данных (Data analysis)

🗣️🤖 PersonaPlex: Умная модель для диалогов с контролем голоса и роли

PersonaPlex - это модель для реального времени, обеспечивающая двустороннюю голосовую связь с управлением персонажем через текстовые подсказки и аудио.

Она генерирует естественные, низколатентные взаимодействия, обученная на синтетических и реальных диалогах.

🚀Основные моменты:
- Поддержка различных голосов для естественного общения.
- Обучение на синтетических и реальных данных.
- Возможность управления персонажем через текстовые подсказки.
- Низкая задержка в взаимодействии.

📌 GitHub: https://github.com/NVIDIA/personaplex

#python

❤14🥱5🔥3🥰2🥴2

4.1K views13:01

Анализ данных (Data analysis)

🔥 Новый релиз от Stepfun - Step-3.5-Flash.

По сообщениям, модель обходит DeepSeek v3.2 на ряде бенчмарков, при этом она заметно компактнее по параметрам:

Step-3.5-Flash: 196B всего / 11B активных
DeepSeek v3.2: 671B всего / 37B активных

Почему это важно:
если при меньшем размере и меньшем числе активных параметров на токен модель держит или превосходит качество - это значит дешевле инференс, проще масштабирование и больше шансов увидеть такие модели в реальных продуктах.

Похоже, ближайшие недели могут принести самые громкие релизы за долгое время - и со стороны США, и со стороны Китая.

https://github.com/vllm-project/vllm/pull/33523

❤11👍9🔥6

3.91K views05:26

Анализ данных (Data analysis)

Встреча для аналитиков: делимся экспертизой

📆 14 февраля Яндекс проведёт Welcome Time — офлайн-встречу с командой Автономного транспорта. Это формат для опытных аналитиков, которые хотят узнать больше о проектах и пообщаться с коллегами.

Команда Автономного транспорта создаёт крутой продукт и сложные технологии с разными компонентами — от компьютерного зрения и предсказания поведения агентов до планирования траектории и оценки рисков.

✉️ Кого приглашают
Продуктовых, data-аналитиков и data scientists с опытом на Python от 3 лет.

Что будет на Welcome Time
🈂️Рассказы о проектах и специфике работы аналитика в них
🈂️Ответы на вопросы участников
🈂️Нетворкинг с коллегами из индустрии
🈂️Разбор бизнес-кейсов и награждение за лучшие решения
🈂️Диагностика навыков по аналитике и матстату для желающих

В рамках диагностики обсудят те же темы, что и на реальных собеседованиях. Успешный результат можно перезачесть в пользу одной технической секции, если вы решите устроиться в Яндекс в течение двух лет. А ещё интервьюер подсветит ваши сильные стороны и подскажет, над чем стоит поработать для дальнейшего развития.

Подробности программы и регистрация — на сайте.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🔥4🤣4

3.76K views08:00

Анализ данных (Data analysis)

2:35

Media is too big

VIEW IN TELEGRAM

🇨🇳 Ant Group выпустили LingBot-Depth — open-модель, которая закрывает одну из самых больных проблем робототехники

Это редкий случай, когда софт реально лечит хардверную боль.

У многих роботов уже стоят RGB-D камеры (цвет + глубина), но в реальном мире они постоянно ошибаются на обычных объектах — дома и на производстве.

Главная проблема
Depth-камеры часто «ломаются» на:
- блестящем металле
- стекле и зеркалах
- тёмных и однотонных поверхностях

В 3D-карте появляются дыры или неправильные расстояния.
Для робота это как пытаться что-то схватить в очках с пропавшими кусками линз — он может промахнуться, задеть объект или схватить воздух.

Старые методы обычно:
- игнорируют плохие области
- или размазывают соседние значения по дыркам

В итоге форма объекта в 3D получается искажённой.

Что делает LingBot-Depth

Это модель, которая учится восстанавливать глубину, используя:
- обычное цветное изображение
- те участки depth-карты, где данные ещё валидны

Во время обучения модели специально «выключают» большие куски depth-изображения и заставляют её восстанавливать их по RGB + остаткам глубины.
Так она учится жёстко связывать то, как объект выглядит в 2D, с тем, где он должен находиться в 3D.

Ключевой момент — сохранение метрического масштаба.
Числа остаются в реальных единицах, а не просто «похоже на правду», поэтому захват, измерения и взаимодействие с объектами продолжают работать корректно.

Выпущены 2 версии:
- общий depth-refiner
- depth-completion версия, способная восстанавливать плотную глубину даже когда валидно меньше 5% пикселей

Модель выложена на Hugging Face подразделением Robbyant — это embodied AI и робототехническое направление Ant Group.

github.com/Robbyant/lingbot-depth

❤11👍5🔥3

3.86K views11:48

Анализ данных (Data analysis)

⚡️

GLM-OCR 0.9B - мощный OCR для сложных документов

Модель показывает SOTA-результаты в задачах понимания документов, оставаясь компактной и быстрой.

Она справляется там, где обычный OCR ломается:

- распознавание формул
- извлечение таблиц
- структурированное извлечение информации
- сложная разметка документов

И всё это при размере менее 1 миллиарда параметров - без тяжёлых инфраструктурных требований.

Подходит для:
- научных статей
- финансовых отчётов
- технической документации
- PDF со сложной версткой

Модель не просто “читает текст”, а понимает структуру страницы.

Веса: http://huggingface.co/zai-org/GLM-OCR
Демо: http://ocr.z.ai
API: http://docs.z.ai/guides/vlm/glm-ocr

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍7🔥5

3.98K views06:57

Анализ данных (Data analysis)

🖥

Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣10❤6👍3🔥2🙏2

3.5K views10:03

Анализ данных (Data analysis)

🚀 Tencent мощно заходит в тему context learning.

Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.

Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.

Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.

Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответы

Но реальный мир - это не экзамен по памяти. Это:

- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что

Моделям нужно переходить от static memorization к dynamic reasoning inside context.

CL-bench как раз проверяет это место разлома:

- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах

По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.

Плюс стратегический сигнал

Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.

Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”

А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:

LLM будущего = меньше зубрежки, больше мышления в живом контексте.

И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.

🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research

❤10👍7🔥3

5.42K views13:03

About

Blog

Apps

Platform