Data Science. SQL hub
35.9K subscribers
1.08K photos
83 videos
37 files
1.11K links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

#VRHSZ
Download Telegram
🚀 Cursor сделал regex-поиск мгновенным

Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс

И главное:
они не ускоряли regex
они убрали лишний поиск

🧠 Как это работает

- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex

👉 большинство файлов вообще не открывается

🔥 Ключевая идея - sparse n-grams

- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес

💾 Всё локально

- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map

Скорость даёт не regex
а умный отбор файлов до поиска.

https://x.com/cursor_ai/status/2036122609931165985
👍7🔥53🤔2😁1
⚡️ Alibaba DAMO Academy (лаборатория, которая создала Qwen) открыла исходный код AgentScope - Python-фреймворка для построения систем из нескольких AI-агентов.

Чем он отличается от остальных:
Вы описываете задачу - система строит архитектуру сама. Планировщик, исследователь, программист, критик - каждый агент получает свои инструменты, память и логику рассуждений.

Они работают в связке и возвращают готовый результат.

Что внутри из коробки:
• Визуальный конструктор агентов, проектируете систему до написания кода
• Поддержка MCP-инструментов - подключаете любые внешние сервисы напрямую
• Встроенная память - агенты помнят контекст, решения и историю между сессиями
• RAG-конвейер - подключаете свои документы и базы знаний
• Модули рассуждений - агенты планируют, рефлексируют и исправляют ошибки без участия человека

Это фреймворк, где агент - первичная единица мышления с самого начала проектирования.

Лицензия: Apache 2.0. Полностью бесплатно.

https://github.com/agentscope-ai/agentscope

🎯Полезные ресурсы 🚀 Max

@sqlhub
👍2🔥21
Сколько времени обычно уходит на сборку полноценной data-архитектуры? Дни, недели или даже месяцы?

2 апреля команда Yandex Cloud покажет, как развернуть Lakehouse по клику и получить рабочую аналитическую архитектуру без долгой интеграции разрозненных инструментов.

В основе — единый стек:
raw-данные в Object Storage (S3);
табличный слой на Iceberg;
обработка через Trino и Spark;
интерактив — витрины в ClickHouse и BI.

Зачем приходить

— Поймёте, как выглядит целевая архитектура «от данных до BI» и как собрать её без лишней ручной интеграции

— Получите практические ответы «как делать правильно»: Iceberg, ingestion, метаданные и доступы

— Услышите опыт крупного бизнеса: где «чистый Lakehouse» достаточен, а где нужен слой витрин (Magnit Tech, F&R, десятки петабайт)

— Разберёте паттерны для низкой латентности и потоковых сценариев: витрины, ClickHouse + Kafka, интеграции с BI

— Узнаете, что дальше по roadmap: Iceberg REST Catalog (управляемость/контроль доступа) + AI‑агенты для работы с кодом и пайплайнами + как попасть в лист ожидания

— В конце — Q&A и сбор заявок на воркшопы/пилоты после митапа

Бонусом вас ждут практические рекомендации по производительности и развитие платформы, включая AI-ускорение ETL/ELT. Для команд, которые строят или модернизируют DWH/Lakehouse и хотят сократить время, это маст!

Всё бесплатно, регистрируйтесь тут.
😁51👍41😱1
⚡️ Anthropic на конференции показали, как Claude сам находит zero-day уязвимости.

Взяли не абы что, а Ghost - проект, у которого за всё время не было ни одной критической дыры.

Claude понадобилось ~90 минут, чтобы найти SQL-инъекцию и добраться до админского API.

И на этом он не остановился.

Дальше - тот же подход применили к ядру Linux.

Это уже не “помощник разработчика”.
Это автономный инструмент для поиска уязвимостей.

https://github.com/tryghost/Ghost
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74🤯4👍2
🚀 Выложили в open source крупнейшую базу интеграций для AI-агентов.

- 47 000 действий для агентов в 250+ приложениях
- Подключения к Slack, GitHub, Gmail, Stripe, Discord, Google Sheets и другим сервисам
- Все действия проверены, агент больше не «галлюцинирует» API
- Разворачивается одной CLI-командой: подключил один раз — используешь везде

Это тот самый слой интеграций, которого агентам давно не хватало.

https://github.com/withoneai/cli
🔥41👍1
МосХаб.Сколково — точка сборки ИТ-сообщества и пространство для открытого диалога отрасли, города и общества. Здесь обсуждения превращаются в решения и реальные проекты.

Рассказываем о мероприятиях, прошедших на площадке за последнее время.

🔴 VI Международный форум «Умный город — безопасная среда» и первая Национальная премия «Безопасный город». Москва взяла Гран-при и две награды: Mos.Hub победил в номинации «Сделано в России», городская система видеоаналитики в Москве — в «Технологиях будущего».

🔴Конференция издания «Компьютерра», которая была посвящена практическому применению ИИ в бизнесе: участники обсуждали реальные кейсы внедрения, барьеры и переход от пилотов к системным решениям. Логичным продолжением стала презентация второго номера издания и церемония премии «Герои нового энтерпрайза».

🔴Финальный этап отбора на стажировку «ИТ-город» в Правительстве Москвы. Участники работали в двух потоках: по направлению «Аналитика данных» решали задачи с использованием SQL, а в треке «Машинное обучение» — анализировали датасеты и обучали модели, загружая решения в облачный репозиторий Mos.Hub.

🔴 Встреча клуба «Цифровые лидеры бизнеса». Дискуссию о технологических трендах и развитии умных городов открыл Дмитрий Онтоев, который представил подход города к адаптации глобальных практик. Участники также обсудили применение ИИ, больших данных и кибербезопасности в бизнесе и городской среде.

🔴 Хакатон SkillOut — два дня интенсивной работы, где команды за 24 часа создавали AI-видеоролики по рекламным брифам. Процесс был выстроен как открытое шоу: с рабочими сессиями, лекциями и живым общением, а также прямым эфиром с площадки, позволяющим следить за происходящим в реальном времени.

Впереди новые события и форматы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👎1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Anthropic планирует выйти на IPO в октябре 2026 года.

Anthropic начала подготовку к первичному размещению акций и ведет предварительные переговоры с ключевыми игроками Уолл-стрит: Goldman Sachs, JPMorgan и Morgan Stanley, чтобы выбрать организаторов листинга.

Ожидается, что в ходе IPO стартап сможет привлечь более $60 млрд. Размещению предшествовал крупный раунд финансирования, прошедший в феврале этого года. В рамках этого раунда консорциум инвесторов во главе с фондами GIC и Coatue вложил в компанию $30 млрд, что подняло общую капитализацию Anthropic до $380 млрд.

Финансовый рынок уже отреагировал на новости: эмитенты ETF начали подавать заявки на регистрацию маржинальных фондов, привязанных к котировкам будущих акций компании.
bloomberg.com

✔️ Microsoft опенсорснула семейство эмбеддингов Harrier.

Harrier-OSS-v1 - линейка мультиязычных моделей для векторизации текста. Они используются для информационного поиска, кластеризации, классификации текстов и оценки семантической близости. Семейство выбило SOTA-рекорд в бенчмарке Multilingual MTEB v2.

Флагманская модель на 27 млрд. параметров и компактная на 270 млн. построены на архитектуре Gemma 3, а средняя версия на 600 млн. параметров использует базу Qwen 3. Модели поддерживают контекстное окно до 32 тыс. токенов и работают с более чем 94 языками, включая русский.

Семейство открыто под лицензией MIT и интегрированы в sentence-transformers, LangChain и LlamaIndex.
huggingface.co

✔️ Видеогенератор Sora закрылся из-за убытков.

После громкого релиза аудитория сервиса быстро сократилась с миллиона до 500 тысяч человек, при этом поддержание работы видеогенератора обходилось OpenAI примерно в $1 млн. ежедневно. В итоге проект оказался для компании обузой.

К финансовым потерям добавились проблемы с авторскими правами и опасения, что создание низкокачественных роликов вредит репутации бренда. Обучение новых видеомоделей уже полностью остановлено.

Под давлением конкуренции со стороны Anthropic руководство OpenAI решило перенаправить вычислительные мощности на более маржинальные направления: разработку ИИ-агентов, генерацию кода и корпоративные продукты. Команду Sora перевели на создание моделей мира для робототехники.
wsj.com

✔️ Microsoft расширила возможности Copilot.

В рамках обновления Microsoft 365 Copilot компания добавила новые инструменты для автоматизации рабочих процессов и глубокого поиска. Во главе апдейта - агент Researcher с функцией Critique, которая задействует 2 модели: одну для черновика, а другую - в роли проверяющего редактора, комбинируя возможности моделей от OpenAI и Anthropic. Microsoft говорит, что агент опережает Perplexity на базе Claude Opus 4.6 на 7 пунктов.

Вторая часть - это функция Model Council, которая выводит на один экран ответы от разных ИИ-моделей для наглядного сравнения их выводов и поиска расхождений.

Попутно Microsoft расширила доступ к Copilot Cowork по программе Frontier. Система научилась брать на себя многоэтапные задачи: она самостоятельно взаимодействует с рабочими файлами, планирует расписание в календаре и формирует ежедневные брифинги.
microsoft.com

✔️ GitHub Copilot вставлял рекламу прямо в пулл-реквесты.

Независимый разработчик Зак Мэнсон обнаружил , что при автокоррекции опечаток в PR Copilot добавляла рекламный текст. Поиск по GitHub подтвердил, что десятки тысяч PR уже успели получить навязчивое предложение использовать утилиту Raycast для запуска Copilot на macOS и Windows.

Представитель Copilot подтвердил инцидент и сообщил, что функцию оперативно отключили, признав ее внедрение ошибкой. Однако случившееся серьезно подорвало доверие сообщества разработчиков.

На фоне этого пользователи начали сообщать о переносе приватных репозиториев с GitHub на альтернативные открытые площадки: Forgejo, Gitea, Codeberg и собственные self-hosted решения.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Папка .claude: полный разбор того, что внутри

Большинство разработчиков, работающих с Claude Code, смотрят на папку .claude как на черный ящик. Знают, что она есть. Видели, как она появляется в корне проекта. Но никогда не открывали и уж точно не понимали, что там лежит и зачем.

А зря. Папка .claude – это центр управления поведением Claude в вашем проекте. Здесь хранятся инструкции, кастомные команды, правила доступа и даже память модели между сессиями. Разберемся с каждым файлом и папкой по порядку.

https://uproger.com/papka-claude-polnyj-razbor-togo-chto-vnutri/
3👍2🔥1
Media is too big
VIEW IN TELEGRAM
Одна из самых долгих и ресурсоемких частей в создании аналитических систем - это подготовка базовой инфраструктуры.

Stackland, выпущенный Yandex B2B Tech, как раз решает эту задачу: средства хранения и обработки данных, как и управляемые СУБД от Yandex Cloud уже встроены в платформу и разворачиваются из коробки вместе с необходимым слоем управления. И разворачивается платформа во внутреннем безопасном контуре.

Получаешь готовый data-фундамент с управлением доступами, мониторингом и масштабированием. И можешь сразу идти в разработку.

Запросить демо платформы, а также записаться на индивидуальную консультацию с архитекторами платформы можно по ссылке.
👍43
Oracle массово режет штат - до 30 000 человек за один день.

По разным оценкам уволили от 10 000 до 30 000 сотрудников

Письма пришли в 6 утра - без предупреждений от менеджеров и HR • День получения письма сразу стал последним рабочим днём • В отдельных командах сокращения доходят до 30%+

Формулировка классическая: «организационные изменения»

Компани перераспределяет деньги в ИИ и облачную инфраструктуру.

В 2025 компания столкнулась с резким ростом расходов • Огромный кассовый разрыв из-за инвестиций в инфраструктуру •

Аналитики оценивают экономию от сокращений в $8–10 млрд Но есть нюанс:Даже если все деньги уйдут в ИИ, окупаемость ожидается только к 2030 году

Ирония 2026:Мы думали, нас заменит ИИ, потому что он умнее и дешевле А оказалось - нас увольняют, потому что он слишком дорогой и пока ещё не настолько эффективны.

https://vc.ru/ai/2844412-oracle-uvolila-do-30000-sotrudnikov-iz-za-investitsiy-v-ii
👍11🤔105🤯4👎1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Таблицы теперь живут прямо в терминале

Да, без Excel и без GUI.

Sheets - это инструмент, который позволяет читать и редактировать CSV прямо в терминале через TUI или CLI.

Что внутри:
- полноценная работа с таблицами без выхода из терминала
- vim-подобные хоткеи и навигация
- быстрые правки без лишнего оверхеда

Работает на Windows, macOS и Linux.

Идеально, если ты живёшь в терминале и не хочешь дергаться между окнами.

Excel начинает нервничать.

https://github.com/maaslalani/sheets
8👍7🔥6😁4
Forwarded from Machinelearning
🔥 Собери свой OpenClaw за вечер

Репозиторий, в котором разобрано устройство OpenClaw по слоям.

Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности

Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели

В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»

Дает неплохое понимание архитектуры клешни.

https://github.com/czl9707/build-your-own-openclaw

@ai_machinelearning_big_data

#opensource #openclaw
3👍3🔥3
🔥 Китайцы выкатили мощный голосовой ИИ - VoxCPM2

Модель от OpenBMB, которая умеет:

• Понимать и генерировать речь
• Работать с голосом почти в реальном времени
• Делать voice-to-voice без сложных пайплайнов
• Подходит под ассистентов, звонки и голосовые агенты

Главный плюс - всё это в одной модели, без костылей из ASR + TTS


https://huggingface.co/openbmb/VoxCPM2
👍64🔥3
🚀 GigaChat 3.1 Ultra и GigaChat 3.1 Lightning в опенсорс под MIT лицензией!

Обе модели
• Обучены с нуля — без инициализации зарубежными весами
• MoE + MTP + MLA
• Совместимы с HuggingFace, llama.cpp / vLLM / SGLang

Код и веса уже на платформе GitVerse.

Это не просто релиз весов, а результат большой инженерной работы над качеством, alignment и стабильностью модели. В блоге команда поделилась результатами и своими наработками.
В релизе: высокие результаты на аренах, улучшенный function calling, решённая проблема циклов, DPO в нативном FP8, найденный и зарепорченный баг в SGLang при dp > 1.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3😁21👎1