Python вопросы с собеседований
25K subscribers
687 photos
87 videos
17 files
566 links
Вопросы с собеседований по Python

@workakkk - админ

@machinelearning_interview - вопросы с собесдований по Ml

@pro_python_code - Python

@data_analysis_ml - анализ данных на Python

@itchannels_telegram - 🔥 главное в ит

РКН: clck.ru/3FmrFd
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ SQL-прием: EXISTS часто лучше, чем COUNT(*) > 0

Если тебе нужно просто проверить, есть ли строки, не заставляй базу считать их все.

Плохо:
SELECT COUNT(*) > 0
FROM orders
WHERE user_id = 42;
База может пройти по всем подходящим строкам, чтобы посчитать количество.

Лучше:
SELECT EXISTS (
SELECT 1
FROM orders
WHERE user_id = 42
);
EXISTS останавливается сразу, как только нашел первую подходящую строку. Для больших таблиц это может быть заметно быстрее, особенно если есть индекс по условию:
CREATE INDEX idx_orders_user_id ON orders(user_id);
Если тебе нужен ответ “есть или нет”, используй EXISTS. COUNT(*) оставь для случаев, когда реально нужно точное количество строк.

#sql #postgresql #database #backend⚡️ SQL-прием: EXISTS часто лучше, чем COUNT(*) > 0

Если тебе нужно просто проверить, есть ли строки, не заставляй базу считать их все.

Плохо:


SELECT COUNT(*) > 0
FROM orders
WHERE user_id = 42;


База может пройти по всем подходящим строкам, чтобы посчитать количество.

Лучше:

SELECT EXISTS (
SELECT 1
FROM orders
WHERE user_id = 42
);


EXISTS останавливается сразу, как только нашел первую подходящую строку. Для больших таблиц это может быть заметно быстрее, особенно если есть индекс по условию:


CREATE INDEX idx_orders_user_id ON orders(user_id);


Если тебе нужен ответ “есть или нет”, используй EXISTS. COUNT(*) оставь для случаев, когда реально нужно точное количество строк.

#sql #postgresql #database #backend
👍94🔥2
🚀 Browser Harness - это легкий инструмент, позволяющий LLM выполнять любые задачи в браузере с полной свободой действий. Он самозаживляющийся и работает напрямую с Chrome через WebSocket, позволяя агенту добавлять недостающие функции по мере выполнения задач.

Основные моменты:
- Полная свобода действий для LLM в браузере.
- Самообучение: агент создает недостающие функции.
- Поддержка бесплатных удаленных браузеров.
- Простой и понятный код (~592 строки Python).
- Возможность добавления новых доменных навыков.

📌 GitHub: https://github.com/browser-use/browser-harness

#python
👍52🔥1
10 бесплатных ресурсов, которые светлые головы используют каждый день: must have для IT-специалистов и тех, кто учит ИИ

Знаете, что объединяет фаундеров Airbnb, Stripe и Coinbase, аналитиков Goldman Sachs и инженеров из топовых AI-лабораторий?

Все они пользуются ресурсами, за которые обычные люди готовы платить десятки тысяч долларов. А по факту эти материалы выложены в открытый доступ и абсолютно бесплатны. Я собрал десятку площадок, без которых сегодня сложно представить серьёзное обучение в IT, машинном обучении и анализе данных. Если вы давно собирались прокачать стек, но не знали, с чего начать, сохраняйте подборку в закладки.

1. Harvard CS50

Тот самый курс по Computer Science, с которого начинают первокурсники Гарварда. По итогу можно получить настоящий сертификат с подписью профессора. База алгоритмов, структур данных, C, Python, SQL и веба, на которой потом выстраивается всё остальное, включая ML.

Сайт: cs50.harvard.edu

2. MIT OpenCourseWare

Больше 2500 курсов MIT в открытом доступе. Те же лекции, которые слушают студенты, отдающие за обучение под 80 тысяч долларов в год. Внутри есть отличные потоки по линейной алгебре, теории вероятностей и оптимизации, без которых в современный AI заходить почти бесполезно.

Сайт: ocw.mit.edu

3. Y Combinator Startup School

Тот самый плейбук, по которому YC обучает основателей Airbnb, Stripe и Coinbase. Полезно не только тем, кто запускает свой стартап, но и инженерам, которые хотят понимать, как устроены продуктовые решения и почему ML-команды строят процессы именно так.

Сайт: startupschool.org

4. Berkshire Hathaway Letters

Ежегодные письма Уоррена Баффетта инвесторам с 1977 года. Хедж-фонды перечитывают их каждый год. Для разработчиков и аналитиков это бесплатный курс по тому, как думать о бизнесе, рисках и долгосрочных решениях.

Сайт: berkshirehathaway.com/letters

5. SEC EDGAR

Реальная система отчётности, которой пользуется Уолл-стрит. Можно в режиме реального времени смотреть, что покупают и продают крупнейшие фонды и публичные компании. Идеальный датасет для тех, кто строит финансовые модели или тренирует LLM на корпоративных отчётах.

Сайт: sec.gov/edgar

6. Stanford Online

Курсы Стэнфорда по Computer Science, инженерии и машинному обучению. Те самые лекции, по которым в своё время преподавал Эндрю Ын. Если хочется идти от классической ML-математики к современному deep learning, начинать стоит именно отсюда.

Сайт: online.stanford.edu

7. PubMed Central

Полный архив медицинских исследований от NIH. Журналы берут по 40 долларов за статью, а здесь миллионы работ доступны просто так. Огромный пласт качественных научных текстов, который часто используют для обучения и оценки биомедицинских LLM.

Сайт: ncbi.nlm.nih.gov/pmc

8. World Bank Open Data

Все экономические датасеты Всемирного банка. Те же данные, за которые платят аналитики Goldman Sachs. Идеальная песочница для аналитиков, дата-сайентистов и тех, кто хочет потренироваться на реальных временных рядах.

Сайт: data.worldbank.org

9. OpenLibrary

Бесплатный сервис книг от Internet Archive. Миллионы книг без читательского билета и подписки. Полезно для всех, кто хочет глубоко погружаться в темы, а не ограничиваться обзорными статьями.

Сайт: openlibrary.org

10. Project Gutenberg

Больше 70 тысяч классических книг полностью бесплатно. От Платона до Толстого. Помимо удовольствия от чтения, это ещё и отличный корпус текстов на разных языках для NLP-экспериментов.

Сайт: gutenberg.org

Гарвардское образование стоит около 250 тысяч долларов. MBA обойдётся в 200 тысяч. Подписка на Bloomberg Terminal: 25 тысяч в год. Место в Y Combinator забирает 7% вашей компании. А по факту вы только что получили доступ ко всему этому совершенно бесплатно.
4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ CLAUDE.md - это не README для людей. Это инструкция для AI-агента, который будет работать с вашим кодом.

Если файл написан плохо, Claude начинает гадать: какой стек, какие команды запускать, где лежат компоненты, какой стиль кода использовать и что вообще можно менять.

Нормальный CLAUDE.md держится на трёх уровнях.

Глобальный - ваши правила для всех проектов: стиль, предпочтения, запреты.

Проектный - правила конкретного репозитория: стек, команды сборки, тесты, архитектура, соглашения команды.

Папочный - локальный контекст для отдельных модулей: API, компоненты, utils, backend, frontend.

Главный принцип простой: чем ближе CLAUDE.md к файлу, тем важнее его правила. Если есть конфликт, побеждает последний уровень.

Хороший CLAUDE.md отвечает на три вопроса.

Что это за проект: название, цель, стек, структура, зависимости.

Зачем всё устроено именно так: архитектурные решения, стиль кода, naming, анти-паттерны.

Как с этим работать: команды build, test, lint, формат коммитов, деплой, CI/CD.

И самое важное - не пиши абстракции типа «пиши чистый код». Это бесполезно.

Пиши конкретно: «используй camelCase для переменных, PascalCase для компонентов, перед коммитом запускай npm test, не трогай server components без причины».

CLAUDE.md должен быть коротким, живым и практичным. Не больше 500 строк, обновлять раз в месяц, ссылки на package.json и tsconfig вместо копипаста.

Потому что AI-агенту не нужен красивый документ. Ему нужен рабочий контекст, который не даёт ломать проект.

https://www.youtube.com/shorts/63QIyLioafI?feature=share
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👍1
🖥 Курс «Git Pro: от первого коммита до уровня senior» - на Stepik

project_final_v2_FINAL_truly_final - знакомо?

Значит, пора.

Большинство разработчиков знают 5 команд Git и боятся шестую. Коммитят в main, гуглят «how to undo» и копируют папку «на всякий случай».

Это не работа - это выживание.

После курса вы:
— делаете rebase, не задерживая дыхание;
— разбираете конфликт на 200 файлов по алгоритму;
— возвращаете «потерянные навсегда» коммиты за 30 секунд через reflog;
— пишете историю, которую не стыдно показать на code review.
Git Flow, trunk-based, Pull Request, защита веток, CI/CD-хуки — всё, что отличает джуна от senior в командной работе.

Скидка 53%, 48 часов: https://stepik.org/course/284799/
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1🔥1
LeRobot — современное машинное обучение для реальной робототехники в Pytorch.

LeRobot стремится предоставить модели, наборы данных и инструменты для робототехники реального мира в PyTorch.
2
📚🤖 Переводите книги с помощью ИИ!

Этот проект позволяет переводить книги, субтитры и документы с использованием ИИ как локально, так и в облаке. Поддерживает форматы EPUB, SRT, DOCX и TXT, сохраняя оригинальное форматирование и структуру. Умная система обработки позволяет работать с документами любой длины, а функция сохранения прогресса помогает продолжать перевод с того места, где вы остановились.

🚀Основные моменты:
- Поддержка множества форматов: EPUB, SRT, DOCX, TXT
- Сохранение оригинального форматирования и стилей
- Умная обработка больших документов без потери контекста
- Возможность продолжить перевод с последнего сохраненного места
- Интеграция с различными провайдерами ИИ

📌 GitHub: https://github.com/hydropix/TranslateBooksWithLLMs

#python
🔥4
Forwarded from Machinelearning
🌟 CocoIndex v1: релиз инкрементального движка для агентов.

CocoIndex выпустила первую стабильную версию своего движка для построения данных под агентов длительного действия - тех, которые обслуживают RAG, графы знаний, память и контекст в продакшн-системах.

CocoIndex - специализированный опенсорсный инкрементальный ETL-движок (Extract, Transform, Load) для создания ИИ-систем. Он используется для автоматизации обработки данных и их мгновенной индексации в векторные базы или графы знаний.

Инструмент любят за его способность обновлять информацию в реальном времени: как только исходные данные меняются, CocoIndex точечно пересчитывает только нужные части индекса, избавляя от необходимости полной и дорогостоящей переиндексации всей базы.


🟡Главное изменение v1 - полный отказ от DSL

Весь пайплайн теперь описывается обычными асинхронными функциями Python, которые вызывают друг друга. Движок продолжает отслеживать изменения и материализовать целевые состояния, но делает это за нативным Python-API, а не за отдельной системой типов.

Авторы вдохновлялись тезисом Джеффа Дина и Билла Далли с GTC 2026: агенты работают примерно в 50 раз быстрее человека, но опираются на инструменты, рассчитанные на человеческий темп.

Ночные пересборки индексов в этой логике становятся проблемой - нужен движок, который синхронизирует производные данные с источником инкрементально, переобрабатывая только изменившиеся чанки и перезаписывая только изменившиеся строки.


🟡Помимо отказа от DSL, релиз принёс ещё 3 изменения

🟢Во-первых, движок использует систему типов самого Python: PIL.Image, pyarrow.Table, torch.Tensor и любой класс из импортированной библиотеки можно передавать в функции напрямую, без обёрток и двусторонней конверсии.

🟢Во-вторых, Postgres больше не нужен - состояние движка хранится в одном локальном файле. Postgres остался полноценным таргетом, просто перестал быть обязательной зависимостью.

🟢В-третьих, источники и таргеты создаются во время выполнения: можно монтировать отдельный таргет на каждого тенанта, строить топологию по строкам конфигурационной таблицы или подключать Kafka-топик по фича-флагу.

🟡Ядро по-прежнему на Rust

Вся горячая логика по детекции и применению изменений живёт там. На уровне Python декоратор подключает функцию к отслеживанию изменений, а отдельный флаг кеширует её результат по хешу аргументов и кода: правка хелпера инвалидирует только тех вызывающих, кто реально от него зависит.

🟡Контракт управляемых таргетов сохранился

Разработчик декларирует, как должна выглядеть таблица, граф или директория, а CocoIndex сам выполняет create/alter/drop для контейнеров и insert/update/delete для содержимого, включая удаление осиротевших объектов при изменении схемы. Если перестать декларировать сущность, она исчезает из таргета.

Контракт работает одинаково для Postgres, LanceDB, Neo4j, Kafka, S3 и обычных файлов на диске.

Примеры пайплайнов, от эмбеддингов кода в LanceDB и обработки PDF до сборки графа знаний из разговоров, лежат в репозитории на GitHub.


📌Лицензирование: Apache 2.0 License.


🟡Документация
🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #ETL #RAG #Agents #СocoIndex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥4😱1
⚡️ Векторные базы данных хорошо ищут похожие куски текста, но плохо понимают связи между ними.

Обычный поиск работает так: есть вопрос - база находит top-k самых похожих фрагментов. Это удобно, если нужно вытащить один факт.

Но если ответ спрятан в нескольких местах, например в разных документах, сообщениях или частях отчёта, простого similarity search уже мало. Нужно понять, как связаны люди, события, компании, причины и последствия.

На этом и делает акцент FalkorDB GraphRAG-Bench. Самый большой отрыв у GraphRAG виден именно в сложных задачах: Complex Reasoning - 83.61 и Contextual Summarization - 85.08. То есть там, где нужно не просто найти похожий текст, а собрать смысл из нескольких связанных фрагментов.

Простой вывод: если у вас база знаний, длинные документы или корпоративные данные, одного Vector DB может быть недостаточно. GraphRAG помогает модели не просто искать, а идти по связям.

GraphRAG SDK полностью open-source: https://github.com/FalkorDB/GraphRAG-SDK
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
Когда Вайбкодера просят объяснить логику работы Кода.
😁118👍4
⚙️ Генерация CAD моделей с текстом

Этот проект предоставляет открытый инструмент для создания 3D моделей с помощью текстовых описаний. Используйте кодовые агенты, такие как Codex, для генерации и экспорта CAD моделей в различных форматах, включая STEP и STL. Локальный просмотрщик позволяет удобно инспектировать созданные модели.

🚀Основные моменты:
- Генерация CAD моделей с помощью текстовых описаний.
- Экспорт в форматы STEP, STL, DXF и URDF.
- Локальный просмотрщик для инспекции созданных геометрий.
- Поддержка стабильных ссылок для точных редактирований.
- Быстрая проверка и итерация моделей.

📌 GitHub: https://github.com/earthtojake/text-to-cad
5
Forwarded from Python/ django
Python 3.15 beta 1 вышела в релиз 🐍

Это значит, что крупные фичи для релиза фактически зафиксированы. Дальше - бета, тесты, багфиксы и подготовка к финальному релизу.

Что интересного в 3.15:
- lazy imports через ключевое слово lazy
- встроенные frozendict и sentinel
- JIT стал быстрее на x86-64 Linux
- распаковка прямо внутри comprehensions
- новый статистический profiler с низким overhead
- frame pointers включены по умолчанию

Python 3.15.0b1 вышел 7 мая 2026 года, это первая из четырёх запланированных beta-версий и точка feature freeze; финальный релиз запланирован на 1 октября 2026 года.

https://blog.python.org/2026/05/python-3150-beta-1/
3👍3
Forwarded from Machinelearning
✔️ Релиз Ernie 5.1: треть параметров Ernie 5.0 и 4 место в Arena Search Leaderboard

Baidu выпустила языковую модель Ernie 5.1 с закрытыми весами. Затраты на претрейн составили 6% от типичного бюджета для моделей этого класса.

Новинка построена на базе Ernie 5.0, но содержит треть от общего числа параметров и использует вдвое меньше активных параметров при инференсе.

В Arena Search Leaderboard модель заняла 1 место среди китайских сетей и 4 в мире. По заявлению Baidu, в тестах агентов Ernie 5.1 обходит DeepSeek-V4-Pro, а в логике и математике сопоставима с Gemini 3.1 Pro.


Экономия вычислений достигнута за счет методики Once-For-All. Baidu обучала семейство моделей за один проход: сети делят общие веса, варьируясь по глубине и количеству активных блоков MoE.

Основной претрейн выполнили при создании Ernie 5.0, для версии 5.1 потребовалось только извлечь оптимальную конфигурацию.


Для борьбы с эффектом качелей (падение креативности при улучшении логики) применили четырехэтапный файнтюн: SFT, параллельная тренировка узкоспециализированных экспертов, дистилляция их навыков в единую модель-ученика и финальный RL.

Доступ к Ernie 5.1 открыт через онлайн-площадки компании.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥1
В Python 3.14.5 из-за утечек памяти возвращён старый сборщик мусора

Опубликован корректирующий выпуск языка программирования Python 3.14.5, в котором помимо исправления ошибок и незначительных уязвимостей, осуществлён возврат на старый сборщик мусора, применявшийся до ветки 3.14.x. В качестве причин внесения нетипичного для промежуточных выпусков значительного изменения называются жалобы пользователей на существенное повышение потребления памяти после перевода рабочих систем на ветку 3.14 и появление утечек памяти.

Подробнее:
https://opennet.ru/65445/
https://opennet.me/65445/
😱82👍2🔥1