Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Европейский AI Act – ужас для индустрии ИИ

Европейский AI Act, если его примут, станет первым законодательным актом в мире, направленным на регулирование использования искусственного интеллекта. Он потребует лицензирования каждой ИИ-модели для использования в Европе. Подобные ограничения вводятся для обеспечения контроля над процессом разработки и внедрения ИИ-технологий и минимизации риска угроз безопасности.

Опенсорсные решения также будут попадать под действие акта и требовать прохождения государственной лицензирования (будут ли разработчики с этим возиться? Конечно, нет). К тому же, если акт будет принят, возможно, произойдет расслоение стран между теми, кто будет активно использовать GPT-подобные модели, и теми, кто будет принуждать их проходить гос.контроль.

На секундочку: для получения лицензии нужно будет потратить примерно 50-100 тысяч долларов, а процесс займет от 6 до 18 месяцев и потребует наличие 1-2 специалистов внутри компании, которые будут работать над этим на полный рабочий день.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤪22🙈5👍4🤨4🍌21🗿1
Совет по написанию SQL запросов: всегда перечисляйте поля

В некоторых запросах можно использовать вместо названий столбцов их номера или не указывать их вовсе. Но во избежании багов и во имя читаемости так лучше не делать. Особенно обратите внимание на три кейса:

1) Не ставьте * в запросах типа SELECT. Вот так не очень хорошо:

SELECT *
FROM table


Вот так гораздо лучше:

SELECT col, col2, col3
FROM table


2) При добавлении данных в таблицу, так же как и в SELECT перечисляйте поля таблицы. Вот так делать не нужно:

INSERT INTO table
VALUES (col1, col2, col3……)


Лучше вот так:

INSERT INTO table (col1, col2, col3……)
VALUES (col1, col2, col3……)


3) При сортировке (ORDER BY) лучше использовать имена столбцов, а не их позиции (номера). Вот так не надо:

SELECT col, col2, col3
FROM table
ORDER BY 2, 1


Надо вот так:

SELECT col, col2, col3
FROM table
ORDER BY col2, col


😻 #SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡44👍21🤯4🔥3🌭31💅1
Поделитесь с друзьями и родственниками – пусть будут осторожны!!!

P.S. Вдохновлено новым европейским AI Act

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁54🔥8
Адаптивный подбор размера шага в градиентном спуске

Мы с вами уже раскладывали по полочкам базовый градиентный спуск. И конечно, исследователи нашли тысячу и один способ улучшить этот алгоритм. Например, многие сразу задались вопросом: как подбирать размер шага (learning rate)? Он максимально остро встаёт в случае SGD: ведь посчитать значение функции потерь в точке очень дорого, так что методы в духе наискорейшего спуска нам не помогут. Решили действовать хитрее.

😻 #train #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🗿5
Все в одном

Разработчик релизнул утилиту ChatALL, которая позволяет одновременно общаться со всеми популярными чат-ботами: ChatGPT, Bing Chat, Bard и менее популярными Alpaca, Vincuna, Claude, ChatGLM, MOSS, iFlytek Spark, ERNIE. Для доступа к некоторым нужно иметь API.

Инструкция по установке: тут.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👏193👍3
Все, что нужно знать про стекинг

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍256🔥4
Forwarded from class Python
4 способа фильтрации данных с помощью pandas\numpy 🌸

💜 // class Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍10🔥3🤨2😐2
Object Importance

Это метод, который позволяет определить, как каждая запись трейна влияет на метрику.
Другими словами, он позволяет найти и избавится от бесполезных записей (шум или выбросы, например).

Этот метод хорошо реализован в Catboost:

train_pool = Pool(X_train, y_train)
val_pool = Pool(X_val, y_val)
cb = CatBoost({'eval_metric': 'RMSE'})
cb.fit(train_pool)
indices, scores = cb.get_object_importance(
val_pool,
train_pool,
importance_values_sign='Positive')

В функции доступны три метода расчета: SinglePoint (быстрый, но самый неточный), TopKLeaves ( помедленнее и поточнее) и AllPoints (долгий и самый точный).

Отрицательные значения означают, что строка уменьшает значение метрики, а положительные - что увеличивает. В зависимости от метрики нужно обратить внимание на значения определенного знака. После этого можно попробовать выкинуть плохо влияющие записи и переобучить модель.

Вот здесь есть еще туториал по использованию.

😻 #train #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
Нашли аи-тул для генерации 360-градусных сцен с помощью эскиза. Все, что вы нарисуете, доточится до правильных пропорций, на это наложатся структуры и освещение и вуаля – готовый скайбокс. Можно даже заказать доступ к API (вдруг решите уйти из даты в геймдев).

Кстати, работает все это просто на модифицированной Stable Diffusion.

Вот тут можно поиграться.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🤯9🔥4
И снова доброе субботнее 🌸

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
47
Как по книжкам познать математику для машинного обучения и анализа данных?

Наша подборка в помощь: собрали как русскоязычные, так и англоязычные книги для любого уровня подготовки.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3015