Машинное обучение RU
17.7K subscribers
1.58K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
This media is not supported in the widget
VIEW IN TELEGRAM
5👍1🔥1
👉 Awesome Data Labeling

Коллекция инструментов для аннотирования изображений, аннотирования видео, семантической сегментации и маркировки данных для машинного обучения.

🔗 https://github.com/HumanSignal/awesome-data-labeling

@machinelearning_ru
👍72
📌 Существует три основных способа обучения LLM: естественный язык, классификация предложений и классификация лексем.

👉 Приведенная картинка дает представление о каждом из них!

#llms #largelanguagemodel #generativeai

@machinelearning_ru
👍51🔥1
🔥 ИИ-агент, использующий GPT-4V(ision), способный использовать, cv, мышь/клавиатуру для взаимодействия с веб-интерфейсом.

GPT-4V-ACT:
https://github.com/ddupont808/GPT-4V-Act
GPT-V-on-Web: https://github.com/Jiayi-Pan/GPT-V-on-Web
vimGPT: https://github.com/ishan0102/vimGPT

@machinelearning_ru
👍91🔥1
Глубокое погружение в режим Copy-on-Write в pandas. Часть 2

Мы используем технику, применяемую внутренними средствами pandas, чтобы избежать копирования всего DataFrame, когда в этом нет необходимости, и тем самым повысить производительность.

Удаление защитных копий
Начнем с наиболее значимого улучшения. Многие методы pandas выполняли защитное копирование, чтобы избежать побочных эффектов и защититься от последующих модификаций в памяти.

df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})
df2 = df.reset_index()
df2.iloc[0, 0] = 100


В reset_index нет необходимости копировать данные, но возврат представления привел бы к побочным эффектам при модификации результата (к примеру, также обновился бы df). Поэтому в reset_index выполняется защитное копирование.

При включении Copy-on-Write всех этих защитных копий уже нет. Такое действие затрагивает многие методы (с полным списком можно ознакомиться здесь).

Кроме того, при выборе столбцового подмножества DataFrame теперь всегда будет возвращаться представление, а не копия, как раньше.

Посмотрим, как все это выглядит с точки зрения производительности, когда мы комбинируем некоторые из этих методов:

import pandas as pd
import numpy as np

N = 2_000_000
int_df = pd.DataFrame(
np.random.randint(1, 100, (N, 10)),
columns=[f"col_{i}" for i in range(10)],
)
float_df = pd.DataFrame(
np.random.random((N, 10)),
columns=[f"col_{i}" for i in range(10, 20)],
)
str_df = pd.DataFrame(
"a",
index=range(N),
columns=[f"col_{i}" for i in range(20, 30)],
)

df = pd.concat([int_df, float_df, str_df], axis=1)

Создается DataFrame с 30 столбцами, 3 разными типами данных и 2 миллионами строк. Выполним следующую цепочку методов для этого DataFrame:

Смотреть
Часть 1.

@machinelearning_ru
👍41🔥1
👉 Awesome TensorFlow

Список awesome учебников по TensorFlow, моделей/проектов, библиотек, инструментов/утилит, видео, докладов, статей, сообществ, книг и многого другого.

🔗 https://github.com/jtoy/awesome-tensorflow

@machinelearning_ru
8👍3🔥2😁1
🔊 Transforming the future of music creation

Deepmind объявили о создании самой совершенной модели генерации музыки и двух новых экспериментах с искусственным интеллектом, призванных открыть новую площадку для творчества

https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Конвертируем скриншот в HTML

Интересный проект, в котором скриншот с сайта конвертируется в HTML и CSS код , используя модель зрения OpenAI

https://github.com/abi/screenshot-to-code

@machinelearning_ru
👍54🔥2
2023 год оказался прорывным для искусственного интеллекта: многие компании вступили в гонку нейросетей, чтобы разработать лучшие генеративные и языковые модели. Вчера Яндекс выпустил YaC 2023 — мини-сериал о технологиях и команде компании, — где рассказал, как разрабатывал универсальную языковую модель Yandex GPT и генеративную нейросеть Yandex ART, которую можно попробовать в приложении “Шедеврум”. 

Ставка делалась на претейн-модель и русскоязычную аудиторию. В результате нейросети изучили триллионы текстов и изображений из Интернета и теперь могут ответить практически на любой вопрос. Они также внедряются в продукты: Yandex GPT дает краткое описание видеороликов в тезисах в Яндекс Браузере, пересказывает статьи из Интернета, а в Маркете и Поиске обобщает информацию из отзывов, суммируя основные плюсы и минусы.

Посмотреть, как выросла Алиса за год и создавалась Yandex GPT, можно на YouTube или Кинопоиске.
👍32
Глубокое погружение в режим Copy-on-Write в pandas. Часть 3

В настоящее время включенный по умолчанию режим CoW планируется внедрить в релиз pandas 3.0, запланированный на апрель 2024 года. В первой части данной серии мы рассказывали о поведении Copy-on-Write, а во второй — об оптимизациях производительности, связанных с Copy-on-Write.

Мы планируем добавить режим предупреждения, оповещающий обо всех операциях, изменяющих поведение при работе CoW. Предупреждение будет довольно шумным для пользователей, поэтому к нему следует относиться с некоторой осторожностью. В этой статье речь пойдет о типичных случаях и о том, как можно адаптировать код, чтобы избежать изменений в поведении.

Цепочечное присваивание
Цепочечное присваивание — это техника, при которой один объект обновляется посредством двух последовательных операций.

📌 Далее
📌 Часть 2.
📌 Часть 1.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥21
🖥 По умолчанию Pandas использует для числовых столбцов значения float64 и int64, что не всегда экономит память.

Если вам известен диапазон данных, то для оптимизации использования памяти при загрузке данных лучше использовать аргумент dtype.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍112🔥2
🚀 Generate parameter Library

Эта библиотека генерирует код на C++/Python из YAML для параметров ROS 2, обеспечивает удобство работы с кодом и его проверку, а также автоматическое создание документации.

🐱 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41👎1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💥Bedrock в LangSmith Playground💥

Поддержка Bedrock в LangSmith Playground

Использование различных моделей
- часть экспериментов, проводимых при разработке LLM-приложений с контекстно-зависимыми рассуждениями. С помощью LangSmith возможно делать смену модели максимально просто!

Теперь вы можете запускать новейшие модели от Anthropic, AI21 Labs, Cohere, Meta и Amazon Titan, предоставляемые AWS Bedrock, прямо из LangSmith Playground.

Документацию LangSmith можно найти здесь:

🆕LangSmith🆕

@machinelearning_ru
👍5🔥21
👉 Машинное обучение на языке Ruby

Список библиотек, источников данных, учебников и презентаций по машинному обучению с использованием языка программирования Ruby.

🔗 https://github.com/arbox/machine-learning-with-ruby

@machinelearning_ru
👍5🔥3🤔31
В интернете вирусится продажа протеза с 6 пальцем, с камер наблюдения выглядят так, будто они получены методом стабильной диффузии 😅.

Человечество быстро приспосабливается к причудам искусственного интеллекта.

@machinelearning_ru
👍8😁82🔥2
🦾 Краткое руководство по настройке llama.cpp на инстансах AWS

Например, вы можете использовать один из самых дешевых инстансов с 16 ГБ VRAM (NVIDIA T4) для параллельного обслуживания квантовой модели Mistral 7B нескольким клиентам с полным контекстом.

github.com/ggerganov/llama.cpp/discussions/4225

@machinelearning_ru
👍7🔥32👎1