376K subscribers
4.51K photos
883 videos
17 files
4.95K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Local Knowledge Graph: создания графа знаний для изучения связанных вопросов и ответов.

Local Knowledge Graph - это простое веб-приложение на Flask, которое использует локальную языковую модель Llama для обработки запросов, создания пошаговых рассуждений и визуализации процесса мышления в виде интерактивного графа знаний.
Local Knowledge Graph также умеет отображать связанные вопросы и ответы на основе семантического сходства.

Возможности:

🟢интерактивный веб-интерфейс для запросов;

🟢пошаговый процесс рассуждения, который отображается в реальном времени;

🟢динамическая визуализация графа знаний этапов рассуждения;

🟢расчет и отображение лучшего пути рассуждения;

🟢связанные вопросы и ответы на основе семантического сходства;

🟢локальная обработка с использованием языковой модели Llama.


⚠️ Перед запуском приложения убедитесь, что у вас запущена языковая модель Llama (на любом бэкэенде) на порту 11434.
Возможность работы с другими семействами LLM автором репозитория не уточнялась.

▶️Установка и запуск:

# Clone repository:
git clone
https://github.com/punnerud/Local_Knowledge_Graph.git

cd Local_Knowledge_Graph

# Install requirements
pip install -r requirements.txt

# Run the Flask app
python app.py

# Open a web browser and go to http://localhost:5100


🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Graph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍298🔥6😁32
🌟 WordLlama: простой тулкит для NLP.

WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.

Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.

Ключевые особенности WordLlama:

🟢Представления матрешки: пользователь могут обрезать измерения эмбеддинга по мере необходимости, 1024-dim может быть усечена до 64, 128, 256 или 512.

🟢Низкие требования к ресурсам: WordLlama эффективно работает на CPU, выполняя быстрый поиск токенов со средним пулом.

🟢Бинаризация: будущие обновления будут включать модели, которые можно упаковать в небольшие целочисленные массивы для более быстрых вычислений с использованием расстояния Хэмминга.

🟢Инференс только на основе NumPy: конструкция легкая и простая, что позволяет легко интегрировать ее в существующие рабочие процессы.

Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).

WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.

В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.


📌Лицензирование : MIT License.


🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #Toolkit #NLP #WordLlama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2811🔥53😎2
⚡️ Machine Learning: Медицинский дайджест за период 7.09 - 14.09 2024 года

🟩 GP-GPT: LLM для сопоставления генов и фенотипов.

Результаты показывают, что GP-GPT превосходит по производительности Llama2/3 и GPT-4, в задачах, связанных с извлечением информации о генах и заболеваниях.

🟩 GMISeg: сегментация медицинских изображений без переобучения.


GMISeg (General Medical Image Segmentation) - модель для решения задач сегментации медицинских изображений без необходимости переобучения. Модель использует предварительно обученный на ImageNet энкодер изображений ViT и low-rank стратегию тонкой настройки к энкодеру подсказок и декодеру маски для эффективного обучения.

🟦 CoD: повышение интерпретируемости медицинских LLM.

Chain of Diagnoses (CoD) — это метод, который направлен на повышение прозрачности и объяснимости процесса диагностики с помощью больших языковых моделей. CoD разбивает процесс постановки диагноза на пять этапов, имитируя действия врача.

🔸Arxiv 🔸Github 🔸DiagnosisGPT-7B 🔸DiagnosisGPT-34B

🟦 AI Virtual Cell: Как создать виртуальную клетку с помощью ИИ.

AIVC — концепция модели, которая способна имитировать поведение молекул, клеток и тканей. Эта модель обучается на огромном количестве биологических данных, включая геномную информацию, изображения и результаты экспериментов.

Главная особенность AIVC — универсальные представления (UR). Они располагают биологические данные в многомерном пространстве, сохраняя при этом важные связи и закономерности.

🟦 Диагностика кожных заболеваний: интерпретируемое визуальное обнаружение концепций с SAM.

В исследовании рассматривается проблема диагностики кожных заболеваний на основе анализа клинических фотографий, полученных с помощью смартфонов. Авторы предлагают методику, основанную на использовании модели сегментации изображений SAM и cross-attention архитектуры.

🟦 Explicd:объяснимый диагноз на основе классификации медицинских изображений.


Explicd — модель, разработанная для объяснимой классификации медицинских изображений. Она способна не только делать точные описания, но и предоставлять обоснование своих решений, понятное для человека.

В основе архитектуры Explicd лежит интеграция диагностических критериев, сформулированных на естественном языке, с визуальными концепциями, извлеченными из изображений. Вначале Explicd запрашивает соответствующие знания из LLM (GPT-4) или получает их от экспертов. Эти знания преобразуются в текстовые диагностические критерии: цвет, форму, текстуру или специфические паттерны, характерные для анализируемого заболевания.

🟦 ReXErr: генерация клинических ошибок в отчетах по диагностической радиологии.

ReXErr продемонстрировал способность создавать различные типы ошибок в одном отчете с вариациями в пределах каждого подтипа ошибки. В выборке из 100 исходных отчетов с ошибками, рассмотренных клиницистом, 83 модифицированных отчета были признаны правдоподобными, в то время как только 17 содержали ошибки, которые были неправдоподобны в отчетах, сгенерированных LLM, или в отчетах, написанных врачом.

🟦 Тонкая настройка LLM для медицины: роль DPO.

В исследовании Стэнфордского университета изучается важность точной настройки LLM для задач клинической обработки естественного языка. Авторы сравнивают две распространенные методики: контролируемую точную настройку (SFT) и прямую оптимизацию параметров (DPO).

Результаты показали, что для простой классификации текста SFT достаточно, в то время как для более сложных задач - клиническое рассуждение, суммирование и сортировка, DPO значительно улучшает производительность. Авторы связывают это с тем, что DPO позволяет модели обучаться на контрасте между желательными и нежелательными ответами, что способствует более глубокому пониманию контекста.

📌 Подробности

#news #ai #ml #medtech

@ai_machinelearning_big_data
28👍13🥰2🙏1
🌟 Как Яндекс Браузер научил LLM-модели помогать пользователям с текстами

Нейроредактор в Браузере — это отдельный инструмент, который может создавать и редактировать тексты прямо там с помощью YandexGPT. При его улучшении команда разработки экспериментировала с различными подходами к обучению моделей:

🟢В качестве стартовой точки для офлайн-метрик использовалась диффалка, написанная на Go. Она работает на основе алгоритма поиска LCS-индексов, позволяя искать наидлиннейшие общие подпоследовательности между версиями текста. Это дало возможность проверять гипотезы о качестве и экономить время.

🟢Переход от архитектуры Decoder к Encoder-Decoder. Кодировщик понимает исходный текст, а декодер генерирует правильный вариант. Это сократило время генерации в 2 раза без потери качества.

🟢Использование Curriculum learning для постепенного увеличения сложности примеров. Примеры сортировались по расстоянию Левенштейна как показателю сложности.

🟢Фаза претрейна на большом "грязном" наборе данных перед тонкой настройкой на меньшем чистом наборе. Данные для предобучения собирались прогоном текста через существующую модель и добавлением искусственных ошибок. Это стабилизировало поведение на длинных текстах.

Эксперименты привели к ускорению в 2 раза и среднему улучшению качества на 10% на открытых наборах данных.

В Нейроредакторе расширили поддержку Маркдауна. Исходные модели могли непредсказуемо убрать часть спецсимволов или, наоборот, добавить. Это было исправлено путем восстановления разметки и переобучения модели.

🟡Статья

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍197🔥7🗿4🥰1👌1
⚡️ Vikhr: новые модели на 12B и 8B для русского языка с уникальным методом выравнивания.

Vikhr Team — сообщество энтузиастов, занимающихся созданием и развитием русифицированных LLM, выпустили две новые модели, оптимизированные для русского языка в задачах генерации кода, решения математических задач, обобщения, ответов на вопросы и построения логических выводов. Обе модели адаптированы для RAG и могут выступать реранкером на уровне LLM.

▶️ Vikhr-Nemo-12B-Instruct-R-21-09-24 — инструктивная модель на базе Mistral-Nemo-Instruct-2407 с 12 млрд. параметров и контекстным окном в 128К токенов.
В бенчмарке Ru-Arena General, Vikhr-Nemo-12B-Instruct-R-21-09-24 достигла результата в 79.8, уступая только двум моделям семейства GPT-4 .

🟢Версии квантования Vikhr-Nemo-12B-Instruct-R-21-09-24 в разрядности от 3-bit (6.08 Gb) до 16-bit (24.5 GB) в GGUF формате.

▶️ Vikhr-Llama3.1-8B-Instruct-R-21-09-24 — инструктивная модель на базе Meta-Llama-3.1-8B-Instruct с 8 млрд. параметров, контекстным окном в 128К токенов. В Ru-Arena General она показала значение winrate 63.4. По словам Vikhr Team — это лучший результат среди 8B моделей с поддержкой русского языка.

🟠Версии квантования Vikhr-Llama3.1-8B-Instruct-R-21-09-24 в разрядности от 3-bit (4.02 Gb) до 16-bit (16.1 GB) в GGUF формате.

Для файнтюна базовых моделей Mistral-Nemo-12B и Llama-3.1-8B, Vikhr Team разработали уникальный метод выравнивания — Simple Margin Preference Optimization (SMPO).

Он представляет собой микс из техник, заимствованных из CRLFT, IPO и SimPO, с добавлением своей функции потерь. Метод опубликован в репозитории на GitHub в комплекте тулкита скриптов и конфигураций, использовавшихся для обучения представленных моделей.

В процессе обучения моделей использовался кастомный SFT-датасет GrandMaster-PRO-MAX, собранный Vikhr Team самостоятельно, для следования самым разным наборам инструкций на разных языках (в основном на русском) и отвечать также - на русском языке. В него была включена CoT-способность.


📌Лицензирование : Apache 2.0 License.



🟡Модель Vikhr-Nemo-12B-Instruct
🟡Модель Vikhr-Llama3.1-8B-Instruct
🟡GGUF Vikhr-Nemo-12B-Instruct
🟡GGUF Vikhr-Llama3.1-8B-Instruct
🟡Датасет
🟡Demo Vikhr-Nemo-12B-Instruct
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Vikhr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍188😁1
🌟 PDLP: метод быстрого решения задач линейного программирования.

PDLP (PDHG для LP) - это метод быстрого решения задач линейного программирования с высокой точностью, что важно для многих областей применения - от машинного обучения до оптимизации бизнес-процессов.

PDLP ориентирован на решение крупномасштабных задач, где традиционные методы, такие как симплекс-метод и метод внутренних точек, становятся неэффективными из-за необходимости факторизации матриц.

В основе PDLP лежит принцип primaldual hybrid gradient (PDHG), примененный к задаче седловой точки, эквивалентной исходной задаче ЛП. Для повышения эффективности PDHG в PDLP реализован ряд усовершенствований:

🟢адаптивный выбор шага;
🟢адаптивный перезапуск;
🟢динамическое обновление весов первичных переменных;
🟢предварительное решение;
🟢диагональное предобуславливание.

Алгоритм PDLP начинает работу с предварительного решения и диагонального предобуславливания. Предварительное решение упрощает задачу путем выявления и устранения избыточных ограничений, переменных и других упрощений.

Диагональное предобуславливание масштабирует матрицу ограничений для улучшения сходимости алгоритма. После выполнения этих операций запускается основной итерационный процесс PDHG с адаптивным выбором шага и перезапусками.

Для оценки эффективности алгоритма PDLP использовались три набора данных: MIP Relaxations, LP benchmark и Netlib. Результаты сравнивались с baseline PDHG и с другими методами первого порядка: SCS (в прямом и матрично-свободном режимах) и улучшенной реализацией метода экстраградиента.

Эксперименты показали, что PDLP значительно превосходит baseline PDHG по скорости решения задач и количеству решенных задач. При этом PDLP на некоторых задачах показывает производительность, сопоставимую с коммерческим решателем линейного программирования Gurobi.

Важным результатом является успешное применение PDLP для решения задачи ранжирования веб-страниц PageRank, где традиционные методы не справляются из-за больших размеров задачи.

Тестирование проводилось на случайных графах типа Barabási-Albert с макс. количеством узлов до 10^7.

PDLP успешно решил задачи PageRank за 5.4 часа (граф 10^7 узлов с точностью 10^-8), в то время как Gurobi столкнулся с ошибками нехватки памяти.

▶️ Экспериментальная реализация для решения задач линейного программирования методами PDLP на графических процессорах NVIDIA в среде языка программирования Julia:

# set up the necessary packages:
$ julia --project -e 'import Pkg; Pkg.instantiate()'

# run solve.jl script
$ julia --project scripts/solve.jl \
--instance_path=INSTANCE_PATH --output_directory=OUTPUT_DIRECTORY \
--tolerance=TOLERANCE --time_sec_limit=TIME_SEC_LIMIT

# The results are written to JSON and text files
# in is the working directory.


📌Лицензирование : MIT и Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LP #PDLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍8🔥5🥰2