Machinelearning

⚡️

Релиз Qwen2.5-Coder.

Qwen2.5-Coder - это семейство из 6 LLM : 0,5, 1,5, 3, 7, 14, 32 млрд. параметров, ориентированное на понимание и написание кода на 40 языках программирования.

По сравнению с предыдущим поколением моделей CodeQwen1.5, в Qwen2.5-Coder значительно улучшена генерация, обоснование и исправление кода. При этом сохранились сильные навыки в математике и общих компетенциях.

Семейство основано на Qwen 2.5, количество обучающих лексем было увеличено до 5,5 трлн, в корпус данных вошли исходный код, текстовые кодовые основания, синтетические данные и т. д.

Способности в области программирования старшей модели, Qwen2.5-Coder-32B соответствуют уровню GPT-4o.

Модели 0.5В, 1.5B и 3В получили контекст в 32 тыс. токенов, а 7В, 14В и 32B - 128 тыс. токенов.

В открытый доступ на HuggingFace опубликованы 36 моделей семейства: базовые модели, instruct-версии и GGUF, AWQ, GPTQ-Int8, GPTQ-Int4 форматы инструктивных версий.

⚠️ В ближайшее время (сроки не указаны), разработчики Qwen-Coder планируют запустить сервис real-time кода на сайте Tongyi . Сервис будет поддерживать генерацию веб-сайтов, создание мини-игр и диаграмм данных одним щелчком мыши.

📌Лицензирование:

🟢Модели 0.5В, 1.5В, 7В, 14В и 32В - Apache 2.0 License.
🟠Модель 3B - Qwen-Research license.

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #QwenCoder

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥15❤7😁1🗿1

10.1K views06:09

Machinelearning

✔️

Near Protocol планирует создать самую большую в мире LLM с открытым исходным кодом.

Компания Near Protocol на конференции Redacted в Бангкоке объявила о планах по созданию языковой модели, состоящей из 1,4 трлн. параметров. Новая модель будет в 3,5 раза больше, чем самая большая модель Llama.

Разработка будет осуществляться с помощью краудсорсинга, любой желающий сможет присоединиться к обучению модели. Финансирование проекта, стоимость которого оценивается в 160 млн. долларов, будет осуществляться за счет продажи криптовалютных токенов. Для обучения такой большой модели потребуются «десятки тысяч GPU в одном месте», что потребует разработки новой технологии распределенного обучения.
cointelegraph.com

✔️

X проводит эксперименты с бесплатным доступом к чат-боту Grok AI.

X (ex-Twitter) планирует запустить ограниченную бесплатную версию чат-бота Grok для всех пользователей, значительно расширив аудиторию использования генеративного ИИ. Сейчас Grok доступен только подписчикам X Premium, которых насчитывается около 1,3 миллиона человек, это 0,26% от всей пользовательской базы X.

Бесплатная версия, хотя и с ограниченным использованием (10 запросов каждые 2 часа к Grok2, 20 запросов каждые 2 часа к Grok2-mini, анализ 3 изображений в день), позволит большему числу людей опробовать Grok и может привлечь больше подписок X Premium. Это также может помочь материнской компании X Corp, привлечь критически важные инвестиции в свое ответвление xAI.
socialmediatoday.com

✔️

Китайские технологические гиганты заинтересованы в специалистах в области ИИ.

В Китае обостряется борьба за таланты в области ИИ: местные технологические компании предлагают высокие зарплаты, чтобы привлечь лучших специалистов. Xiaomi проводит специальную сессию по найму экспертов в области ИИ, включая специалистов по ИИ-моделям, компьютерному зрению, глубокому обучению, автономному вождению и обработке естественного языка.

Компания предлагает ускоренный процесс найма для некоторых кандидатов, позволяя им пропустить письменные тесты и напрямую пройти собеседование с соответствующим бизнес-подразделением. Этот шаг обусловлен растущим спросом на специалистов по ИИ, особенно на экспертов по обработке естественного языка, которых активно ищут как крупные компании, так и стартапы.
scmp.com

✔️

NXP разработала ML-алгоритм для оптимизации процесса тестирования чипов.

Алгоритм, аналогичный системам рекомендаций в электронной коммерции, выявляет взаимосвязи между различными тестами и определяет, какие из них дублируют друг друга.

В ходе испытаний на семи микроконтроллерах и процессорах он позволил сократить количество тестов на 42-74%. Несмотря на высокую эффективность, инженеры NXP отмечают необходимость проверки рекомендаций алгоритма с точки зрения инженерной целесообразности.
spectrum.ieee.org

✔️

Ubitus представит инновации в области ИИ на NVIDIA AI Summit Japan 2024.

Ubitus, лидер облачного стриминга, продемонстрирует 3 инновации на базе технологий NVIDIA на саммите в Токио 13 ноября , которые могут изменить не только игровую индустрию, но и другие отрасли.

Первая - робот с искусственным интеллектом, управляемый LLM, работающей на GPU H100.

Вторая - цифровые люди в Unreal Engine 5 на базе NVIDIA ACE будут отличаться памятью разговора, поиском информации c помощью RAG и многоязычными возможностями, обеспечивая динамическое, контекстно-зависимое взаимодействие.

Третья инновация - Ubi-chan, виртуальный персонаж с ИИ, работающий на технологии преобразования текста в речь NVIDIA Riva, с функциями мгновенной реакции на голосовые команды и преобразованием речи в плавные движения губ для реалистичного исполнения.
businesswire.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍13🔥4

7.99K views10:00

Machinelearning

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 NeuroFly: платформа для реконструкции нейронов мозга.

NeuroFly - платформа для полуавтоматической реконструкции из 3D-изображений отдельных нейронов в масштабе всего мозга, использующая глубокое обучение для сегментации и деконволюции изображений.

NeuroFly работает в 3 этапа: сегментация, соединение и корректировка:

🟢На первом этапе выполняется автоматическая сегментация изображения, за которой следует скелетизация для создания чрезмерно сегментированных фрагментов нейронов без ветвей.

🟢На этапе соединения используется 3D-метод отслеживания пути на основе изображений, который устраняет пробелы между сегментами нейронов, не распознанными на первом этапе. Агент перемещается вдоль нейрита, руководствуясь сигналами управления, предсказанными по локальному объему изображения, центрированному на нем. Для прогнозирования вектора кривизны, который определяет локальное продолжение пространственной кривой, используется 3D-сверточная нейронная сеть.

🟢Заключительный этап предполагает участие человека для проверки нескольких неразрешенных позиций. NeuroFly предлагает инструменты корректуры на основе набора плагинов napari, которые позволяют вручную соединять и корректировать сегменты, создавая полные реконструкции нейронов в 3D-визуализации.

NeuroFly поддерживает работу с различными типами данных, в том числе изображения целого мозга в иерархических структурах (IMS, H5, Zarr) в формате Imaris, а также небольшие объемы изображений, сохраненные в формате TIFF с одним каналом.

Функции, основанные на глубоком обучении - сегментация и деконволюция изображений, реализованы в tinygrad, который может работать практически на любом GPU (NVIDIA, AMD, Apple, Qualcomm, Intel).

В NeuroFly реализован экспорт реконструированных нейронов в формате SWC.6

Результаты тестирования NeuroFly показали, что метод аугментации данных значительно улучшает производительность модели сегментации в сложных сценариях, содержащих дендриты и загрязненные изображения. Этап соединения значительно увеличивает показатель полноты во всех тестах с небольшой потерей точности, приводя к общему улучшению показателя F1.

📌Лицензирование: GPL-3.0 License.

🟡

Arxiv

🟡

Набор датасетов

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Neurobilogy #NeuroFly

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30👍9❤6

9.22K views15:00

Machinelearning

✔️

Amazon разрабатывает собственные чипы для ИИ, чтобы снизить зависимость от NVIDIA.

Как сообщает Financial Times, Amazon уже разработала ряд собственных процессоров для ЦОД. Ожидается, что Amazon прольет больше света на свои новые разработки в следующем месяце в рамках анонса линейки чипов Trainium.

Эти чипы были разработаны компанией Annapurna Labs, принадлежащей Amazon, и используются компанией Anthropic.
wccftech.com

✔️

ИИ учит роботов паркуру в виртуальной реальности.

В MIT разработали систему LucidSim, которая использует генеративный ИИ для создания симуляций, обучающих роботов сложным задачам, таким как паркур.

LucidSim использует ChatGPT для создания описаний различных сред, которые затем преобразуются в трехмерную геометрию и физические данные с помощью модели, отображающей эти данные на изображения, сгенерированные ИИ. Робот, обученный с помощью LucidSim, успешно выполнил задачи поиска объекта, преодоление препятствий и подъем по лестнице, с более высокой точностью, чем робот, обученный с помощью традиционных методов.

Исследователи считают, что LucidSim может быть использован для обучения ИИ-агентов, взаимодействующих с реальным миром, от роботов и беспилотных автомобилей до управления экранами компьютеров и смартфонов.
technologyreview.com

✔️

Релиз Sentence Transformers v3.3.0 с улучшенной производительностью для задач NLP.

Sentence Transformers стал более доступным для развертывания в средах с ограниченными ресурсами. Новая версия предоставляет возможность интеграции статического квантования int8 в OpenVINO для 4-х кратного ускорения инференса на CPU со средним снижением производительности всего на 0,36%.

Также представлены: метод обучения с использованием подсказок, который улучшает производительность задач поиска, интеграция техники PEFT и возможность оценки с помощью NanoBEIR.
github.com

✔️

Cast AI представила AI Enabler и функцию динамической миграции без простоев для Kubernetes.

Cast AI, стартап, специализирующийся на управлении операциями Kubernetes анонсировал две новые функции для оптимизации расходов на облачную инфраструктуру и упрощение рабочих нагрузок.

AI Enabler - инструмент, который использует возможности Kubernetes для интеллектуальной маршрутизации запросов к наиболее эффективным LLM, как к открытым моделям, так и к коммерческим, без ущерба для качества.

Вторая новинка — Commercially Supported Container Live Migration, функция, обеспечивающая миграцию без простоев для работающих в состоянии workloads Kubernetes.
Live Migration должно решить проблемы, связанные с перемещением критически важных приложений: базы данных, задачи ИИ и машинного обучения без остановки кластеров.
siliconangle.com

✔️

Fastino анонсировала высокопроизводительные модели, оптимизированные для CPU.

Стартап Fastino вышел из скрытого режима и объявил о привлечении 7 млн. долларов pre-seed финансирования от фондов Microsoft M12 и Insight Partners.

Fastino разрабатывает семейство LLM для устройств с ограниченными ресурсами, которые могут быть развернуты на различных платформах, от периферийных устройств с обычными процессорами до виртуального частного облака.

Компания заявляет, что ее модели работают до 1000 раз быстрее, чем традиционные LLM, и могут запускаться на CPU или NPU.
С сегодняшнего дня открыта запись в waitlist для получения доступа к pre-alpha тестированию моделей.
fastino.ai

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍51❤6🔥3

14.9K views06:09

Machinelearning

📌Исследование различных типов связей между датасетами для улучшения их поиска.

В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

🟢

Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

🟢

Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

🟢

Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

🟢

Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

🟠Извлечение отношений из schema.org.
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

🟠Эвристический подход.
Набор правил, разработанных для каждого типа отношений.

🟠Градиентный бустинг деревьев решений (GBDT).
Метод машинного обучения, основанный на классификации.

🟠Модель T5.
Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.

🟡

Статья в блоге

🟡

Arxiv

🟡

Поиск по датасетам

@ai_machinelearning_big_data

#AI #ML #Google #Datasets #Search

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥55❤9👍7👏1

12.6K views09:19

Machinelearning

🌟 Moirai-MoE: фундаментальная модель временных рядов на основе разреженной смеси экспертов.

Фундаментальные модели временных рядов продемонстрировали впечатляющие результаты в задачах прогнозирования без предварительной настройки. Однако эффективное унифицированное обучение на временных рядах остается открытой проблемой. Существующие методы используют определенный уровень специализации модели, чтобы учесть высокую гетерогенность данных временных рядов.

Moirai-MoE - модель для прогнозирования временных рядов от Salesforce AI Research, использующая один входной/выходной проекционный слой, при этом задача моделирования различных паттернов временных рядов делегируется разреженной смеси экспертов (MoE) в трансформерах.

Moirai-MoE достигает специализации, управляемой данными, и работает на уровне токенов. Для повышения эффективности обучения Moirai-MoE использует целевую функцию только декодера, что позволяет параллельно обучать модель на различных контекстных длинах.

Moirai-MoE была оценена на 39 наборах данных в сценариях прогнозирования внутри и вне распределения. Результаты подтверждают превосходство Moirai-MoE над существующими фундаментальными моделями, включая TimesFM, Chronos и Moirai.

В частности, Moirai-MoE превосходит свою аналогичную модель Moirai на 17% при том же размере модели и превосходит другие фундаментальные модели временных рядов с до 65 раз меньшим количеством активных параметров.

В открытый доступ на HF опубликованы 2 модели:

🟢

Moirai-MoE-1.0-R-Small, 11 млн. активных параметров, 117 млн. общих;

🟢

Moirai-MoE-1.0-R-Base, 86 млн. активных параметров, 935 млн. общих.

▶️Пример использования Moirai-MoE для составления прогнозов:

import matplotlib.pyplot as plt
from gluonts.dataset.repository import dataset_recipes

from uni2ts.eval_util.data import get_gluonts_test_dataset
from uni2ts.eval_util.plot import plot_next_multi
from uni2ts.model.moirai import MoiraiForecast, MoiraiMoEModule

SIZE = "small"  # model size: choose from {'small', 'base'}
CTX = 1000  # context length: any positive integer
BSZ = 32  # batch size: any positive integer

# Load dataset
test_data, metadata = get_gluonts_test_dataset(
    "electricity", prediction_length=None, regenerate=False
)
# Uncomment the below line to find other datasets
# print(sorted(dataset_recipes.keys()))

# Prepare model
model = MoiraiForecast(
    module=MoiraiMoEModule.from_pretrained(
        f"Salesforce/moirai-moe-1.0-R-{SIZE}",
    ),
    mode="autoregressive",
    prediction_length=metadata.prediction_length,
    context_length=CTX,
    patch_size=16,
    num_samples=100,
    target_dim=metadata.target_dim,
    feat_dynamic_real_dim=metadata.feat_dynamic_real_dim,
    past_feat_dynamic_real_dim=metadata.past_feat_dynamic_real_dim,
)

predictor = model.create_predictor(batch_size=BSZ)
forecasts = predictor.predict(test_data.input)

input_it = iter(test_data.input)
label_it = iter(test_data.label)
forecast_it = iter(forecasts)

# Visualize forecasts
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(25, 10))
plot_next_multi(
    axes,
    input_it,
    label_it,
    forecast_it,
    context_length=200,
    intervals=(0.5, 0.9),
    dim=None,
    name="pred",
    show_label=True,
)