Data Secrets

Новости с Turbo ML Conf: AI-Центр Т-Банка открывает доступ к собственной русскоязычной языковой модели в весовой категории 7—8 млрд параметров — T-lite

Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.

После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.

T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.

🔥62👍11❤7😁3✍2🐳1

9K views14:21

Data Secrets

Forwarded from XOR

⚡️ Крупные IT-компании, включая Microsoft, Google, Nvidia, Intel, IBM, PayPal, Amazon и OpenAI, объединились в «Коалицию за безопасный искусственный интеллект» (CoSAI).

🟢Основная цель организации — сделать ИИ безопасным путем предоставления доступа разработчикам к открытым методологиям, фреймворкам и инструментам.

🟢Также первоочередными задачами будут улучшение мониторинга цепочек поставок ПО для ИИ-систем и подготовка специалистов в области кибербезопасности.

🟢Все неплохо, но на этой неделе журналисты выпустили статью о том, что Apple, Nvidia, Anthropic используют для обучения ИИ датасет The Pile, где много мата, религиозных и расовых оскорблений и субтитры более 170к роликов с YouTube (что является нарушением платформы). Более того, некоторые ролики, используемые для обучения, также способствовали распространению теорий заговора и лженауки.

Хоть датасет открытый — звучит все же не как «Коалиция безопасного ИИ»

@xor_journal

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥27😁13👍8❤6

7.92K views17:01

Data Secrets

Новая иерархия инструкций в gpt-4o-mini

Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.

Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).

Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.

Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.

Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.

👍43🔥9❤8👌1

9.1K views06:49

Data Secrets

⚪️ Японские СМИ выражают опасения по поводу LLM. Они говорят, что это «зайцы» в мире СМИ, которые используют контент с сайтов и не генерируют значительного ответного трафика.

Особенно бизнес-моделям сайтов, по их мнению, вредят Perplexity-подобные системы, однако они хотя бы указывают источник. Журналистам удалось доказать, что GPT, например, на некоторые вопросы отвечает чуть ли не дословными отрывками из новостных статей (конечно, без ссылок на источник).

Согласны, обидно получается

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔40😁24❤7👍2🤨1🗿1

8.93K views13:27

Data Secrets

Из пепла Яндекса выходит Nebius, «стартап» с планами стать европейским лидером в области ИИ-вычислений

Нет, такой прекрасный заголовок не мы придумали, а западные СМИ. Так они пишут про компанию, которая стала «преемником» YandexNV. 15 июля YandexNV окончательно распродала все свои активы в России (на ОЧЕНЬ невыгодных условиях), а на днях вот решила менять имя.

Теперь Nebius будет позиционировать себя как фуллстэк компанию по производству AI-инфраструктуры и планирует стать лидером на рынке Европы.

Шансы есть, потому что вообще-то проект Nebius сам по себе существует уже год. Как минимум, бороться за рынок GPU-as-a-service не придется с нуля. К тому же в распоряжении компании есть давнее партнерство с Nvidia и финский датацентр.

Такие дела.

🔥77👍24🤪21🌭6🗿5❤2😁1🙈1💅1

9.41K views06:06

Data Secrets

Психиатр: резюме не может вам угрожать, успокойтесь
Резюме:

😁148👏10🤔6😎4🔥3👍2🤝2

9.11K views09:05

Data Secrets

Там ярко обновился DeepSeek-V2

Вышла версия V2-Chat-0628. Теперь это SOTA среди открытых LLM по арене. Скорее всего, наслаждаться славой моделька будет, пока завтра не выйдет Llama 3 400В, но тем не менее.

Что обновили? Судя по всему, просто провели пост-трейнинг и до обучение на инструкциях. Хотя кроме этого, скорее всего, есть некий «секретный ингредиент»: результаты относительно v2 скакнули слишком сильно.

Получилось аж +17 пунктов по MATH и +14,1 по IFEVAL, а также +26,7 на Arena Hard.

❤20🔥8🤯6👍3

8.6K views11:04

Data Secrets

⚡️

Llama 3 на 400B слили на день раньше

Все, как всегда, благодаря 4chan. Правда весит все чудо 820GB 😝

В интернете уже есть ссылки на торенты. Пару часов назад модель также была замечена на HF под именем miqu2, но сейчас оттуда ее уже почистили.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁60🔥12🤩5👍1🤔1

8.79K views15:10

Data Secrets

Вышло дополнение к очень классной книге «Hands-On Generative AI»

Если еще не читали – обязательно занесите в ридинг лист. Книга новая, вышла в декабре, а теперь вот и обновление со свежими диффузионными и трансформерными архитектурами подоспело.

Что в книге? Если кратко, то просто ВСЕ, что связано с генеративными моделями: разбор трансформера, разбор диффузии, разборы самых известных архитектур и их файнтюнинга. В качестве приятного дополнения главы про Generating Audio.

Читать можно на O’reilly.

👍51🔥14❤8😎1

11.1K views17:29

Data Secrets

⚡️

Breaking! Llama 3.1 405B будет новой SOTA

Как вы помните, вчера модель слили на 4chan. А ночью в сеть просочились и бенчмарки. Выглядит очень сочно, на многих тестах моделька обгоняет даже взрослую GPT-4o.

Вместе с llama 3.1 на 405В параметров выходят 3.1 на 70В и на 8В. Посмотрите в таблице, какой у них мощный прирост относительно обычных троек на то же количество параметров. Есть предположение, что это получилось потому что это не дотренированные или дотюненные с нуля модели, а дестилляции моделей покрупнее.

То есть ученые не сразу обучили модель с 70В или 8В параметрами, а обучили модель с Х параметрами, где Х>>8/70В, а потом провели дистилляцию. Очень интересный подход.

Кажется, у нас наконец будет опенсорс уровня GPT-4o

🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8622👍8❤3😁22

12.3K views06:55

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Такое любим: обновление Google Colab с интерактивными таблицами

В Colab наконец-то добавили функцию InteractiveSheet, с помощью которой можно создавать и редактировать таблицы прямо в ноутбуке.

Идеально для анализа или просто экспорта результатов.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍98🔥29❤10🐳4😁2

9.18K views09:06

Data Secrets

1:40

This media is not supported in your browser

VIEW IN TELEGRAM

В эфире рубрика «обещания Илона Маска»

Отрывок из нового интервью:

«Новый суперкомпьютер xAI в Мемфисе был установлен всего за 19 дней и будет использоваться для обучения Grok 3. Модель ожидается к декабрю, и станет самым мощным ИИ в мире.»

😁39👍22🔥10❤4🌚4

8.28K views12:26

Data Secrets

А вот это круто: Яндекс открывает аспирантуру по искусственному интеллекту

В стиле ИТ-компании все будет практико-ориентировано. Чтобы наука и продукт жили дружно, у студентов будут одновременно руководители из вузов и самого Яндекса. А еще каждый аспирант будет получать… гранты по 800к в год. Кто там говорил про бедных студентов? 🤑

Первый набор начнет учиться этой осенью. Среди партнеров уже НИУ ВШЭ и ИТМО, и компания обещает кратно увеличить их число. Из Яндекса подключатся лиды из беспилотных авто и Yandex Cloud. Задачи будут соответствующие: придумывать способы адаптации YandexGPT, улучшать LLM, повышать безопасность автономного транспорта и другой экшен.

За 3-4 года будет даже возможность скататься на стажировки в зарубежные лабы и университеты + поучаствовать в А* конференциях.

В общем, респект 🫡

Please open Telegram to view this post

VIEW IN TELEGRAM

❤81🔥35😁12🍌2🤓2👍1

10.3K views15:04

Data Secrets

Свершился официальный релиз Llama 3.1!

Моделька потребовала несколько месяцев и несколько сотен млн долларов на обучение, при этом Meta использовала 16тыс. Nvidia H100.

По метрикам: слитые вчера бенчмарки оказались правдой. Модель на 405В действительно составляет сильную конкуренцию GPT-4o, а модели на меньшее количество параметров – GPT-4o mini.

Размер контекста увеличился до 128к. Скачать модели можно с самого Meta.Ai или с Huggingface (если вы еще не скачали с торрентов).

👍38🔥18❤6👀4

8.45K views06:24

Data Secrets

Closed Source VS Open Source

Говорящий о многом график нарисовал любитель из твиттера в честь выхода новой Llama 3.1. Красивое

👍61❤22🤔12⚡2

8.39K views09:05

Data Secrets

Еще несколько интересных технических деталей из статьи Llama 3.1:

➡️ Неожиданно раскрылись детали того, почему обучение сетки дважды прерывали. В статье детально описывается топология кластера из 24к H100. Оказывается, в первый раз обучение прервали из-за того, что 148 из них вышли из строя на ранней стадии предобучения. Во второй раз просто сервер отказал ❤️‍🔥

➡️ С данными тоже забавно: несколько раз их корректировали прямо во время предобучения, чтобы повысить перформанс. Разработчики также полностью отказались от переведенных данных. Вместо этого, чтобы собрать достаточно промптов для тюнинга моделей по определенным скиллам (в частности по математике), они провели масштабный краудсорсинг с экспертами. Теперь понятно, на что ушли сотни миллионов...

➡️ В статье также много интересного про пост-трейнинг с RL. Самое захватывающее: они обнаружили, что даже для моделей с длинным контекстом в DPO при дообучении достаточно использовать только short context data. Это своего рода прорыв. Общая схема пост-обучения на картинке.

К слову про RL: если взглянуть на сравнения по человеческим предпочтениям, то Llama 3.1 сильно уступает GPT-4o. Однако судя по всему OpenAI просто ОЧЕНЬ сильно натаскали свое детище на LMSYS, а значит эти результаты не означают лучший перформанс на реалворлд задачах.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30👍9😁4

9.06K views11:25

Data Secrets

🕺

Каждый MLщик прямо сейчас:

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14618💯76👍3❤2💅2

9.36K views13:23

Data Secrets

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

У Цукерберга тем временем вышло новое интервью (видимо в честь релиза модельки). Некоторые занятные мысли бизнесмена оттуда:

➡️В будущем у нас будет не один ИИ-бог (то есть сверхмодель), а миллиарды ИИ-агентов, которые будут версиями нас самих

➡️Скорее всего, таких агентов будет даже больше, чем людей: художники, предприниматели и бизнес будут создавать сразу много моделей, которые будут взаимодействовать с миром от их лица

➡️Альтман, конечно, заслуживает огромного уважения за его заслуги, но «немного иронично» иметь компанию под названием OpenAI и выпускать закрытые модели 🔵

➡️ У Meta уже есть настроенный вычислительный кластер, некоторые данные и архитектура, а также прямо сейчас они проводят эксперименты для того, чтобы максимально увеличить время обучения их следующей модели — Llama 4

➡️Мы все еще должны отличать человека от интеллекта, загруженного в облако, ведь личностью нас делают не только мысли, но и такие вещи, как энергия и любовь 🥹

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6842👍14😁10🔥1🤔11

8.83K views15:30

Data Secrets

🇫🇷 Mistral разбавляет Llama-повестку дня своей новой моделью

Да-да, еще и дня не прошло с релиза прошлой громкой LLMки, а вот уже и новая подоспела. У свежей Large 2 от французов 123B параметров, контекст как у новой ламы (128к), опенсорс.

Особенно выделяется в математике и программировании. В целом, не SOTA, конечно, но свое почетное место займет. Вот веса на HF.

Видимо, скоро придется вообще из новостей не вылезать, чтобы за всем уследить

😅

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥53👍10❤5

8.99K views17:23

Data Secrets

OpenAI грозит финансовый крах?

По данным нового отчета The Information, в 2024 компания может потерять до 5 миллиардов долларов. По данным их инсайдеров, по состоянию на март этого года OpenAI уже потратила почти $4 миллиарда на аренду серверов.

Плюсом к этому идут затраты на обучение (по оценкам, $3 млрд). Кстати, в начале года на это планировалось потратить всего $800 млн, но что-то пошло не по плану.

+ Зарплаты, которые составляют примерно $1.5 млрд. Учитывая, что общая выручка оценивается примерно в $4 млрд, несложная математика указывает на огромный дефицит. Похоже, Microsoft опять пора готовиться расчехлять кошелек.

Когда у тебя почти самый быстрорастущий бизнес в истории, а денег все равно нет

🔵

Please open Telegram to view this post

VIEW IN TELEGRAM

161🤯16😁13❤2👍2🌭1🤪1

9.41K views07:19

Data Secrets

В продолжении утреннего поста о возможном финансовом крахе OpenAI. Мы заинтересовались и собрали по сети еще несколько свежих артефактов о рынке. Оцените сами:

⚪️ Bloomberg отметил в статье, что инвесторы не уверены, что вложения компаний в ИИ смогут быстро окупиться.
⚪️ Материнская компания Google – Alphabet – превзошла ожидания аналитиков по прибыли, но трейдеры все же негативно восприняли рост капиталовложений Alphabet. На фоне общей картины рынок акций США резко обвалился, падение S&P 500 и Nasdaq стало максимальным с 2022г.
⚪️ Многие стартапы уходят с рынка из-за маленькой возможности роста и дороговизны разработки, из недавнего например: сервис бывшего ML-разработчика Google — CreatorML. Из-за высокой стоимости разработки и поддержки сервиса сервис пришлось закрыть.

Верим в рынок или все-таки пузырь? 😭

Please open Telegram to view this post

VIEW IN TELEGRAM

5948👍15

8.48K views10:45

About

Blog

Apps

Platform