Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
9 примеров самых безумных корреляций

– Потребление сыра / Число до смерти запутавшихся в простынях. Корреляция 94,71%

– Общая выручка аркадных игр / Докторские степени по компьютерным наукам в США. Корреляция 98,51%

– Число людей, утонувших в бассейне / Количество фильмов с Николасом Кейджем. Корреляция 95,24%

– И еще несколько подобных примеров

Ну в общем, теории заговора или почему не всегда стоит доверять корреляциям
🔥7511😁9👍6🤩1
Amazon закрывают магазины Just Walk Out (те самые берешь и уходишь)

Дело в том, что технология не возымела спрос у крупных ретейлеров. Ну хотя «технология» – сказано громко. Еще год назад выяснилось, что ИИ там никакого нет, и записи с камер вручную обрабатывают кожаные работяги из Индии.

С другой стороны, в Amazon утверждают, что люди подключались только когда моделька затруднялась принять решение. Кому верить – непонятно, но ясно, что без массовой ручной разметки и перепроверки тут не обошлось точно.

Мастер класс по тестированию продуктовых гипотез заказывали?
😁58👏185👍5🤯1🙈1
Data Secrets
Время для интересных фактов: – Факт 1: SQLite – самая распространенная БД, сейчас в мире более триллиона активных баз SQLite – Факт 2: SQLite создали и обслуживают всего три человека. Вот они, на фотографии. Хотя проект опенсурс, там не допускается свободный…
Еще один забавный факт про базы данных вдогонку:

Почти все компьютерные системы в мире зависят от единой базы часовых поясов (tz database). Она обновляется, когда происходят изменения в законодательстве: ну например как отмена перевода времени с зимнего на летнее.

Эту базу поддерживают два человека.

Просто представьте: вы с другом можете заставить почти всех людей в мире поставить будильник на час позже 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🫡34🔥172🤔21🤯1🤝1
У Anthropic вышла новая статья.

Называется Many-shot jailbreaking (что-то на гангстерском). Изучают методику долгоконтекстного джейлбрейка, и обещают, что подход способен улучшить эффективность LLM.

Наброски Claude 4, вы ли это?
😁268👍3🔥1
Теперь вы знаете, как должен пахнуть истинный ML-мачо

Заверните два
🔥77😁59👍73
Поиграем с нейросетью?

Оказывается, у tensorflow есть браузерная игра, в которой можно настраивать и обучать нейросеть. Для этого код писать не нужно, надо просто в интерактивном режиме добавлять и удалять слои, настраивать количество нейронов, функцию активации, количество эпох и так далее.

Затем можно запустить трейн, и график справа будет показывать процесс и результат обучения.

Осторожно, можно надолго залипнуть
🥰44🔥17😍62👍2🌚2🗿2
Коллеги, кому товары по акции?
🤯41😁285👍2
Разработчики Принстонского университета зарелизили SWE-агента, который заставляет LLM дебажить код с GitHub

Работает очень красиво: нужно просто отправить issue, и модель выплюнет коммит с решением. Внутри – ИИ-агент на стероидах на промптах, который сам двигается по репозиторию, просматривает, запускает и обрабатывает файлы.

Из фишек: умный линтер для исправления ошибок и вьюер, который во избежании галлюцинаций режет файлы для основной модели по 100 строк (это подобранный разработчиками гиперпараметр).

Пайплайн умеет решать 12,29% багов (а это очень неплохо) и на бенчмарке SWE уже стал опенсурс-SOTA.
👍36🔥105🤔1
Новый уровень распознавания речи от AssemblyAI

Universal-1 – это новая speech2text модель, предобученная на 12.5 милионах часов аудио и затюненая на 1.62 миллионах размеченных и псевдо-размеченных данных. Работает на английском, испанском, французском и немецком. Кстати, написано на JAX.

Напомним: до этого SOTA была модель WhisperX. Однако теперь Universal-1 обгоняет ее:

– и на инференсе: в 5 раз быстрее с распараллеливанием, файлы по 60 минут обрабатывает за 38 секунд (!)

– и по метрикам: работает на 13.5% точнее всех остальных моделей и допускает на 30% меньше галлюцинаций
🔥41👍84
Кстати про JAX, на котором написан новый Universal. В последнее время его популярность набирает обороты, и неспроста.

Многие знают, что JAX очень крут на TPU, но исследование разработчиков Keras 3 показывает, что и для GPU он выигрывает на 7 из 12 бенчмарков (см. таблицу). В остальных случаях быстрее всех оказывается бэкенд TensorFlow. Pytorch не выиграл нигде(

Тем не менее, надо понимать, что скорость зависит от конкретой архитектуры. В данном случае измерялась не наилучшая возможная производительность, а производительность на распространенных юзер-кейсах (брали StableDiffusion, Gemma, Mistral, SegmentAnything и BERT).

А вы на чем пишете?
18👍8🔥5
Средняя зарплата ИИ-специалиста составляет $174 727

Это самая высокая зарплата среди IT-профессий по данным нового отчета Indeed. Оказалось, что если в вакансии есть слово «ИИ», зарплата сразу взлетает на 47%.

Само количество ИИ-вакансий тоже продолжает расти, за полтора года оно увеличилось на 306%. При этом соискателей таких вакансий стало больше на (внимание) 4000%.
👾34😁9👨‍💻63🤨3
Платформа Yandex Cloud запустила программу сертификации по облачным технологиям с учетом российских и международных стандартов.

Сертификат подтверждает знания в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг. Это как TOEFL для английского – один раз написал и надолго получил преимущество при найме.

Экзамен проводится в виде онлайн-тестирования из 65 вопросов. Для успешного прохождения нужно набрать не менее 70% верных ответов. А прокторинг, как и полагается в 2024 году, с ИИ под капотом.

Первый экзамен пройдет 11 апреля (ссылка на запись). Рекомендации по подготовке и участию можно глянуть здесь.
👍11🔥64🤯2🗿1
Haha classic 😕

Глава YouTube Нил Монах пассивно агрессивно предупредил OpenAI о том, что если SORA все-таки обучалась на роликах из YouTube, то это будет явным нарушением правил платформы.

Интересно во всей этой ситуации то, что Google тоже использует видео с YouTube для обучения своих моделей. А еще с сотен других сервисов. Ранее в ответ на иски об авторских правах компания объясняла, что все это честно, ведь их модели «трансформируют данные»…

Любопытно, не жмет ли теперь корпорации новая обувь?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁77👍107🙈6🍌1
Для всех тех, кто выбрал вариант perplexity в опросе выше – наша рекомендация чтива на выходные

Это свежее (совсем свежее, закончено на днях) издание книги Дениса Ротмана «Transformers for Natural Language Processing and Computer Vision».

Текст – шик. Отлично написано про все новейшие модели, включая GPT-4V. Темы включают разбор архитектур, разный тюнинг, работу с HF, RAG и даже AGI. Ну в общем, все самое горячее.

В комплекте еще и репозиторий с кодом и бест практисес туториалами.

Конечно, сама книга платная и в России недоступна. Но она есть в полном объеме на сайте O’Reilly, а там предусмотрен бесплатный пробный период на 7 дней (карту вводить не требуется). В общем, вы знаете, что делать.

Приятного чтения!
2513🔥9👍2
Илон Маск заявил, что Tesla представит Tesla Robotaxi 8 августа.

И у нас есть инсайдерская информация о том, что они уже тестируют технологию 👆
Please open Telegram to view this post
VIEW IN TELEGRAM
😁62👍6🔥42🫡1
Интересный кейс с INNER JOIN с собеседования

Довольно распространенные на собеседованиях SQL-задачки с подвохом обычно каким-то образом связаны с джойнами. Это именно на тема, которые очень многие понимают не совсем верно.

В карточках – один из таких загадочных кейсов на INNER JOIN. Показываем, как ожидания разбиваются о реальность, и рассказываем, почему так происходит.
👍68🔥208🤯2😁1🦄1