Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Илон Маск заявил, что Tesla представит Tesla Robotaxi 8 августа.

И у нас есть инсайдерская информация о том, что они уже тестируют технологию 👆
Please open Telegram to view this post
VIEW IN TELEGRAM
😁62👍6🔥42🫡1
Интересный кейс с INNER JOIN с собеседования

Довольно распространенные на собеседованиях SQL-задачки с подвохом обычно каким-то образом связаны с джойнами. Это именно на тема, которые очень многие понимают не совсем верно.

В карточках – один из таких загадочных кейсов на INNER JOIN. Показываем, как ожидания разбиваются о реальность, и рассказываем, почему так происходит.
👍68🔥208🤯2😁1🦄1
«Да у нас сильная команда: 25 ML-инженеров и один data-инженер»
😁128🔥119👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Мем дня: тут в Твиттере вспомнили, что в третьем Терминаторе Skynet захватил мир, располагая мощностью в 60 терафлопс.

Это менее двух современных RTX 3080.

Хьюстон…
😁135🔥85🕊2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
«Это самый мощный GPU в мире, на его R&D мы потратили примерно 10 миллиардов долларов.» – CEO Nvidia про новое поколение чипов.


Сколько-сколько? 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
😨91👍1462🗿2
The New York Times удивили своей новой статьей: они рассказали о том, как техно-гиганты борются с нехваткой данных для обучения своих ИИ-моделей. Из особенно интересного:

– История начинается с того, что, оказывается, Whisper был разработан OpenAI не просто так, а с целью научиться транскрибировать YouTube видео, чтобы получить больше текстов для обучения GPT-4. Удачно убили двух зайцев, да?

– Google аналогично использовали видео с YouTube для обучения LLM. Кроме того, компания изменила пользовательское соглашение Google Docs и других своих инструментов так, чтобы была легальная возможность использовать данные и оттуда. Самое смешное: чтобы отвлечь внимание от нового соглашения, они выпустили его 1 июля, на выходных в честь Дня Независимости.

– В Meta вообще ничего не стесняются: они рассматривали возможность покупки крупного издательства и скупки лицензий на книги, чтобы без лишнего шума обучать на авторских текстах свои модели.

Короче, советуем прочитать текст полностью, в нем можно найти еще массу интригующих деталей. Вот ссылка.
👍54😁18🔥9🦄64🤯4
Спички Банаха

Был такой польский математик - Стефан Банах. Он сделал много всего великого (например, доказал теорему об открытом отображении). В Польше в честь него даже названа премия по математике.

А еще у него была интересная привычка. Про нее – эта классическая задачка по теорверу.

Кто решит первым?
👍35🤯85🔥4🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
Супергерои в комиксах: 🦸
Супергерои в жизни:
👏47🌭12😁10🫡6🔥4😐4🤨1💅1
Хм, а что если сделать ансамбль из LLM?

Именно так подумали авторы новой статьи More Agents Is All You Need и доказали, что совместное использование нескольких LLM-агентов может на порядок повысить эффективность модели.

Работает просто: подаем промпт сразу нескольким агентам (без шеринга контекста), которые генерируют ответы. Затем к этим ответам применяем majority voting (то есть мнение большинства).

Работает превосходно, и можно понять почему: если модель выдает смесь галлюцинаций с правильными ответами, правильные ответы будут похожи, а галлюцинации - нет.

Чтобы оценить мощь, обратите внимание на график: когда размер ансамбля увеличивается до 15, Llama2-13B достигает точности Llama2-70B, а Llama2-70B и GPT-3.5-Turbo достигают точности, сравнимой с GPT-4.
👍63🔥237👏1
Внимание!

Мы нашли лучшее объяснение transfer learning.

Спасибо за внимание!
😁9210👍8👌3🔥1
Всем стартаперам и любителям пет-проектов на заметку: OpenAI обновили API для файнтюнинга.

– Добавлена песочница, в которой можно крутить и сравнивать модели
– Больше функций для вычисления метрик и тюнинга гиперпараметров
– Появилась встроенная возможность чекпоинтить на каждый эпохе
– Интеграция с Weights и Biases и др.
👍3110🔥6👌1
Сегодня весь день обсуждают "революционную" разработку твиттерского — Whore AI

Дословно: «я потратил 1 год на разработку программы, которая сэкономит деньги, время и нервы миллионам мужчинам».


Мы в стороне не остались, пильнули бота, определяющего говнокодеров по фото. Проверено – работает точнее некуда.

Вместо технического интервью на работу. Проверь коллег: @govnocode_xor_bot
😁119🤯75👍41🔥1
Андрей Карпаты в своем репертуаре: он написал код для обучения GPT-2 на чистом C 🤬

Там примерно 1000 строк кода. Сам Андрей пишет, что это было «quite masochistic» и пришлось помучиться с памятью, указателями и оффсетами тензоров.

Сейчас он переносит все это на CUDA и в ближайшем будущем обещает выпустить видео (под названием «10 часов пыток», видимо).
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯13319🔥11👍7🗿5😁4👏2🤨1
Врачами было выявлено новое серьезное психическое заболевание. Проверьте себя на симптомы:

– Вы легко забываете то, что было сказано в разговоре минуту назад
– Часто вообще не понимаете, о чем идет речь, и вставляете неуместные и неподходящие фразы
– Вы тратите очень много энергии и ресурсов на общение
– Иногда вспоминаете то, чего на самом деле не было

Если вы набрали хотя бы 2 пункта, то у вас LLM. Срочно примите дообучение.
😁145😨227👍4🔥32👨‍💻2🤗2