С одной стороны рад, деды воевали заслужили, но по физике Карл!? С другой стороны как бэ и не биология и не совсем математика, а по информатике и кибернетике нет ничего..
А куда бы вы определили этих ребят в рамках доступных Нобелевской премии наук?
Пишем в комментарии.
https://www.nobelprize.org/prizes/physics/2024/press-release/
А куда бы вы определили этих ребят в рамках доступных Нобелевской премии наук?
Пишем в комментарии.
https://www.nobelprize.org/prizes/physics/2024/press-release/
NobelPrize.org
Nobel Prize in Physics 2024
The Nobel Prize in Physics 2024 was awarded jointly to John J. Hopfield and Geoffrey Hinton "for foundational discoveries and inventions that enable machine learning with artificial neural networks"
👍3❤2
Dealer.AI
С одной стороны рад, деды воевали заслужили, но по физике Карл!? С другой стороны как бэ и не биология и не совсем математика, а по информатике и кибернетике нет ничего.. А куда бы вы определили этих ребят в рамках доступных Нобелевской премии наук? Пишем…
Теперь и хемоинформатика пошла.
upd. link
https://www.nobelprize.org/prizes/chemistry/2024/press-release/
upd. link
https://www.nobelprize.org/prizes/chemistry/2024/press-release/
❤12🔥5
Dealer.AI
Теперь и хемоинформатика пошла. upd. link https://www.nobelprize.org/prizes/chemistry/2024/press-release/
OpenAI с хайпом и прорывом с ChGPT и тп. открыл год Меча и Магии в созвездии премий "около MLных" исследований ?)
upd. Ждем следующих номинантов.
upd. Ждем следующих номинантов.
🗿5
This media is not supported in your browser
VIEW IN TELEGRAM
Больше мемов про Нобеля седня не будет...
Наверное
😁58
Недавно обнимашки закинули в репо гайд по оценке LLM моделек.
Ребяты запилили все по полочкам:
1. Автометрики.
2. Оценка кожАных.
3. LLM как судья.
Везде есть база, хинты и даже мета метрики, к примеру в LLM as judge.
Репо: https://github.com/huggingface/evaluation-guidebook
Ребяты запилили все по полочкам:
1. Автометрики.
2. Оценка кожАных.
3. LLM как судья.
Везде есть база, хинты и даже мета метрики, к примеру в LLM as judge.
Репо: https://github.com/huggingface/evaluation-guidebook
GitHub
GitHub - huggingface/evaluation-guidebook: Sharing both practical insights and theoretical knowledge about LLM evaluation that…
Sharing both practical insights and theoretical knowledge about LLM evaluation that we gathered while managing the Open LLM Leaderboard and designing lighteval! - huggingface/evaluation-guidebook
51🔥17
NotebookLM или начало новых подкастов с LM?
Ребята с Google хотели воплотить концепцию society of mind или "дебаты" с AI. Кстати Дядя писал уже об этом тут.
Но вышло в итоге NoteBookLM, где сервис, на базе модели семейства Gemini, может принимать на вход ваши доки/новости/аудио и тп, а на выходе делать аудио-дискуссию по "просмотренным" материалам между двумя llm-агентами.
Ну что теперь AI может пилить подкасты за Вас и по делу по-пИИ*деть🤣
Входим ли мы в новую эру AI-driven подкастов или это кратковременный ажиотаж —поживем, увидим.
Ребята с Google хотели воплотить концепцию society of mind или "дебаты" с AI. Кстати Дядя писал уже об этом тут.
Но вышло в итоге NoteBookLM, где сервис, на базе модели семейства Gemini, может принимать на вход ваши доки/новости/аудио и тп, а на выходе делать аудио-дискуссию по "просмотренным" материалам между двумя llm-агентами.
Ну что теперь AI может пилить подкасты за Вас и по делу по-пИИ*деть
Входим ли мы в новую эру AI-driven подкастов или это кратковременный ажиотаж —поживем, увидим.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁19👍3❤2
Люди вы че снег никогда не нюхали видели? 😦
Ничто так не может перебить хайп от AI, как первый снег.😂
Без шуток пока люд будет так, с детским восторгом, радоваться этому и иным являениям природы, он не станет сурогатом.😁
Наверное.🆒
Ничто так не может перебить хайп от AI, как первый снег.
Без шуток пока люд будет так, с детским восторгом, радоваться этому и иным являениям природы, он не станет сурогатом.
Наверное.
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁32🔥5❤4
Forwarded from что-то на DL-ском
Обожаю! 🤩 Очередная статья про галлюцинации LLM
LLMs Know More Than They Show:
On the Intrinsic Representation of
LLM Hallucinations
В этот раз авторы обнаружили:
✋ Что правильные ответы LLM кроются в определенных токенах. Они смотрели на активации токенов по разным слоям и учили классификатор предсказывать правда/неправда сгенерирована (✨ probing ✨)
Впоследствии можно генерить пару предложений и выбирать правильное классификатором
✋ Анализировали частотность правильной или неправильной генерации подряд и выявили, что есть разные типы ошибок (постоянно правильный, постоянно неправильны). Соответсвенно, когда такую активацию прослеживаем, можем применять сценарии доведения модели до правильного ответа.
Небольшое отступление: to be honest, я чет не прониклась выводами, очень уж напоминает выводы из статьи Anthropic, которую разбирали на reading club, только метод другой (давайте посмотрим как активируются определенные токены в зависимости от контекста, а там нейронные активации)
😠 Ну теперь глобальный минус статьи:
На разных датасетах воспроизвести результаты активаций не вышло. Надо переобучать классификатор. У меня лично, вопрос возникает о том, не частный ли это случай их обнаружений :(
Paper: link
Code обещается быть тут
LLMs Know More Than They Show:
On the Intrinsic Representation of
LLM Hallucinations
В этот раз авторы обнаружили:
Впоследствии можно генерить пару предложений и выбирать правильное классификатором
Небольшое отступление: to be honest, я чет не прониклась выводами, очень уж напоминает выводы из статьи Anthropic, которую разбирали на reading club, только метод другой (давайте посмотрим как активируются определенные токены в зависимости от контекста, а там нейронные активации)
На разных датасетах воспроизвести результаты активаций не вышло. Надо переобучать классификатор. У меня лично, вопрос возникает о том, не частный ли это случай их обнаружений :(
Paper: link
Code обещается быть тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5❤2
Turbo Alignment — новая библиотека для алайнмента от Т-Банка.
Еще совсем недавно была выпущена модель T-lite от Т-Банка. А теперь ребятки открыли доступ к библиотеке Turbo Alignment. Данное решение позволяет из коробки тюнить свои LMки, понижает порог входа для ML специалистов в этом направлении, а также уменьшает time2market решений на базе LLM, тк вам не нужно настраивать собственный пайплайн обучения.
В библиотеке уже доступны:
▶️No-code-запуск экспериментов, скрипты для обучения большого количества алгоритмов, модуль для быстрого тестирования моделей и инструменты для мониторинга метрик во время обучения.
▶️Инструменты для исследований и разработки. Turbo Alignment предоставляет все необходимые средства для добавления новых методов обучения и их сравнения с уже существующими решениями на конкретных задачах. Библиотека создана при участии лаборатории T-Bank AI Research и также дает доступ к последним исследованиям в области AI Alignment.
▶️Поддержка сложных процессов обучения. Turbo Alignment оптимизирован для распределенного обучения на нескольких видеокартах и серверах (Multi-GPU и Multi-Node).
Вот такой вклад в демократизацию работы с LLM внесли ребятки. Код тык тут.
Еще совсем недавно была выпущена модель T-lite от Т-Банка. А теперь ребятки открыли доступ к библиотеке Turbo Alignment. Данное решение позволяет из коробки тюнить свои LMки, понижает порог входа для ML специалистов в этом направлении, а также уменьшает time2market решений на базе LLM, тк вам не нужно настраивать собственный пайплайн обучения.
В библиотеке уже доступны:
▶️No-code-запуск экспериментов, скрипты для обучения большого количества алгоритмов, модуль для быстрого тестирования моделей и инструменты для мониторинга метрик во время обучения.
▶️Инструменты для исследований и разработки. Turbo Alignment предоставляет все необходимые средства для добавления новых методов обучения и их сравнения с уже существующими решениями на конкретных задачах. Библиотека создана при участии лаборатории T-Bank AI Research и также дает доступ к последним исследованиям в области AI Alignment.
▶️Поддержка сложных процессов обучения. Turbo Alignment оптимизирован для распределенного обучения на нескольких видеокартах и серверах (Multi-GPU и Multi-Node).
Вот такой вклад в демократизацию работы с LLM внесли ребятки. Код тык тут.
GitHub
GitHub - turbo-llm/turbo-alignment: Library for industrial alignment.
Library for industrial alignment. Contribute to turbo-llm/turbo-alignment development by creating an account on GitHub.
👍17🫡2
Mistral представил новые модели 3b и 8b.
Все наверное слышали, что заононсили новых малых от крупы🤣
Как обычно зарепортили топ метрики в своем размере🌿
Но есть один нюанс... 👇
Забыли добавить лидеров в этом же сайзе, к примеру, Gemma2 9b 😁 .
Все наверное слышали, что заононсили новых малых от крупы
Как обычно зарепортили топ метрики в своем размере
Но есть один нюанс... 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
mistral.ai
Un Ministral, des Ministraux | Mistral AI
Introducing the world’s best edge models.
😁4
Dealer.AI
Mistral представил новые модели 3b и 8b. Все наверное слышали, что заононсили новых малых от крупы 🤣 Как обычно зарепортили топ метрики в своем размере 🌿 Но есть один нюанс... 👇 Забыли добавить лидеров в этом же сайзе, к примеру, Gemma2 9b 😁 .
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁18👍3
Тк основным топливом для foundation моделей являются публичные корпуса, то в текущих реалиях обладание источниками этих данных теперь уже вопрос конкурентного преимущества. Тенденция на закрытие лицензий понятна, но удручающая. Имеют ли такие сокрытия обратную силу для уже обученных моделек, тоже больной вопрос. Также для создания спасительной синтетики, нужно использовать плоды тех же моделей, обученных на теперь уже закрытых данных.
Вопросы. Вопросы. Вопросы.
👇👇👇👇👇
Вопросы. Вопросы. Вопросы.
👇👇👇👇👇
Forwarded from Kali Novskaya
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp
Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!
Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.
🟣 Что это значит для нас?
Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.
Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.
По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.
🟣 Internet Archive: на контрасте
Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.
Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.
🟣 Критическое окно возможности для открытого знания и открытых данных
Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент
Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.
Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.
Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.
Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.
🟣 А ты записался добровольцем?
Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.
🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp
Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!
Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.
Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.
Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.
По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.
Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.
Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.
Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент
Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.
Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.
Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.
Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.
Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.
🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Please open Telegram to view this post
VIEW IN TELEGRAM
archive.ph
ISBNdb dump, or How Many Books Are Preserved Forever? - Anna’s Blog
archived 15 Jun 2023 12:46:28 UTC
❤10👍2
Сегодня жоский Дядя разбудил меня под ночь, сказал одевайся, бери годовой набор флешек по 2гб и загран паспорт "будем драйвера Nvidia ввозить".
Наверное это конец...
Конец нашей бедности. 🤣
Наверное это конец...
Please open Telegram to view this post
VIEW IN TELEGRAM
😁34❤11😱5