Михаил Гельфанд возвращается в РАН
Известного биоинформатика и борца с фальшивыми диссертациями Михаила Гельфанда, уволенного из Института проблем передачи информации РАН после прихода туда нового начальства, восстановили в должности по суду. Мы поздравляем Михаила Гельфанда и вспоминаем интервью, которое «Системный Блокъ» взял у ученого в 2023 году. Из него вы узнаете, как работают фабрики по производству диссертаций, можно ли отловить купленные научные работы и в каких научных дисциплинах больше всего фальсификаций.
🤖 «Системный Блокъ» @sysblok
Известного биоинформатика и борца с фальшивыми диссертациями Михаила Гельфанда, уволенного из Института проблем передачи информации РАН после прихода туда нового начальства, восстановили в должности по суду. Мы поздравляем Михаила Гельфанда и вспоминаем интервью, которое «Системный Блокъ» взял у ученого в 2023 году. Из него вы узнаете, как работают фабрики по производству диссертаций, можно ли отловить купленные научные работы и в каких научных дисциплинах больше всего фальсификаций.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Системный Блокъ
«Злачные области науки»: Михаил Гельфанд о плагиате, лишении степени и неэффективных чиновниках
В каких научных дисциплинах больше всего фальсификаций? Сколько депутатов лишились научных степеней из-за некорректных заимствований? Как работают фабрики по…
В каких научных дисциплинах больше всего фальсификаций? Сколько депутатов лишились научных степеней из-за некорректных заимствований? Как работают фабрики по…
Перспективы искусственного интеллекта: прогнозы ученых
Как будет развиваться ИИ в ближайшем будущем? Перспективно ли пытаться научить компьютер думать, как человек? Может ли не хватить данных для обучения искусственного интеллекта? Попробуем ответить на эти вопросы.
Невыученный урок
Недавно мы рассказывали о том, что для создания качественного машинного перевода и языковых моделей, нужен совсем не тот же подход, который лингвисты применяют к естественному языку. А как обстоят дела с мышлением? Нужно ли моделировать в компьютере человеческие представления о мире, чтобы усовершенствовать ИИ?
Короткий ответ: тоже нет
Ричард Саттон, признанный ученый в области искусственного интеллекта, ещё в 2019 году пришел к выводу, что долгосрочный прогресс в ИИ был возможен благодаря методам, которые опирались на рост вычислительных мощностей и увеличение доступных вычислительных ресурсов, не пытаясь воссоздать процесс человеческого мышления.
Примеры из прошлого
В 1997 году компьютер Deep Blue победил в шахматах чемпиона мира. Deep Blue играл с помощью brute force поиска — поиска оптимального шага путём перебора большого количества вариантов. Никакого человеческого понимания игры.
Подобная история повторилась в 2016 году с го — игрой, более сложной с точки зрения количества комбинаций. В области компьютерного зрения человеческие знания тоже проиграли статистическому подходу.
Вычисления и данные
Для повышения качества моделей важны не только вычисления, но и данные, на которых обучают модель, причем прежде всего – высокого качества. В случае языковых моделей, например, научные публикации и новости важнее форумов и блогов. Ежегодно количество данных высокого качества растет на 4–5%, а низкого – на 6–17.5%.
Что нас ждет
В случае текстовых данных высокого качества исследователи прогнозируют, что при сохранении текущих трендов их общий запас исчерпается до 2027 года. К счастью, динамика может измениться, да и появление принципиально нового источника данных, например, VR и AR устройств, не стоит исключать.
🤖 «Системный Блокъ» @sysblok
Как будет развиваться ИИ в ближайшем будущем? Перспективно ли пытаться научить компьютер думать, как человек? Может ли не хватить данных для обучения искусственного интеллекта? Попробуем ответить на эти вопросы.
Невыученный урок
Недавно мы рассказывали о том, что для создания качественного машинного перевода и языковых моделей, нужен совсем не тот же подход, который лингвисты применяют к естественному языку. А как обстоят дела с мышлением? Нужно ли моделировать в компьютере человеческие представления о мире, чтобы усовершенствовать ИИ?
Короткий ответ: тоже нет
Ричард Саттон, признанный ученый в области искусственного интеллекта, ещё в 2019 году пришел к выводу, что долгосрочный прогресс в ИИ был возможен благодаря методам, которые опирались на рост вычислительных мощностей и увеличение доступных вычислительных ресурсов, не пытаясь воссоздать процесс человеческого мышления.
Примеры из прошлого
В 1997 году компьютер Deep Blue победил в шахматах чемпиона мира. Deep Blue играл с помощью brute force поиска — поиска оптимального шага путём перебора большого количества вариантов. Никакого человеческого понимания игры.
Подобная история повторилась в 2016 году с го — игрой, более сложной с точки зрения количества комбинаций. В области компьютерного зрения человеческие знания тоже проиграли статистическому подходу.
Вычисления и данные
Для повышения качества моделей важны не только вычисления, но и данные, на которых обучают модель, причем прежде всего – высокого качества. В случае языковых моделей, например, научные публикации и новости важнее форумов и блогов. Ежегодно количество данных высокого качества растет на 4–5%, а низкого – на 6–17.5%.
Что нас ждет
В случае текстовых данных высокого качества исследователи прогнозируют, что при сохранении текущих трендов их общий запас исчерпается до 2027 года. К счастью, динамика может измениться, да и появление принципиально нового источника данных, например, VR и AR устройств, не стоит исключать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео
Рассказываем, что произошло в мире ИИ за последние две недели.
Новинки от Anthropic
Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.
Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.
Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.
Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.
Генерация видео для всех
Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.
Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.
Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.
Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.
LLM + поиск = ?
OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.
Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.
Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последние две недели.
Новинки от Anthropic
Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.
Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.
Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.
Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.
Генерация видео для всех
Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.
Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.
Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.
Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.
LLM + поиск = ?
OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.
Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.
Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Между Пушкиным и Цоем: дата-анализ отечественной литературы в школьной программе
В третьей части нашего дата-исследования школьной программы мы рассказываем об отечественной литературе. В первой разбирались с литературой зарубежной, а во второй – с текстами народов СССР.
Кратко: о чем третья часть?
На протяжении XX и XXI веков школьные программы по литературе сильно изменились, мы обнаружили всего 16 текстов, которые встречаются в 90% из них. Это, например, «Вишнёвый сад», «Война и мир» и «Горе от ума». В остальном список литературы оказался менее стабилен.
Самые ранние программы в нашем корпусе относятся к 1919 и 1922 годам, когда список чтения ещё не слишком изменился после революции. Тогда в школе было больше произведений XVIII века и много античных авторов — читали Гомера, Софокла и Аристофана.
В полном смысле советский литературный канон сформировался ближе к 1930-м годам, но был не слишком стабильным. Если в начале 1930-х школьники изучали творчество Анны Ахматовой, Федора Достоевского и расстрелянного в 1921 году Николая Гумилёва, то к 1940-м их произведения были исключены. Зато появились «Сказание о Сталине» и «Плач о Ленине».
В 1950-х и 1960-х изменения продолжились: меньше стало Горького с Лермонтовым, исчезли Жуковский и Короленко. Их место заняли современные писатели-соцреалисты Твардовский, Кочетов и Федин (спойлер:сейчас соцреализм снова возвращается в школы ).
После 1970-х годов программы менялись уже не столь радикально: 42 произведения встречаются во всех программах последних 50 лет. И всё-таки один важный для школьной программы год точно стоит отметить. В 1991 в список литературы возвращаются Булгаков, Ахматова и Гумилёв. Впервые появляются тексты Солженицына, Цветаевой, Пастернака, Мандельштама и Бродского. По выбору – Окуджавы и Цоя.
Узнать больше о судьбе разных писателей до Лимонова и Прилепина в школьной программе, текстах Горького, которые школьники читали в разные годы, и состоянии школьного канона сегодня, можно из полной версии материала.
🤖 «Системный Блокъ» @sysblok
В третьей части нашего дата-исследования школьной программы мы рассказываем об отечественной литературе. В первой разбирались с литературой зарубежной, а во второй – с текстами народов СССР.
Кратко: о чем третья часть?
На протяжении XX и XXI веков школьные программы по литературе сильно изменились, мы обнаружили всего 16 текстов, которые встречаются в 90% из них. Это, например, «Вишнёвый сад», «Война и мир» и «Горе от ума». В остальном список литературы оказался менее стабилен.
Самые ранние программы в нашем корпусе относятся к 1919 и 1922 годам, когда список чтения ещё не слишком изменился после революции. Тогда в школе было больше произведений XVIII века и много античных авторов — читали Гомера, Софокла и Аристофана.
В полном смысле советский литературный канон сформировался ближе к 1930-м годам, но был не слишком стабильным. Если в начале 1930-х школьники изучали творчество Анны Ахматовой, Федора Достоевского и расстрелянного в 1921 году Николая Гумилёва, то к 1940-м их произведения были исключены. Зато появились «Сказание о Сталине» и «Плач о Ленине».
В 1950-х и 1960-х изменения продолжились: меньше стало Горького с Лермонтовым, исчезли Жуковский и Короленко. Их место заняли современные писатели-соцреалисты Твардовский, Кочетов и Федин (спойлер:
После 1970-х годов программы менялись уже не столь радикально: 42 произведения встречаются во всех программах последних 50 лет. И всё-таки один важный для школьной программы год точно стоит отметить. В 1991 в список литературы возвращаются Булгаков, Ахматова и Гумилёв. Впервые появляются тексты Солженицына, Цветаевой, Пастернака, Мандельштама и Бродского. По выбору – Окуджавы и Цоя.
Узнать больше о судьбе разных писателей до Лимонова и Прилепина в школьной программе, текстах Горького, которые школьники читали в разные годы, и состоянии школьного канона сегодня, можно из полной версии материала.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как найти в геноме проблему? Базы данных и секвенирование здоровых людей
Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Но зачем читать геномы здоровых людей? Почему важно, чтобы в базах данных были представлены разные популяции? Как вопросы секвенирования решают в России? Рассказывает Нина Андреева, медицинский биоинформатик, исследовательница Лаборатории мультиомики Центра живых систем МФТИ.
Кратко: о чем статья?
Секвенирование — это метод, который используется для исследования ДНК и РНК и входящих в них белков. Первый геном человека был секвенирован в 2001 году. На это ушло более 10 лет исследований и около 3 млрд долларов. А сегодня секвенирование генома — достаточно рядовой анализ, хотя и не самый дешёвый: его стоимость составляет около 1000 долларов. Миллионы образцов человеческих геномов уже отсеквенированы.
Одна из важнейших целей секвенирования — уточнить диагноз у людей, которые страдают от генетических заболеваний, но сбор данных о геномах условно здоровых людей не менее важен – он помогает различать опасные и безопасные варианты.
Если вариант ДНК встречается в базах данных с геномами здоровых людей часто, то он, скорее всего, безопасен. Для проверки редких патогенных вариантов (тех, что могут вызвать болезни), используются международные базы данных. Например, GnomAD — самая крупная бесплатная база, содержащая сведения о геномах разных популяций.
В базе GnomAD отдельно вынесены популяции финнов, амишей и евреев Ашкенази, но этого явно недостаточно, и огромное количество популяций в мире все еще остается непредставленными. Эта проблема актуальна и для России.
В октябре 2024 года появилась «База данных популяционных частот генетических вариантов населения Российской Федерации», которая помогает отсекать распространенные в российской популяции варианты и более точно находить причину заболеваний. Правда, в ней нет деления на более мелкие популяции, которые стоило бы исследовать отдельно, ведь геном жителя Кавказа будет отличаться от генома жителя Якутии.
Узнать подробнее о том, как базы данных помогают выявлять причины моногенных и полигенных заболеваний, а также о процессе изучения генетических заболеваний, можно из полной версии статьи.
Время чтения: 8 минут.
🤖 «Системный Блокъ» @sysblok
Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Но зачем читать геномы здоровых людей? Почему важно, чтобы в базах данных были представлены разные популяции? Как вопросы секвенирования решают в России? Рассказывает Нина Андреева, медицинский биоинформатик, исследовательница Лаборатории мультиомики Центра живых систем МФТИ.
Кратко: о чем статья?
Секвенирование — это метод, который используется для исследования ДНК и РНК и входящих в них белков. Первый геном человека был секвенирован в 2001 году. На это ушло более 10 лет исследований и около 3 млрд долларов. А сегодня секвенирование генома — достаточно рядовой анализ, хотя и не самый дешёвый: его стоимость составляет около 1000 долларов. Миллионы образцов человеческих геномов уже отсеквенированы.
Одна из важнейших целей секвенирования — уточнить диагноз у людей, которые страдают от генетических заболеваний, но сбор данных о геномах условно здоровых людей не менее важен – он помогает различать опасные и безопасные варианты.
Если вариант ДНК встречается в базах данных с геномами здоровых людей часто, то он, скорее всего, безопасен. Для проверки редких патогенных вариантов (тех, что могут вызвать болезни), используются международные базы данных. Например, GnomAD — самая крупная бесплатная база, содержащая сведения о геномах разных популяций.
В базе GnomAD отдельно вынесены популяции финнов, амишей и евреев Ашкенази, но этого явно недостаточно, и огромное количество популяций в мире все еще остается непредставленными. Эта проблема актуальна и для России.
В октябре 2024 года появилась «База данных популяционных частот генетических вариантов населения Российской Федерации», которая помогает отсекать распространенные в российской популяции варианты и более точно находить причину заболеваний. Правда, в ней нет деления на более мелкие популяции, которые стоило бы исследовать отдельно, ведь геном жителя Кавказа будет отличаться от генома жителя Якутии.
Узнать подробнее о том, как базы данных помогают выявлять причины моногенных и полигенных заболеваний, а также о процессе изучения генетических заболеваний, можно из полной версии статьи.
Время чтения: 8 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Зачем секвенировать здоровых людей?
Геном человека расшифровали несколько десятков лет назад. При этом базы данных генома постоянно пополняются. Рассказываем, зачем в них нужны геномы здоровых людей.
Как анализ данных предсказывает успех художника?
Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.
Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.
На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.
Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.
Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?
🤖 «Системный Блокъ» @sysblok
Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.
Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.
На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.
Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.
Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Рембрандт к успеху шел — не фартануло - Системный Блокъ
Как анализ данных предсказывает успех художника
Достоевский и цифровые технологии
Сегодня День рождения Федора Михайловича Достоевского. В этот день мы предлагаем вспомнить три материала «Системного Блока»: о судьбе Достоевского в школьных списках чтения, о том, как мы обучали нейросеть генерировать тексты в его стиле и о самых частых словах в его произведениях.
Достоевский и школьная программа
Недавно мы рассказывали, что только 16 произведений встречались в 90% всех советских и современных программ. Ни одного текста Достоевского среди них нет.
Хотя сегодня представить список чтения без «Преступления и наказания» может быть сложно, несколько поколений советских школьников его творчество не изучали. Из-за резко консервативных антиреволюционных взглядов (вспомните роман «Бесы» или публицистический цикл «Дневник писателя») Достоевского исключили из программы в конце 1930-х и вернули только в 1967.
Подробнее о Достоевском и других писателях в школьной программе узнаете из нашего спецпроекта.
Достоевский и языковая модель
Для туторила по fine-tuning (способу улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок) мы выбрали маленькую версию русскоязычной модели ruGPT3 и готовый корпус произведений Достоевского. Подстраиваясь под стиль писателя, модель сгенерировала, например, фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…».
Узнать о дообучении нейросетей и этом эксперименте больше, можно здесь.
Достоевский, Россия, женщины и дети
Не обошелся без Достоевского и двухчастный гайд «Системного Блока» по Voyant Tools. Этот инструмент помогает, например, с поиском коллокаций (слов, которые чаще всего встречаются рядом с заданным). По корпусу Достоевского, например, мы определили, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики. А ещё выяснили, кто встречается в текстах писателя чаще — ребенок, женщина или старик (спойлер:ребенок! ).
🤖 «Системный Блокъ» @sysblok
Сегодня День рождения Федора Михайловича Достоевского. В этот день мы предлагаем вспомнить три материала «Системного Блока»: о судьбе Достоевского в школьных списках чтения, о том, как мы обучали нейросеть генерировать тексты в его стиле и о самых частых словах в его произведениях.
Достоевский и школьная программа
Недавно мы рассказывали, что только 16 произведений встречались в 90% всех советских и современных программ. Ни одного текста Достоевского среди них нет.
Хотя сегодня представить список чтения без «Преступления и наказания» может быть сложно, несколько поколений советских школьников его творчество не изучали. Из-за резко консервативных антиреволюционных взглядов (вспомните роман «Бесы» или публицистический цикл «Дневник писателя») Достоевского исключили из программы в конце 1930-х и вернули только в 1967.
Подробнее о Достоевском и других писателях в школьной программе узнаете из нашего спецпроекта.
Достоевский и языковая модель
Для туторила по fine-tuning (способу улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок) мы выбрали маленькую версию русскоязычной модели ruGPT3 и готовый корпус произведений Достоевского. Подстраиваясь под стиль писателя, модель сгенерировала, например, фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…».
Узнать о дообучении нейросетей и этом эксперименте больше, можно здесь.
Достоевский, Россия, женщины и дети
Не обошелся без Достоевского и двухчастный гайд «Системного Блока» по Voyant Tools. Этот инструмент помогает, например, с поиском коллокаций (слов, которые чаще всего встречаются рядом с заданным). По корпусу Достоевского, например, мы определили, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики. А ещё выяснили, кто встречается в текстах писателя чаще — ребенок, женщина или старик (спойлер:
Please open Telegram to view this post
VIEW IN TELEGRAM
Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода
Рассказываем, что произошло в мире ИИ за последнее время.
ИИ-лаборатории ищут новые пути развития
Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения.
При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.
Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.
Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.
AlphaFold3 стала доступна для исследователей
Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.
AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.
Qwen2.5-Coder — новая лучшая открытая модель для кода
Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.
Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
ИИ-лаборатории ищут новые пути развития
Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения.
При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.
Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.
Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.
AlphaFold3 стала доступна для исследователей
Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.
AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.
Qwen2.5-Coder — новая лучшая открытая модель для кода
Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.
Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Смерть на улице: как бездомность сокращает жизнь и что об этом знает статистика
Потеря человеком постоянного места жительства приводит к невозможности получать постоянную и полноценную медицинскую помощь. В результате бездомные теряют 19 лет жизни, умирая намного раньше остальных россиян. «Системный Блок» вместе с благотворительной организацией «Ночлежка» @nochlezhka, Благотворительной больницей @charityhospital и платформой «Если быть точным» @tochno_st изучил данные о причинах смертности бездомных женщин и мужчин.
Мужчины и женщины
За 2023 год в России умерли 57,5 тыс. бездомных людей, 73% из которых — мужчины, 27% — женщины. Такая диспропорция объясняется тем, что мужчины чаще оказываются на улице. При этом «женщины чаще находятся в ситуации скрытой бездомности. Например, соглашаются на ужасные условия проживания хоть где-то. При этом им приходится терпеть неприятное отношение, физическое или сексуализированное насилие», — объясняет специалист «Ночлежки» по социальной работе Ксения Ершова.
Причины смерти
Как посчитали в «Если быть точным», бездомные чаще остальных россиян умирают от внешних причин (шанс умереть в 3,6 раза выше). Выше и риск смерти от инфекционных болезней и заболеваний пищеварения и дыхания. При этом 68% смертей от инфекционных и паразитарных заболеваний — это смерти от ВИЧ, ещё 24% — от туберкулеза, 4% — от гепатита.
Медицинская помощь
Бездомные люди, если у них нет документов (паспорт РФ и полис ОМС), могут получить бесплатно только экстренную медицинскую помощь. Лечить хронические болезни, которые часто развиваются у бездомных, без паспорта или регистрации затруднительно. По закону человек без документов может находиться в больнице до двух недель. Дальше, по усмотрению врача, его могут оставить в стационаре, но часто людей выписывают.
Подробнее о том, как проживание на улице сокращает жизнь, и о том, как «Ночлежка» и другие организации помогают бездомным, узнаете из полной версии материала.
Время чтения: 11 минут.
🤖 «Системный Блокъ» @sysblok
Потеря человеком постоянного места жительства приводит к невозможности получать постоянную и полноценную медицинскую помощь. В результате бездомные теряют 19 лет жизни, умирая намного раньше остальных россиян. «Системный Блок» вместе с благотворительной организацией «Ночлежка» @nochlezhka, Благотворительной больницей @charityhospital и платформой «Если быть точным» @tochno_st изучил данные о причинах смертности бездомных женщин и мужчин.
Мужчины и женщины
За 2023 год в России умерли 57,5 тыс. бездомных людей, 73% из которых — мужчины, 27% — женщины. Такая диспропорция объясняется тем, что мужчины чаще оказываются на улице. При этом «женщины чаще находятся в ситуации скрытой бездомности. Например, соглашаются на ужасные условия проживания хоть где-то. При этом им приходится терпеть неприятное отношение, физическое или сексуализированное насилие», — объясняет специалист «Ночлежки» по социальной работе Ксения Ершова.
Причины смерти
Как посчитали в «Если быть точным», бездомные чаще остальных россиян умирают от внешних причин (шанс умереть в 3,6 раза выше). Выше и риск смерти от инфекционных болезней и заболеваний пищеварения и дыхания. При этом 68% смертей от инфекционных и паразитарных заболеваний — это смерти от ВИЧ, ещё 24% — от туберкулеза, 4% — от гепатита.
Медицинская помощь
Бездомные люди, если у них нет документов (паспорт РФ и полис ОМС), могут получить бесплатно только экстренную медицинскую помощь. Лечить хронические болезни, которые часто развиваются у бездомных, без паспорта или регистрации затруднительно. По закону человек без документов может находиться в больнице до двух недель. Дальше, по усмотрению врача, его могут оставить в стационаре, но часто людей выписывают.
Подробнее о том, как проживание на улице сокращает жизнь, и о том, как «Ночлежка» и другие организации помогают бездомным, узнаете из полной версии материала.
Время чтения: 11 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Советские учебники: возрождение в цифре
Согласно статистике «Яндекс Вордстат» интерес к советским учебникам стабильно сохраняется на протяжении всего учебного года и падает во время летних каникул. Значит ли это, что учителя или родители используют эту литературу? Зачем? Мы обратились к бесплатным ресурсам и проанализировали их: пользуясь рубрикатором или открытой статистикой, посмотрели предметный состав архивов, а также обратили внимание на комментарии составителей.
1️⃣ Библиотека Ушинского
Электронная библиотека «Школьные учебники» — основной ресурс старых оцифрованных учебников, где представлено 90 учебников, 101 исследование и 300 авторов. Все издания вычитаны и оцифрованы, так что пользователи могут свободно перемещаться по структуре издания и производить поиск по тексту. Особенно много здесь учебников по русскому, но встречаются и другие дисциплины – вплоть до церковнославянского.
2️⃣ Любительский цифровой архив советских учебников
Сайт «Советские учебники» — это самостоятельный ресурс, который поддерживается одним человеком. Здесь можно найти .pdf и .djvu версии не только учебников по языкам и математике, но и, например, по овощеводству, стенографии и… плаванию!
3️⃣ Цифровой музей советской эпохи
Учебникам посвящен целый раздел сайта «Советское время». В этом архиве, к примеру, есть книга «Физика и музыка» (1962 г.), в 11-й главе которой рассказывается о том, как сочиняют музыку «электронные композиторы» — кибернетические машины.
❓ Кто занимается оцифровкой и публикацией?
Мы почитали обсуждение советских учебников в соцсетях и поговорили с авторами ресурсов и учителями. Оказалось, что большинство любительских ресурсов с учебниками в открытом доступе созданы энтузиастами, которые считают советское образование лучшим в мире и хотят сохранить наследие этой эпохи.
Узнать подробнее об отношении родителей и учителей к советским учебникам и их цифровым версиям, а также о других ресурсах, где можно найти нужные пособия, можно из полной версии материала.
🤖 «Системный Блокъ» @sysblok
Согласно статистике «Яндекс Вордстат» интерес к советским учебникам стабильно сохраняется на протяжении всего учебного года и падает во время летних каникул. Значит ли это, что учителя или родители используют эту литературу? Зачем? Мы обратились к бесплатным ресурсам и проанализировали их: пользуясь рубрикатором или открытой статистикой, посмотрели предметный состав архивов, а также обратили внимание на комментарии составителей.
Электронная библиотека «Школьные учебники» — основной ресурс старых оцифрованных учебников, где представлено 90 учебников, 101 исследование и 300 авторов. Все издания вычитаны и оцифрованы, так что пользователи могут свободно перемещаться по структуре издания и производить поиск по тексту. Особенно много здесь учебников по русскому, но встречаются и другие дисциплины – вплоть до церковнославянского.
Сайт «Советские учебники» — это самостоятельный ресурс, который поддерживается одним человеком. Здесь можно найти .pdf и .djvu версии не только учебников по языкам и математике, но и, например, по овощеводству, стенографии и… плаванию!
Учебникам посвящен целый раздел сайта «Советское время». В этом архиве, к примеру, есть книга «Физика и музыка» (1962 г.), в 11-й главе которой рассказывается о том, как сочиняют музыку «электронные композиторы» — кибернетические машины.
Мы почитали обсуждение советских учебников в соцсетях и поговорили с авторами ресурсов и учителями. Оказалось, что большинство любительских ресурсов с учебниками в открытом доступе созданы энтузиастами, которые считают советское образование лучшим в мире и хотят сохранить наследие этой эпохи.
Узнать подробнее об отношении родителей и учителей к советским учебникам и их цифровым версиям, а также о других ресурсах, где можно найти нужные пособия, можно из полной версии материала.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Обзор цифровых архивов советских учебников
«Системный Блокъ» изучил, где найти оцифрованные советские учебники, кто создаёт такие архивы и кто ими пользуется.
Антипапа, телеграф и RAR-архив: долгая жизнь кодовых книг
Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.
📕 Как устроена кодовая книга?
Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).
📗 Какие кодовые книги были в средневековье?
Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.
📘 Что изменил телеграф?
С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.
📙 Что стало с кодовыми книгами?
С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.
Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.
🤖 «Системный Блокъ» @sysblok
Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.
📕 Как устроена кодовая книга?
Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).
📗 Какие кодовые книги были в средневековье?
Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.
📘 Что изменил телеграф?
С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.
📙 Что стало с кодовыми книгами?
С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.
Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Антипапа, телеграф и RAR-архив: долгая жизнь кодовых книг - Системный Блокъ
Кодовые книги — инструмент преобразования информации, который появился в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации, причем корни некоторых современных алгоритмов сжатия напрямую восходят к кодовым…
ЕГЭ, ОГЭ и современные тексты: школьный канон сегодня
В рамках дата-исследования «Системного Блока» о школьном каноне, мы уже рассказывали о судьбе русских и зарубежных авторов, и даже текстах народов СССР в школьной программе. Сегодня фокусируемся на современных произведениях и экзаменах, которые определяют содержание уроков литературы.
🌞 Кого читают?
С 2016 года в списки произведений вошел большой пласт современной литературы: школьникам предлагалось изучить тексты Василия Аксенова, Светланы Алексиевич, Бориса Акунина*, Дмитрия Быкова*, Виктора Пелевина, Мариам Петросян, Людмилы Петрушевской, Захара Прилепина, Людмилы Улицкой*. После 2023 года из этого списка остался лишь Прилепин.
🔫 «Застывает» ли школьный канон?
Мы поговорили с Михаилом Павловцом, доктором филологических наук и преподавателем лицея НИУ ВШЭ, чтобы понять, как меняется список чтения сегодня. Согласно его комментарию, сейчас мы «переживаем этап “замораживания” канона: в основном если в него и вводятся какие-то произведения — они в него возвращаются из позднесоветских программ по литературе (вроде романов Островского или Фадеева), а редкие исключения — как публицистическая книга митрополита Тихона (Шевкунова) — безусловно скорее историософский манифест, чем художественное или серьезное научное произведение».
🪓 Как связаны ЕГЭ и школьная программа?
Кодификаторы ЕГЭ содержат обязательный минимум, необходимый для сдачи экзамена. Эти нормативные документы меняются редко, однако их состав отличается от примерных программ по литературе. Например, в 2006 году там не было Ломоносова, Карамзина, Крылова и многих других авторов. К 2009 году это изменилось, но затем кодификатор не менялся до 2021.
В 2021 году программа ЕГЭ стала объемнее (в первую очередь за счет своей необязательной части), в 2022 – продолжила расширяться, а в 2024 снова обновилась. В этот раз в неё вошли «Что делать?» Николая Чернышевского, «Как закалялась сталь» Николая Островского и историко-публицистическое исследование митрополита Тихона (Шевкунова) «Гибель империи. Российский урок».
Узнать больше об этих и других изменениях в школьной программе за последние 100 лет, а также о том, когда в список для ОГЭ вошли «Поучение» Владимира Мономаха и «Домострой», можно из полной версии материала.
🤖 «Системный Блокъ» @sysblok
*признаны иностранными агентами в РФ
В рамках дата-исследования «Системного Блока» о школьном каноне, мы уже рассказывали о судьбе русских и зарубежных авторов, и даже текстах народов СССР в школьной программе. Сегодня фокусируемся на современных произведениях и экзаменах, которые определяют содержание уроков литературы.
С 2016 года в списки произведений вошел большой пласт современной литературы: школьникам предлагалось изучить тексты Василия Аксенова, Светланы Алексиевич, Бориса Акунина*, Дмитрия Быкова*, Виктора Пелевина, Мариам Петросян, Людмилы Петрушевской, Захара Прилепина, Людмилы Улицкой*. После 2023 года из этого списка остался лишь Прилепин.
Мы поговорили с Михаилом Павловцом, доктором филологических наук и преподавателем лицея НИУ ВШЭ, чтобы понять, как меняется список чтения сегодня. Согласно его комментарию, сейчас мы «переживаем этап “замораживания” канона: в основном если в него и вводятся какие-то произведения — они в него возвращаются из позднесоветских программ по литературе (вроде романов Островского или Фадеева), а редкие исключения — как публицистическая книга митрополита Тихона (Шевкунова) — безусловно скорее историософский манифест, чем художественное или серьезное научное произведение».
Кодификаторы ЕГЭ содержат обязательный минимум, необходимый для сдачи экзамена. Эти нормативные документы меняются редко, однако их состав отличается от примерных программ по литературе. Например, в 2006 году там не было Ломоносова, Карамзина, Крылова и многих других авторов. К 2009 году это изменилось, но затем кодификатор не менялся до 2021.
В 2021 году программа ЕГЭ стала объемнее (в первую очередь за счет своей необязательной части), в 2022 – продолжила расширяться, а в 2024 снова обновилась. В этот раз в неё вошли «Что делать?» Николая Чернышевского, «Как закалялась сталь» Николая Островского и историко-публицистическое исследование митрополита Тихона (Шевкунова) «Гибель империи. Российский урок».
Узнать больше об этих и других изменениях в школьной программе за последние 100 лет, а также о том, когда в список для ОГЭ вошли «Поучение» Владимира Мономаха и «Домострой», можно из полной версии материала.
*признаны иностранными агентами в РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Между Пушкиным и Горьким: дата-исследование «Системного Блока» школьной программы по литературе Системный Блокъ
Между Пушкиным и Горьким:русская литература в школьной программе Когда советские и российские школьники проходили на литературе
Утечка доступа к Sora, открытые аналоги OpenAI o1, протокол общения между LLM и приложениями от Anthropic
Рассказываем, что произошло в мире ИИ за последние две недели.
Утечка доступа к Sora
Группа художников с ранним доступом к видеогенератору Sora выступила против условий тестирования OpenAI и опубликовала программу для работы с нейросетью.
Согласно правилам OpenAI, художники получают доступ к Sora для исследования её возможностей, поиска уязвимостей (включая генерацию нежелательного контента) и предоставления обратной связи разработчикам.
В открытом письме участники программы критикуют многомиллиардную компанию за использование их труда без справедливой компенсации. Авторы письма не против использования ИИ в искусстве, но не согласны с подходом OpenAI. Художники также опубликовали примеры работ Sora и программу с доступом к закрытому API, позволяющую любому экспериментировать с нейросетью.
В ответ OpenAI через три часа отключила доступ всем участникам тестирования.
Нейросеть Sora была представлена ещё в марте. Затем несколько компаний представили аналоги, в том числе и открытые для использования, на которые ссылаются авторы письма.
Рассуждающие модели от китайских лабораторий
Две китайские лаборатории выпустили LLM, обученные генерировать цепочки размышлений перед ответом. Подобную технику улучшения качества ответа ранее представила компания OpenAI вместе с моделями o1.
Первая модель DeepSeek R1-Lite от лаборатории DeepSeek опережает o1-preview в задачах по математике и программированию, однако хуже нее в задачах на логические рассуждения. Качество ответов модели от DeepSeek растет с увеличением длины рассуждений (её можно варьировать). R1-Lite можно попробовать совершенно бесплатно. Релиз кода и весов модели, а также технический отчёт, по словам лаборатории, должен произойти в ближайшее время.
Вторая модель, QwQ-32B-Preview от лаборатории Qwen, по качеству также сопоставима с моделями o1 и доступна всем желающим. Она находится на ранней стадии разработки, и поэтому у неё есть ограничения и несовершенства.
Открытые данные о методах обучения рассуждающих моделей и доступ к ним позволят open-source сообществу сократить отставание от закрытых коммерческих компаний.
Открытый протокол для общения между LLM и пользовательскими приложениями
Компания Anthropic представила Model Context Protocol (MCP) — открытый протокол, позволяющий языковым моделям взаимодействовать с данными и функциями сторонних приложений. MCP упрощает интеграцию языковых моделей в различные продукты.
Протокол работает по классической клиент-серверной архитектуре, где клиентом выступает приложение с языковой моделью, а MCP-сервер обеспечивает доступ к внешним данным и функциям.
Рассмотрим пример: разработчики приложения для хранения заметок хотят дать пользователям возможность анализировать свои записи через приложение ChatGPT. Пользователь пишет: «Сделай выжимку из моих заметок о планируемом отпуске». И чат-бот обобщает заметки. Для этого разработчики создают MCP-сервер — программу, которая обрабатывает запросы от приложения ChatGPT и передаёт необходимые данные из базы приложения заметок. В контексте примера запрос включает идентификатор пользователя и тип запрашиваемой информации (заметки). Полученные от сервера заметки позволяют ChatGPT сгенерировать выжимку.
MСP-сервер также может предоставлять доступ к функциям приложения. Например, разрешить добавление новых заметок в аккаунт. Если пользователь просит ChatGPT сохранить полученную выжимку как новую заметку, бот запрашивает у сервера список доступных функций, находит нужную и отправляет запрос с её названием и параметрами (заголовком и содержанием заметки). Получив этот запрос, сервер создаёт новую заметку с указанными данными.
Вместе со спецификацией протокола Anthropic выложила код MCP-серверов для популярных приложений (Github, Google Drive, Slack, Google Maps и других), которые позволяют интегрировать их с приложением для общения с Claude (моделью от Anthropic), а также сервер для взаимодействия с локальной файловой системой пользователя.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последние две недели.
Утечка доступа к Sora
Группа художников с ранним доступом к видеогенератору Sora выступила против условий тестирования OpenAI и опубликовала программу для работы с нейросетью.
Согласно правилам OpenAI, художники получают доступ к Sora для исследования её возможностей, поиска уязвимостей (включая генерацию нежелательного контента) и предоставления обратной связи разработчикам.
В открытом письме участники программы критикуют многомиллиардную компанию за использование их труда без справедливой компенсации. Авторы письма не против использования ИИ в искусстве, но не согласны с подходом OpenAI. Художники также опубликовали примеры работ Sora и программу с доступом к закрытому API, позволяющую любому экспериментировать с нейросетью.
В ответ OpenAI через три часа отключила доступ всем участникам тестирования.
Нейросеть Sora была представлена ещё в марте. Затем несколько компаний представили аналоги, в том числе и открытые для использования, на которые ссылаются авторы письма.
Рассуждающие модели от китайских лабораторий
Две китайские лаборатории выпустили LLM, обученные генерировать цепочки размышлений перед ответом. Подобную технику улучшения качества ответа ранее представила компания OpenAI вместе с моделями o1.
Первая модель DeepSeek R1-Lite от лаборатории DeepSeek опережает o1-preview в задачах по математике и программированию, однако хуже нее в задачах на логические рассуждения. Качество ответов модели от DeepSeek растет с увеличением длины рассуждений (её можно варьировать). R1-Lite можно попробовать совершенно бесплатно. Релиз кода и весов модели, а также технический отчёт, по словам лаборатории, должен произойти в ближайшее время.
Вторая модель, QwQ-32B-Preview от лаборатории Qwen, по качеству также сопоставима с моделями o1 и доступна всем желающим. Она находится на ранней стадии разработки, и поэтому у неё есть ограничения и несовершенства.
Открытые данные о методах обучения рассуждающих моделей и доступ к ним позволят open-source сообществу сократить отставание от закрытых коммерческих компаний.
Открытый протокол для общения между LLM и пользовательскими приложениями
Компания Anthropic представила Model Context Protocol (MCP) — открытый протокол, позволяющий языковым моделям взаимодействовать с данными и функциями сторонних приложений. MCP упрощает интеграцию языковых моделей в различные продукты.
Протокол работает по классической клиент-серверной архитектуре, где клиентом выступает приложение с языковой моделью, а MCP-сервер обеспечивает доступ к внешним данным и функциям.
Рассмотрим пример: разработчики приложения для хранения заметок хотят дать пользователям возможность анализировать свои записи через приложение ChatGPT. Пользователь пишет: «Сделай выжимку из моих заметок о планируемом отпуске». И чат-бот обобщает заметки. Для этого разработчики создают MCP-сервер — программу, которая обрабатывает запросы от приложения ChatGPT и передаёт необходимые данные из базы приложения заметок. В контексте примера запрос включает идентификатор пользователя и тип запрашиваемой информации (заметки). Полученные от сервера заметки позволяют ChatGPT сгенерировать выжимку.
MСP-сервер также может предоставлять доступ к функциям приложения. Например, разрешить добавление новых заметок в аккаунт. Если пользователь просит ChatGPT сохранить полученную выжимку как новую заметку, бот запрашивает у сервера список доступных функций, находит нужную и отправляет запрос с её названием и параметрами (заголовком и содержанием заметки). Получив этот запрос, сервер создаёт новую заметку с указанными данными.
Вместе со спецификацией протокола Anthropic выложила код MCP-серверов для популярных приложений (Github, Google Drive, Slack, Google Maps и других), которые позволяют интегрировать их с приложением для общения с Claude (моделью от Anthropic), а также сервер для взаимодействия с локальной файловой системой пользователя.
Please open Telegram to view this post
VIEW IN TELEGRAM
Ресурсы для цифровых стиховедов: поэтические корпуса
Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочетотличать Фета от Тютчева исследовать поэтическое наследие — русское и не только.
Поэтический подкорпус НКРЯ
Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус.
Башкирский поэтический корпус
Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.
Персидский поэтический корпус
Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).
Мультиязычный корпус поэзии PoeTree
Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!
🤖 «Системный Блокъ» @sysblok
Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочет
Поэтический подкорпус НКРЯ
Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус.
Башкирский поэтический корпус
Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.
Персидский поэтический корпус
Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).
Мультиязычный корпус поэзии PoeTree
Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Библиотеки поэзии: цифровые коллекции стихов
Библиотеки поэзии: рассказываем про поэтические корпуса — коллекции стихов и цифровые ресурсы поэтических текстов для стиховедов
Позвони мне, позвони: как мобильные данные помогают изучать неравенство
У социального неравенства в разных странах есть множество причин и особенностей. Как есть и множество инструментов — в том числе цифровых — для изучения этой проблемы. Ученые из Сингапура, например, измерили городскую сегрегацию с помощью мобильных данных. Рассказываем о том, как социально-экономические группы оказались разделены не только в физическом, но и виртуальном пространстве города.
Кратко: о чём статья?
Обычно сегрегацию измеряют по месту жительства (residential segregation), высчитывая различные индексы сегрегации: самые популярные это индекс непохожести (index of dissimilarity), индекс энтропии (Theil’s entropy index) и индекс изоляции (isolation index). Для этого используют перепись населения и социально-экономические показатели, такие как уровень дохода.
Однако исследователи из MIT решили учесть не только место жительства, но и те места, которые люди посещают ежедневно, обратившись к мобильным данным. Они разделили город на более и менее дорогие ареалы вокруг каждого пользователя мобильной связи и распределили людей по категориям в зависимости от их места жительства: сделали шкалу из статусных кластеров. После этого ученые подсчитали индекс коммуникационной сегрегации для каждого пользователя сотовой сети.
Это позволило убедиться, что люди с самым лучшим социально-экономическим положением являются самой сегрегированной частью населения и общаются в основном с себе подобными.
Помимо этого ученые измерили индекс физической сегрегации, который в зависимости от времени суток показывает, насколько активно человек взаимодействует с людьми из других статусных кластеров (спойлер: центр города становится более интегрированным во время обеда ).
Узнать больше о городской сегрегаци, результатах исследования и посмотреть на (очень эффектную) карту коммуникаций Сингапура можно в статье на сайте.
Время чтения: 6,5 минут.
У социального неравенства в разных странах есть множество причин и особенностей. Как есть и множество инструментов — в том числе цифровых — для изучения этой проблемы. Ученые из Сингапура, например, измерили городскую сегрегацию с помощью мобильных данных. Рассказываем о том, как социально-экономические группы оказались разделены не только в физическом, но и виртуальном пространстве города.
Кратко: о чём статья?
Обычно сегрегацию измеряют по месту жительства (residential segregation), высчитывая различные индексы сегрегации: самые популярные это индекс непохожести (index of dissimilarity), индекс энтропии (Theil’s entropy index) и индекс изоляции (isolation index). Для этого используют перепись населения и социально-экономические показатели, такие как уровень дохода.
Однако исследователи из MIT решили учесть не только место жительства, но и те места, которые люди посещают ежедневно, обратившись к мобильным данным. Они разделили город на более и менее дорогие ареалы вокруг каждого пользователя мобильной связи и распределили людей по категориям в зависимости от их места жительства: сделали шкалу из статусных кластеров. После этого ученые подсчитали индекс коммуникационной сегрегации для каждого пользователя сотовой сети.
Это позволило убедиться, что люди с самым лучшим социально-экономическим положением являются самой сегрегированной частью населения и общаются в основном с себе подобными.
Помимо этого ученые измерили индекс физической сегрегации, который в зависимости от времени суток показывает, насколько активно человек взаимодействует с людьми из других статусных кластеров (спойлер:
Узнать больше о городской сегрегаци, результатах исследования и посмотреть на (очень эффектную) карту коммуникаций Сингапура можно в статье на сайте.
Время чтения: 6,5 минут.
Системный Блокъ
Позвони мне, позвони: как мобильные данные помогают изучать неравенство - Системный Блокъ
С помощью мобильных данных ученые из MIT Senseable City Lab измерили городскую сегрегацию в Сингапуре. Они проверили, насколько сильно разные социально-экономические группы разделены в физическом и виртуальном пространстве города
ChatGPT — 2 года!
Два года назад состоялся релиз ChatGPT — модели, о которой вы точно слышали, даже если не интересуетесь нейросетями и никогда не читали наши дайджесты новостей из мира искусственного интеллекта. А если всё-таки не слышали — загляните в наш каталог, где мы ультракратко просуммировали главную информацию. Вспоминаем наши материалы о чат-боте и разбираемся, как он изменил нашу жизнь (если вообще изменил).
ChatGPT и писатели
В 2023 году мы провели эксперимент, чтобы разобраться, как и чем будут различаться тексты ChatGPT и реального писателя по одному запросу (спойлер:тексты модели намного более консервативны ). А ещё выяснили, что нейросети неплохо подражают стилю разных авторов, но допускают грамматические ошибки.
Пока мы писали эти материалы и общались с нейросетью, японская писательница Риэ Кудан не только написала роман с помощью ChatGPT, но и получила за него престижную литературную премию. Если вы тоже так хотите, мы собрали для вас инструкцию!
ChatGPT и фантазии
Ещё одна проблема ChatGPT – галлюцинации. Модель легко приписывает Толстому роман «Отцы и дети» и убеждает пользователя, что в фильме «Любовь и голуби» сыграла Эмили Блант. И хотя на английском бот отвечает чуть точнее, ошибок и выдумок всё равно много.
ChatGPT и новые версии
Модель периодически обновляется, но пользователи не всегда остаются довольны новыми версиями. О том, как улучшения показателей в некоторых типах задач могут помешать качественному выполнению привычных функций, мы рассказали здесь.
ChatGPT и вы
А что о ChatGPT думаете вы? Пользуетесь ли им ежедневно или никогда не взаимодействовали с нейросетью? Голосуйте в нашем опросе или расскажите о своем опыте работы с чат-ботом в комментариях под этим постом!
🤖 «Системный Блокъ» @sysblok
Два года назад состоялся релиз ChatGPT — модели, о которой вы точно слышали, даже если не интересуетесь нейросетями и никогда не читали наши дайджесты новостей из мира искусственного интеллекта. А если всё-таки не слышали — загляните в наш каталог, где мы ультракратко просуммировали главную информацию. Вспоминаем наши материалы о чат-боте и разбираемся, как он изменил нашу жизнь (если вообще изменил).
ChatGPT и писатели
В 2023 году мы провели эксперимент, чтобы разобраться, как и чем будут различаться тексты ChatGPT и реального писателя по одному запросу (спойлер:
Пока мы писали эти материалы и общались с нейросетью, японская писательница Риэ Кудан не только написала роман с помощью ChatGPT, но и получила за него престижную литературную премию. Если вы тоже так хотите, мы собрали для вас инструкцию!
ChatGPT и фантазии
Ещё одна проблема ChatGPT – галлюцинации. Модель легко приписывает Толстому роман «Отцы и дети» и убеждает пользователя, что в фильме «Любовь и голуби» сыграла Эмили Блант. И хотя на английском бот отвечает чуть точнее, ошибок и выдумок всё равно много.
ChatGPT и новые версии
Модель периодически обновляется, но пользователи не всегда остаются довольны новыми версиями. О том, как улучшения показателей в некоторых типах задач могут помешать качественному выполнению привычных функций, мы рассказали здесь.
ChatGPT и вы
А что о ChatGPT думаете вы? Пользуетесь ли им ежедневно или никогда не взаимодействовали с нейросетью? Голосуйте в нашем опросе или расскажите о своем опыте работы с чат-ботом в комментариях под этим постом!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
ChatGPT - Системный Блокъ
GPT-3, обученная понимать и исполнять текстовые запросы и доступная всем желающим через веб сайт
Пользуетесь ли вы ChatGPT?
Anonymous Poll
55%
Да, регулярно!
24%
Да, но редко.
8%
Пользовался, но остался не очень доволен.
12%
Нет, никогда.
Новый журнал про цифровые гуманитарные науки на русском языке
В Институте русской литературы РАН будет дважды в год выходить журнал «Цифровые гуманитарные исследования». В ноябре 2024 года вышел его первый номер. Кроме научных статей, в журнале будут публиковать рецензии, обзоры конференций и дискуссионные статьи.
Исследования, представленные в первом номере, посвящены стилометрии древнегреческих текстов, поэтике романа «Что делать?» и цифровым коллекциям культурно-значимых данных. В номере также опубликована дискуссионная статья Бориса Орехова и Андрея Володина, которая является ответом на «некролог» российским Digital Humanities от Даниила Скоринкина (Digital Humanities in Russia Was Forever, Until It Was No More: The Story of Russian Digital Humanities in 2011–2022), опубликованный весной 2023 года.
Кроме того, журнал акцентирует внимание на ключевых событиях и значимых публикациях в области цифровых гуманитарных исследований. Среди материалов — статья Динары Гагариной с обзором круглого стола «Digital Humanities в Центральной Азии» и рецензия Дарьи Артемьевой на монографию Джулии Томпсон Кляйн, где освещается проблема разграничения областей знания в Digital Humanities.
Учредителем и издателем журнала является Институт русской литературы (Пушкинский Дом) РАН. Его главный редактор — Борис Орехов. Ознакомиться с первым номером, как и с последующими, можно бесплатно на сайте Пушкинского Дома. Там же можно узнать про условия отправки материалов.
🤖 «Системный Блокъ» @sysblok
В Институте русской литературы РАН будет дважды в год выходить журнал «Цифровые гуманитарные исследования». В ноябре 2024 года вышел его первый номер. Кроме научных статей, в журнале будут публиковать рецензии, обзоры конференций и дискуссионные статьи.
Исследования, представленные в первом номере, посвящены стилометрии древнегреческих текстов, поэтике романа «Что делать?» и цифровым коллекциям культурно-значимых данных. В номере также опубликована дискуссионная статья Бориса Орехова и Андрея Володина, которая является ответом на «некролог» российским Digital Humanities от Даниила Скоринкина (Digital Humanities in Russia Was Forever, Until It Was No More: The Story of Russian Digital Humanities in 2011–2022), опубликованный весной 2023 года.
Кроме того, журнал акцентирует внимание на ключевых событиях и значимых публикациях в области цифровых гуманитарных исследований. Среди материалов — статья Динары Гагариной с обзором круглого стола «Digital Humanities в Центральной Азии» и рецензия Дарьи Артемьевой на монографию Джулии Томпсон Кляйн, где освещается проблема разграничения областей знания в Digital Humanities.
Учредителем и издателем журнала является Институт русской литературы (Пушкинский Дом) РАН. Его главный редактор — Борис Орехов. Ознакомиться с первым номером, как и с последующими, можно бесплатно на сайте Пушкинского Дома. Там же можно узнать про условия отправки материалов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Косинусная близость: как компьютер сравнивает объекты
Рассказываем, как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, маркетплейсы — какой похожий товар предложить, а интернет-поисковики находят темы, которые отвечают теме запроса. И всё это — с помощью косинуса угла между векторами.
Кратко: о чем статья?
Прежде чем сравнивать объекты, компьютер должен представить их в виде векторов — упорядоченных наборов чисел, которые формализуют свойства каждого объекта. Каждое число вектора характеризует какой-то признак объекта, например, цвет и размер товара, тональность текста, жанр и длительность фильма. Чем больше признаков у объекта, тем больше чисел в векторе (эти числа называют координатами вектора).
Между двумя векторами можно измерять расстояние и угол. Чтобы не измерять угол в градусах, его удобнее выражать через косинус. Косинус — это одна из тригонометрических функций, которая на вход принимает угол и сопоставляет ему число из диапазона от -1 до 1. Чем меньше угол между векторами, тем более схожи соответствующие объекты, и наоборот. Поэтому косинус между векторами также называют косинусной близостью.
Например, объекты, у которых соответствующие им векторы направлены одинаково (угол между ними 0 градусов), имеют с точки зрения косинуса максимальную близость, равную единице. A объекты, векторы которых указывают в противоположные направления (угол между ними 180 градусов), максимально удалены — у них косинус равен -1. Так, если на плоскости изобразить векторы, соответствующие трем рюкзакам (при этом их объем и количество отделений будут координатами по горизонтали и вертикали соответственно), то при подсчете косинусной близости между ними выяснится, что рюкзак объемом 2 литра с 6 отделениями более схож с рюкзаком объемом 1 литр и с 2 отделениями, нежели чем с рюкзаком, объем которого — 4 литра, а количество отделений — 2 штуки.
Чтобы узнать о том, как рассчитать косинус с помощью математических формул или компьютера, а также найти ссылку на проект в Google Colab, где вы можете попробовать рассчитать косинусную близость между разными словами, читайте полную версию статьи.
Время чтения: 7 минут
🤖 «Системный Блокъ» @sysblok
Рассказываем, как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, маркетплейсы — какой похожий товар предложить, а интернет-поисковики находят темы, которые отвечают теме запроса. И всё это — с помощью косинуса угла между векторами.
Кратко: о чем статья?
Прежде чем сравнивать объекты, компьютер должен представить их в виде векторов — упорядоченных наборов чисел, которые формализуют свойства каждого объекта. Каждое число вектора характеризует какой-то признак объекта, например, цвет и размер товара, тональность текста, жанр и длительность фильма. Чем больше признаков у объекта, тем больше чисел в векторе (эти числа называют координатами вектора).
Между двумя векторами можно измерять расстояние и угол. Чтобы не измерять угол в градусах, его удобнее выражать через косинус. Косинус — это одна из тригонометрических функций, которая на вход принимает угол и сопоставляет ему число из диапазона от -1 до 1. Чем меньше угол между векторами, тем более схожи соответствующие объекты, и наоборот. Поэтому косинус между векторами также называют косинусной близостью.
Например, объекты, у которых соответствующие им векторы направлены одинаково (угол между ними 0 градусов), имеют с точки зрения косинуса максимальную близость, равную единице. A объекты, векторы которых указывают в противоположные направления (угол между ними 180 градусов), максимально удалены — у них косинус равен -1. Так, если на плоскости изобразить векторы, соответствующие трем рюкзакам (при этом их объем и количество отделений будут координатами по горизонтали и вертикали соответственно), то при подсчете косинусной близости между ними выяснится, что рюкзак объемом 2 литра с 6 отделениями более схож с рюкзаком объемом 1 литр и с 2 отделениями, нежели чем с рюкзаком, объем которого — 4 литра, а количество отделений — 2 штуки.
Чтобы узнать о том, как рассчитать косинус с помощью математических формул или компьютера, а также найти ссылку на проект в Google Colab, где вы можете попробовать рассчитать косинусную близость между разными словами, читайте полную версию статьи.
Время чтения: 7 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Что такое косинусная близость?
Косинусная близость — это другое название для косинуса угла между двумя векторами. Она используется для сравнения объектов в машинном обучении.