Поиск новых лекарств и распознавание речи: какая польза человечеству от машинного обучения
До 9 ноября продолжается регистрация на онлайн-программу «Современное машинное обучение» на базе Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ. Актуальные знания в одной из наиболее востребованных областей XXI века, реальные проекты в портфолио и диплом о профессиональной переподготовке установленного НИУ ВШЭ образца станут результатами обучения на этой программе. Эксперты в области машинного обучения рассказывают, над какими проектами работают специалисты в их сфере.
Машинное обучение применяется сейчас во всех сферах нашей жизни: даже когда вы выбираете, какой фильм вечером посмотреть или листаете ленту Facebook, специально разработанные алгоритмы выдают вам результат, основываясь на ваших предпочтениях и поведении на сайте. Бытовыми задачами машинное обучение не ограничивается. Технологии Machine Learning применяется для решения более фундаментальных и захватывающих кейсов, например, чтобы разработать индивидуальные рекомендации по образу жизни, чтобы вы могли отпраздновать свой сотый день рождения.
Даниил Полыковский, старший специалист по анализу данных, Insilico Medicine
Поиск новых лекарств во время пандемии коронавируса актуален как никогда прежде. Машинное обучение экономит время и деньги фармацевтическим компаниям, позволяя быстро находить активные молекулярные структуры, оценивать их физико-химические свойства и предсказывать побочные действия. Машинное обучение применяется на всех этапах разработки лекарств: поиск биологических мишеней против данных заболеваний, поиск активных молекул для заданной мишени, предсказание схем синтеза молекул, а также предсказание успешности клинических испытаний.
В задаче поиска биологических мишеней модели машинного обучения анализируют геномные, транскриптомные и другие данные, чтобы найти отличия в функционировании клеток больных и здоровых людей. Анализируя эти данные, можно найти причину возникновения заболевания и выбрать биологическую мишень, на которую проще всего повлиять. Например, если какой-то белок перестал выполнять свою функцию, может оказаться, что гораздо проще повлиять не на него, а на активирующий его белок.
В задаче поиска новых лекарств модели машинного обучения обрабатывают информацию о биологической мишени и известные активные молекулы. Например, если мишень — белок, то модель может использовать ее 3D-структуру. Недавние работы показали, что генеративные модели могут создавать новые реалистичные изображения. Прогресс распространился и на другие области, в том числе и на медицинскую химию. Генеративные модели начали активно применять для поиска новых молекулярных структур, обладающих оптимальными свойствами. Например, можно оптимизировать активность против заданной мишени при условии отсутствия побочных эффектов. В статье (Zhavoronkov et al.) удалось создать новую активную молекулу против биологической мишени, участвующей в возникновении фиброза.
В задаче предсказания успешности клинических испытаний модели машинного обучения обрабатывают отчеты о прошедших клинических испытаниях. При помощи такой модели можно предсказать, пройдет ли испытание в следующую фазу. Такие модели позволяют не только оценить вероятность успеха, но и проанализировать, какие факторы могут привести к провалу клинического испытания.
Анна Потапенко, Research Engineer, DeepMind
Я занимаюсь Natural Language Processing — анализом текстов на естественном языке. К этой области машинного обучения относят любые модели, работающие с текстом: распознавание речи, классификация, а также генерация новых текстов, например, диалоговые системы или машинный перевод. Как и во многих других областях анализа данных, последние несколько лет здесь главенствуют глубокие нейронные сети (Deep Learning). Сначала это были рекуррентные нейронные сети, в особенности, LSTM. Затем и конволюционные нейронные сети, на тот момент уже повсеместно применяемые в анализе изображений. Но начиная с 2017 года безусловным королем в области NLP является трансформер (Vaswani et al.).
Эта архитектура основана на механизме внимания. Последовательность токенов (например, слов или BPE) представляется в виде последовательности некоторых векторов (embeddings). Затем строятся несколько слоев нейронной сети, на каждом из которых подсчитываются попарные близости между всеми векторами слов. Вектора следующего слоя вычисляются как взвешенное среднее векторов предыдущего слова с учетом этих близостей. Получается, что похожие слова “обращают друг на друга внимание”, и векторы последнего слоя несут информацию не только для соответствующих слов, но и для контекстов, в которых они употребляются (подробнее про трансформер).
Такая архитектура оказалась удивительно удачной, на ее модификациях основаны все главные языковые модели последних нескольких лет: BERT, Transformer-XL, GPT-2, и вышедшая буквально несколько месяцев назад GPT-3. Авторы GPT-3 также предоставили API, через который можно общаться с этой моделью — вы ей предложение на вход, она вам что-то в ответ. Качество генерируемых ответов произвело на многих сильное впечатление — например, вот здесь можно поиграть с моделью в DnD, вот здесь почитать разную поэзию, а вот философское письмо про наше будущее, тоже сгенерированное моделью.
Вместе с громкими прорывами и вниманием прессы приходит и ответственность. Во-первых, важно понимать, что эта модель не была бы возможной без предыдущих работ в языковом моделировании. Архитектура осталась неизменной с трансформера в GPT-2, но модель была натренирована на большем объеме данных, с помощью сложного параллельного алгоритма. Во-вторых, когда мы видим, что языковые модели генерируют тексты, практически не отличимые от написанных человеком, важно задуматься о вопросах безопасности и предвзятости/искаженности (biases). Обе эти темы в данный момент являются важными областями исследований в AI.
У архитектуры трансформера есть и недостатки. Важный из них — квадратичная масштабируемость по длине входа. Это значит, что если мы хотим взять книгу или очень длинный текст, и предсказать с помощью модели продолжение, это будет очень медленно (либо нам придется выбросить часть книги). В последний год появилось сразу несколько модификаций, которые позволяют более эффективно работать с длинными контекстами (обзор). Наша работа о сжимающих трансформерах (Compressive Transformers) — одна из них. Основная идея заключается в том, чтобы эффективно сжимать наиболее старые части контекста и адаптировать механизм внимания к двум типам памяти — сжатой, долгосрочной и обычной, текущей. Такая модификация позволила генерировать качественные продолжения старых книг и почитать несуществующие работы классических авторов.
Екатерина Денике, Head of Product in wellbeing startup
Область машинного обучения, которую за рубежом называют «Digital Health and Wellbeing», по целому ряду причин развивается с впечатляющей быстротой. Усовершенствование технологий и появление новых устройств позволяет без труда собирать все больше данных про здоровье и образ жизни каждого человека, вследствие чего возникает запрос на эффективный анализ и использование этих данных. Количество задач в этой области, которые могут быть решены онлайн, стремительно растет — тенденция, существовавшая еще до пандемии и естественным образом ускорившаяся за счет COVID-19. С развитием технологий возрастает и сложность задач, которые могут решаться за счет алгоритмов без непосредственного участия человека. Это открывает все больше возможностей для новых продуктов в области контроля и проактивного улучшения своего здоровья.
Много интересных продуктов либо уже используют машинное обучение, либо имеют большой потенциал для его внедрения. Примером перспективных задач в области проактивной заботы о здоровье является оценка рисков и предрасположенностей к заболеваниям на основании данных пациентов, подбор персонализированных витаминов и лекарств, выявление корреляций между разными активностями конкретного пользователя — сон и еда, уровень стресса и физическая активность. Также активно развивается направление персональных рекомендаций, масштабирование которого целиком основано на машинном обучении и анализе данных.
Я работаю в стартапе, который называется beyond100, и наша миссия очень амбициозна — мы хотим помочь как можно большему количеству людей отлично отпраздновать свой столетний юбилей. Достичь этого взмахом волшебной палочки пока, кажется, невозможно, а интенсивный биохакинг подходит далеко не всем. Поэтому наша стратегия — разработать для каждого человека систему простых шагов, которая в каждый момент учитывает его состояние здоровья, предпочтения и интересы, а также жизненный контекст. Например, студенту во время сессии не стоит предлагать отказываться от кофеина, так как он с большой вероятностью пренебрежет этой рекомендацией. Предлагая ежедневный простой шаг, который не будет сложен для нашего пользователя, на горизонте 10-15-20 лет можно достичь фантастических изменений.
Где учиться?
Специалисты в области машинного обучения применяют свои знания для решения огромного пула вопросов. Эксперту в Data Science нужно знать Python, разбираться в моделях машинного обучения и уметь применять глубинное обучение к изображениям, текстам и музыке.
Все эти инструменты до определенного уровня можно освоить самостоятельно. Но если есть желание развиваться в машинном обучении и работать с реальными проектами, то без кураторства ведущих экспертов не обойтись. Для тех, кто хочет сменить профессию или чувствует желание прокачать свои навыки, и существуют программы профессиональной переподготовки. А современный формат обучения позволяет осваивать новые знания онлайн.
Зарегистрироваться на программу «Современное машинное обучение»