В недавно опубликованной в журнале PLOS One статье ученые из Сколтеха и их коллеги описывают, как образовательный проект для школьников вылился в новую главу противостояния искусственного интеллекта и человека в биоинформатике. Согласно исследованию, ранее совершившая прорыв в предсказании структур белков программа, разработанная подразделением Google DeepMind, оказалась неспособна решить другую задачу структурной биоинформатики. При этом было получено свидетельство, которое всерьез ставит под вопрос гипотезу о том, что ИИ смог «выучить физику» белков. О публикации сообщила пресс-служба Сколтеха.
РНК-полимераза II
© NIH Image Gallery/Flickr
Структурная биоинформатика занимается предсказанием структуры белков, РНК, ДНК и их взаимодействия с другими молекулами. Полученные знания применяются для разработки лекарств или, например, катализаторов реакций, не встречающихся в живой природе. Последние годы в структурной биоинформатике развернулось противостояние человека и машины: вызов ученым бросил игровой искусственный интеллект компании DeepMind. С тех пор как в 2014 году ее приобрёл Google, программы DeepMind показали выдающиеся результаты, в числе прочего, в шахматах, го и StarCraft II, и в итоге добрались до вполне реальной задачи предсказания структуры белков по аминокислотной последовательности. Искусственный интеллект AlphaFold оказался столь успешен в решении этой проблемы, что к 2021 году многие стали всерьез пророчить конец структурной биоинформатики. Казалось, машине удалось выучить саму фундаментальную физику белка и теперь ей должны автоматически покориться остальные задачи в этой области.
«Мы решили проверить, так ли это, и применили AlphaFold к другой типичной для нашей науки задаче — предсказанию изменения стабильности белка вследствие одиночной мутации. То есть вы берете некоторый известный белок, вносите в него минимально возможное изменение и хотите знать, будет ли полученный мутант стабильнее или нестабильнее и насколько. Так вот, с этой задачей AlphaFold не справился: предсказания никак не согласуются с известными экспериментальными данными. Собственно, его создатели и не утверждали, что AlphaFold пригоден для чего-то, кроме предсказания структуры белков по аминокислотной последовательности, но ряд оптимистов ожидали прорыва и здесь — мы же показали обратное», — прокомментировал исследование его научный руководитель, старший преподаватель Центра молекулярной и клеточной биологии Сколтеха Дмитрий Иванков.
С практической точки зрения предсказывать изменение стабильности белка после мутации важно, например, для того, чтобы перебором мутаций находить устойчивые к высоким температурам варианты белков с полезными свойствами. Это может быть, в частности, белок для стирального порошка, который будет расщеплять разного рода загрязнения — другие белки, жиры, крахмал, микроворсинки, — или сладкий белок, который можно было бы положить в горячий чай вместо сахара.
Но здесь важно в том числе само по себе заключение авторов статьи, что в существующем сегодня виде искусственный интеллект не панацея, и хотя он отлично справился с важнейшей проблемой структурной биоинформатики, которая занимала ученых больше полувека, остается еще с десяток нерешенных проблем. Например, предсказание структур комплексов белков с малыми молекулами, ДНК или РНК, мутаций в белке и их влияния на энергию связывания с другими молекулами, белковый дизайн: какая нужна последовательность, чтобы сделать белок с некоторыми желаемыми свойствами — допустим, катализатор, который может стать элементом крошечной «молекулярной фабрики».
Помимо очевидного вывода, что структурную биологию рано «закрывать», исследование косвенно опровергает гипотезу, что AlphaFold не просто усвоил все накопленные человечеством структуры белков и ловко ими оперирует, но и смог каким-то образом выучить саму фундаментальную физику белков. Этим порой объясняли его успех, однако, будь это так, программе не составило бы труда сопоставить две очень похожие структуры с точки зрения стабильности, а именно это оказалось ИИ не под силу.
Этот довод дополняет два ранее озвученных сомнения касательно «знания физики». Во-первых, AlphaFold предсказывает некоторые структуры, у которых боковые группы ориентированы так, как будто к ним привязан ион цинка. Но программа получает на вход только аминокислотную последовательность белка, то есть «незримый цинк» в результатах ощущается лишь постольку, поскольку в обучающих данных были аналогичные структуры белков, связанные с этим ионом. Без него предсказанная ориентация боковых групп физически некорректна. Во-вторых, AlphaFold предсказывает одиночную структуру витиеватой цепи, которая выглядит для ученого правдоподобно, но лишь если мысленно достроить еще две такие же цепи и переплести их вместе, иначе эта конструкция, опять же, несостоятельна с точки зрения физики. То есть программа запомнила и воспроизвела соответствующую структуру, которую вычленила из составной конструкции, — законами физики она себя при этом не ограничивает.
«Занятно, что наше исследование выросло из «игрушечного» проекта с участниками Школы молекулярной и теоретической биологии. Проект так и назывался — «Игры с АльфаФолд». Как только AlphaFold был выложен в открытый доступ, мы в нашей лаборатории установили его на сколтеховский суперкомпьютер «Жорес». Одна из игр заключалась в сопоставлении эффекта мутации с предсказаниями AlphaFold для структуры исходного и мутантного белка. Так и получилось исследование, в котором школьники соприкоснулись с суперкомпьютером и передовым искусственным интеллектом», — рассказала первый автор статьи, аспирант Сколтеха Марина Пак.
Помимо биоинформатиков из Сколтеха, в исследовании принимали участие ученые из Института науки и технологий Австрии и Окинавского института науки и технологий (Япония), а также школьники, которые сейчас учатся в Российском университете дружбы народов, Уральском федеральном университете и Западноамериканском колледже объединенного мира имени Арманда Хаммера (США).
Источник: polit.ru