Исследователи из Онкологического центра доктора медицины Андерсона Техасского университета провели комплексную оценку пяти моделей искусственного интеллекта (ИИ), обученных на геномных последовательностях, известных как языковые модели ДНК. Эти сравнения дают ценную информацию об их сильных и слабых сторонах и предлагают основу для выбора подходящих моделей на основе конкретных геномных задач.
Исследование, опубликованное в Nature Communications, возглавлял Чонг Ву, доктор философии, доцент кафедры биостатистики и филиал Института науки о данных в онкологии; и Пэн Вэй, доктор философии, профессор биостатистики.
"Наше сравнительное исследование показывает, что выбор, такой как данные предварительного обучения, длина последовательности и то, как мы суммируем встраивания моделей, может изменить производительность так же, как и изменение самой модели языка ДНК. Этот вид строгого сравнительного анализа имеет решающее значение для обеспечения прозрачного и воспроизводимого использования моделей языка ДНК по мере того, как они приближаются к поддержке принятия клинических решений", - сказал Ву.
Что такое модели языка ДНК и для чего они используются?
Модели языка ДНК — это инструменты искусственного интеллекта, специально обученные на больших объемах геномных данных для выявления и прогнозирования закономерностей в последовательностях ДНК. В частности, исследователи сосредоточились на способности моделей делать прогнозы для запросов, которым они не были специально обучены, что может дать представление об их способностях решать проблемы.
В идеале эти модели могут предсказывать функции и взаимодействия генов, а также сворачивание белков, чтобы применять прогнозы для персонализированного тестирования и лечения.
Что исследователи оценили в этом исследовании?
Исследователи сравнили, насколько хорошо пять различных языковых моделей ДНК могут работать в разных областях 57 разнообразных наборов данных. Они измерили способность этих моделей идентифицировать важные компоненты генома, предсказать, насколько сильно будет экспрессироваться ген, и определить, содержат ли гены вредные мутации, которые могут привести к заболеваниям.
Исследователи также изучили, как различные переменные предварительного обучения, такие как использование данных нескольких видов или только людей, могут повлиять на результаты.
Что исследователи узнали из своей оценки?
Каждая модель имела сильные и слабые стороны, основанные на поставленные задачи. Например, некоторые модели были более эффективны при идентификации компонентов генома, но менее эффективны при прогнозировании экспрессии генов по сравнению с другими, более специализированными моделями.
В исследовании подчеркивается, что эти модели могут считывать длинные участки ДНК и способны идентифицировать потенциально опасные мутации, хотя их непосредственно этому не обучали. Исследователи отметили, что модели также хорошо зарекомендовали себя на данных нескольких видов, хотя они работали лучше в зависимости от того, какие виды они видели больше всего во время обучения.
Как эти результаты могут быть применены к точной медицине?
Исследование обеспечивает всестороннюю оценку пяти основных моделей ДНК, предлагая ценную информацию об их сильных сторонах и выделяя потенциальные области для улучшения. Эти результаты могут помочь исследователям и врачам выбрать подходящие модели для задач, позволяющих персонализировать генетическое тестирование и лечение.

07:00







