ПРЕОБРАЗОВАНИЕ ХИМИЧЕСКИХ ФОРМУЛ В МАШИННО-ОБРАБАТЫВАЕМЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ : доклад, тезисы доклада

Описание

Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций

Конференция: Новые тенденции в науке, обществе и технике; Москва; Москва

Год издания: 2025

Ключевые слова: формат SMILES, векторизация, химическая структура машинное обучение, SMILES format, vectorization, chemical structure, machine learning

Аннотация: В данной статье рассматриваются методы преобразования химических формул в машинно-обрабатываемые последовательности с использованием формата SMILES. Основное внимание уделяется ключевой проблеме - вариативности представления молекул в SMILES, которая снижает эффективность алгоритмов машинного обучения. Предлагается комплексное решеПоказать полностьюние, включающее канонизацию SMILES и применение предобученных трансформерных моделей. Описаны основные принципы кодирования молекул, а также методы их векторизации для последующего анализа с помощью алгоритмов машинного обучения. Рассматриваются такие подходы, как токенизация, молекулярные эмбеддинги (Mol2Vec) и графовые нейронные сети (GNN). Обсуждаются преимущества использования таких преобразований для анализа, предсказания свойств и оптимизации молекулярных структур. This article discusses methods for converting chemical formulas into machine-processed sequences using the SMILES format. The main focus is on the key issue of variability in the representation of molecules in SMILES, which reduces the effectiveness of machine learning algorithms. A comprehensive solution is proposed, including the canonization of SMILES and the use of pre-irradiated transformer models. The basic principles of coding molecules are described, as well as methods of their vectorization for subsequent analysis using machine learning algorithms. Approaches such as tokenization, molecular embedding (Mol2Vec) and graph neural networks (NN) are considered. The advantages of using such transformations for analyzing, predicting properties, and optimizing molecular structures are discussed.

Ссылки на полный текст

Издание

Журнал: Новые тенденции в науке, обществе и технике

Номера страниц: 192-198

Место издания: Ульяновск

Персоны

Вхождение в базы данных