Моделирования связи структура химических соединений молекулярные свойства и биологическая акти

–PAGE_BREAK–

В приведенных классификациях видно различие в выборе границ классов. В качестве примера укажем на то, что к малоопасным веществам при введении в желудок ФРГ относит токсиканты (пестициды), для которых LD50 более 1000 мг/кг, Греция – более 2000 мг/кг, ВОЗ – более 4000 мг/кг, а отечественный ГОСТ 12.1.007-76 – более 5000 мг/кг, то есть крайние значения LD50 в соответствии с этими классификациями различаются более чем в 2-5 раз [15].

Следует отметить, что рассмотренные классификации имеют ряд недостатков, главным из которых является произвольность выбора границ классов по среднесмертельным уровням LD50.

Таким образом, проблема классификации химических соединений по показателю токсичности является не только проблемой современной теоретической и практической химии, но и немаловажной проблемой международного и экономического масштаба. В данной дипломной работе производится попытка создания универсальной научно обоснованной классификации химических по показателю токсичности LD50соединений.

Учитывая вышеописанные факты, следует выделить в качестве одной из немаловажных задач данной работы — создание универсальной, математически обоснованной классификации химических веществ по показателю токсичности.
3.     Разработка моделей прогнозирования токсикологических свойств химических веществ
 Развитие различных отраслей промышленности, особенно химической, использование химических удобрений и пестицидов в сельском хозяйстве привели к постепенному загрязнению окружающей среды множеством химических веществ, которые в огромном количестве попадают в почву, воду и воздушную среду, где преобразуются в еще более токсичные продукты, вызывая отравления и различные заболевания, в том числе онкогенные. В целях предупреждения отрицательных последствий химизации народного хозяйства в различных странах сложились или создаются системы предупредительных мероприятий, среди которых одним из главных является токсикологическая оценка химических веществ и композиций, включая их предварительный отбор для последующего производства и применения. По данным ВОЗ в повседневном использовании, включая фармацевтические средства и пестициды, находятся более 60 тысяч опасных химических веществ.  Проблемы предупреждения загрязнения окружающей среды вышли за рамки национальных границ и во многих случаях приобрели глобальный характер. Поэтому, поиск новых высокоэффективных и безопасных для человека и окружающей среды химических веществ является важнейшей проблемой мировой науки. Значительное место в этой проблеме занимает задача прогноза параметров токсичности ( и др.) органических соединений, необходимость практического решения которой тесно связана со следующими обстоятельствами:

·        На этапе разработки и эксплуатации технологических процессов – с отставанием и неполнотой обоснования санитарно-гигиенических нормативов на используемое сырье, полупродукты, продукты и отходы (при использовании традиционных методов нормирования химических веществ и существующих мощностях токсикологических лабораторий необходимой токсикологической оценке и гигиеническому регламентированию подвергается не более 10% новых химических веществ;

·        На этапе поисковых исследований (синтеза и биологических испытаний) – с необходимостью возможно более ранней оценки токсичности новых химикатов с целью дополнительной фильтрации токсичных целевых соединений и полупродуктов.

В связи с этим важное значение приобретает разработка альтернативных принципов нормирования и методологии ускоренной токсикологической оценки новых химических веществ, что позволит существенно сократить объем и время для экспериментального обоснования гигиенических и токсикологических нормативов. Поэтому, применение химических веществ требует тщательной проверки их безопасности для людей и окружающей среды и связано с использованием большого числа дорогостоящих тестов, альтернативой которым является математическое моделирование характера процесса взаимодействия химического вещества и живых организмов с использованием фактографических банков данных по показателям токсичности.

Таким образом, токсикометрия занимает значительное место в принятии радикальных решений по профилактике неблагоприятных воздействий химических веществ в окружающей среде. На стадии синтеза новых соединений и композиций она позволяет осуществлять целенаправленный отбор менее токсичных и опасных соединений, используя для этого целый набор качественных и количественных критериев. Широкое использование при таком отборе математических методов, компьютерных технологий и фактографических банков данных позволяет отсеивать заведомо неактивные или высокотоксичные вещества, тем самым значительно сокращая сроки создания физиологически активных соединений с заданными токсикологическими свойствами.

Математические модели прогноза токсичности.
Теоретической базой для построения моделей и развития расчетных методов определения токсичности является объективно существующая связь между токсическим действием вещества, его физическими свойствами и химической структурой. Из-за отсутствия в большинстве случаев адекватных теоретических представлений о механизмах биологического действия, из-за сложности процессов, происходящих с веществом в живых системах, широкое применение находят эмпирические закономерности, устанавливающие связь между строением молекул их физико-химическими и биологическими характеристиками. В данной работе будут исследоваться эмпирические обобщения в форме современных методов и моделей многомерной регрессии, а также теории распознавания образов. В качестве информационной поддержки исследуемых моделей будет использован фактографический банк данных по токсичности органических молекул объемом в 4624 соединений различных структурно-химических классов. Предсказание  предполагается осуществлять в два этапа. На первом этапе должен осуществляться качественный прогноз, позволяющий определить класс токсичности или опасности вещества, что является весьма актуальной задачей, так как во многих химических исследованиях нет необходимости в строгой оценке параметров токсичности и достаточно знать классы опасности веществ. На втором этапе в каждом из классов токсичности нужно построить оптимальные регрессионные зависимости и по ним осуществлять количественный прогноз.

 Прогноз класса токсичности предполагается осуществлять на основе моделей и алгоритмов распознавания образов и теории статистических решений.

 Количественный прогноз предполагается осуществлять на основе неаддитивных моделей с использованием понятия о парциальных вкладах структурных элементов.

В рамках данной задачи необходимо произвести исследование математических подходов прогноза токсикологических параметров, а также  сравнение полученных результатов с результатами существующих коммерческих пакетов прогнозирования токсикологических свойств.
4.     Система компьютерной поддержки.
Необходимо разработать автоматизированную информационно-поисковую систему, оснащенную математическими процедурами статистического моделирования токсикологических свойств химических веществ, состоящую из:

·        Подсистемы поддержки профессиональных структурно-химических баз данных и знаний;

·        Подсистемы прогнозирования тосикологических свойств органических молекул с учетом или без учета их физико-химических параметров. Она позволит создавать обучающие и экзаменационные выборки из баз данных, задавать или выбирать из меню различные описания химической структуры или иных признаков, выбирать различные модели статистической обработки данных для построения решений о принадлежности молекул к тому или иному классу токсичности, а также структурно-аддитивные и неаддитивные математические модели, которые используются для нахождения количественных корреляций структура – свойства.

Другими словами компьютерная система позволит осуществлять прогноз токсикологических параметров веществ с использованием моделей теории распознавания образов и кусочно-линейных регрессионных моделей, где интервалами линейности являются классы опасности химических соединений.

То, есть, необходимо создать компьютерную информационно-поисковую систему, которая даст возможность в режиме диалога вести оперативный прогноз токсикологических показателей, проверять на больших выборках гипотезы о связи структуры веществ с их биологическим действием, а также анализировать сравнительную информативную ценность различных групп факторов при изучении механизмов взаимодействия веществ с живым организмом. Такая система позволит повысить достоверность получаемых научных результатов и поможет существенно снизить трудоемкость исследовательских работ за счет качественно нового их уровня.

Научный задел.Разработан  математический подход классификации химических веществ по степени токсичности  в острых опытах. Проведена апробация данного подхода на большом экспериментальном материале и установлены научно обоснованные границы классов опасности химических соединений. Разработана подсистема поддержки профессиональных структурно-химических баз данных и знаний. В ходе выполнения проекта в компьютерную систему нужно добавить подсистему  расчета токсикологический параметров.

Таким образом, целью данной работы является создание универсальной масштабируемой компьютерной системы, предназначенной для применения на практике алгоритмов поиска и анализа отношений «структура-активность». Такая система должна поддерживать как возможности информационного поиска и навигации, так и построения баз знаний на основе имеющихся данных. Также система должна быть открытой, расширяемой и максимально гибкой, с возможностью добавления новых возможностей.

В соответствии с целью поставлены следующие задачи:

1)     Разработка математически обоснованной универсальной классификации химических соединений по показателю токсичности;

2)     Разработка алгоритмов и методов для качественного прогнозирования принадлежности химического соединения к заданному классу токсичности.

3)     Разработка и апробация моделей для количественного прогноза показателя токсичности LD50;

4)     Разработка и использование моделей для предсказания токсичности по липофильности;

5)     Создание универсальной масштабируемой системы компьютерной поддержки, которая должна включать в себя:

¾    иерархию классов, обеспечивающих гибкость и универсальность в настройке и расширении приложения (framework):

¾    графический редактор структурных формул химических соединений;

¾    подсистему моделирования;

¾    подсистему хранения и информационного поиска данных;

Глава 2 Математическая модель классификации химических соединений по их различным свойствам

Известно, что в организованном сообществе элементы распределены в соответствии с гиперболическим законом, то есть:

 ,       (3.2.I)

где Q1— количество элементов в первом классе,r— ранг класса (r= 1…n), Q(r)— количество элементов в данном классе.

Для r=1,  .          (3.2.II)

 (3.2.III), где Q— количество элементов сообщества,

   (3.2.IV).

Это уравнение дает общее решение по разбиению множества из Qэлементов на nклассов. Отсюда необходимо найти b.

По формуле Шеннона:   (3.2.V), где H— энтропия информации, pi—  вероятность попадания Qiэлементов множества Qв данный класс i, или

   (3.2.VI).

Предельные значения энтропии информации равны 0 и Hmax. Hmax  рассчитывается по формуле Хартли: Hmax= log2(n).

По принципу структурной гармонии Шеннона получаем обобщенное золотое сечение:

    (3.2.VII), или

   (3.2.VIII).

Отсюда найдем H, как положительный действительный корень (по условию) полинома n+1 степени.

Подставляя  (3.2.I) в формулу (3.2.VI), зная значение H, имеем:

     (3.2.IX).

Значение b, положительно определенное по условию, вычисляется из (3.2.IX) одним из численных методов решения уравнений. Далее, из (3.2.III) вычисляется значение Ф. После этого, подставляя Ф в (3.2.I), получаем количество элементов в каждом классе.

Для получения пределов значений показателя, по которому организовано (упорядочено) семейство, необходимо взять значения этого показателя для первого и последнего элемента каждого класса.
Регрессионные модели и их характеристики
Уравнение линейной регрессии имеет вид:  y= a+ bx+ e[2].

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака yот теоретических ŷxминимальна, то есть:

.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно aи b:

 .

Из этой системы следуют формулы:

.

Для расчета множественной линейной регрессии данные представляются в матричной форме [6]:

Y= Xb+ e,

или

  ,

где матрица Xназывается регрессионной матрицей, вектор b— неизвестные параметры, подлежащие оцениванию, а столбец e— ошибки.

Пользуясь МНК, имеем:

.

В результате получаем выражение для оценки вектора b:

 .

Соответственно, появляется модель, связывающая экспериментальные данные:

 .

Как для моделей парной, так и для множественной регрессии справедливы статистические оценки, описанные в таблице 7 [2]:

Таблица 7

Название характеристики

Обозначение

Формула

Описание

Полная дисперсия

TSS

Общая сумма квад­ратов отклоне­ний зависимой перемен­ной от ее выбороч­ного значения

Часть дисперсии, необъясненная регрессией

ESS

Необъясненная сумма квадратов отклонений

Часть дисперсии, объясненная регрессией

RSS

Объясненная сумма квадратов отклонений

Коэффициент детерминации

R2

RSS/TSS

F-статистика

(критерий Фишера)

F

Оценка качества уравнения регрессии. Состоит в проверке ги­потезы Hо статистической незна­чимости уравнения регрессии. Для этого выполняется сравнение фак­тического F(где n– число единиц совокупности, m— число пара­метров при переменных x) и таб­личного (критического) Fтабл. Fтабл — это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значи­мости α. Уровень значимости α — вероятность отвергнуть правиль­ную гипотезу при условии, что она верна. Обычно α принимается равным 0,05 или 0,01.

Если FтаблF, то H— гипо­теза о случайной природе оцени­ваемых характеристик отклоня­ется и признается их статистиче­ская значимость и надежность. Иначе —
    продолжение
–PAGE_BREAK–
Продолжение таблицы 7

Название характеристики

Обозначение

Формула

Описание

признается статистиче­ская незначимость,  ненадежность уравнения регрессии.

Средняя ошибка аппроксимации

Среднее отклонение расчетных данных от фактических

Для расчета доверительных интервалов параметров линейной регрессии применяются статистически оценки, приведенные в таблице 8:

Таблица 8

Название характеристики

Обозначение

Формула

Описание

Случайная ошибка параметра aлинейной регрессии

ma

Случайная ошибка параметра bлинейной регрессии

mb

t-критерий Стьюдента для параметра а

ta

Рассчитывается для оценки статистиче­ской значимости коэф­фициентов регрессии.  Выдвигается гипотеза Hо случайной природе по­казателей, то есть о не­значимом их отличии от нуля. Сравнивая факти­ческое и табличное (кри­тическое) значения для заданного уровня значи­мости, принимаем или отвергаем выдвинутую гипотезу: если

t-критерий Стьюдента для параметра b

tb

Продолжение таблицы 8

Название характеристики

Обозначение

Формула

Описание

tтабл> tфакт, то H0отклоняется, то есть aи bне случайно отличаются от нуля и сформировались под воздействием система­тически действующего фактора x, иначе — при­рода формирования слу­чайна.

Доверительные интервалы параметров линейной регрессии

a- tтаблma

Если в границы доверительного интер­вала попадает ноль, то есть нижняя граница от­рицательна, а верхняя положительна, то оцени­ваемый параметр прини­мается нулевым, так как он не может принимать и положительное, и отри­цательное значение.

a+ tтаблma

b- tтаблmb

b+ tтаблmb

Во множественной регрессии для нахождения доверительных интервалов справедливы формулы, описанные в таблице 9:

Таблица 9

Название характеристики

Обозначение

Формула

Описание

Дисперсия остатков регрессии

s2

ESS/(n-k)

n— число единиц совокупности,  k— число неизвестных параметров.

Дисперсия i-го коэффициента регрессии

— i-й элемент диагонали ковариационной матрицы

Продолжение таблицы 9

Название характеристики

Обозначение

Формула

Описание

Доверительный интервал i-го параметра множественной регрессии

Свойства аналогичны свойствам доверительных интервалов для парной регрессии. Табличное

значение t-критерия Стьюдента выбирается для n-kстепеней свободы.
    продолжение
–PAGE_BREAK–Модель качественного прогноза
Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число kклассов. Для этого достаточно провести kразбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.

Обозначим через соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в , как положительные примеры класса , а объекты, не входящие в , — как контрпримеры или отрицательные объекты класса , множество которых мы обозначим через . Запишем бинарный вектор наблюдений Xв виде , где  или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через  и  вероятности появления i-го дескриптора в классах  и  соответственно.

В предположении условной независимости можно записать условные плотности распределения вероятностей в каждом классе в виде произведения вероятностей для компонент вектора наблюдений.

Отношение правдоподобия при этом определяется выражением

.

Прологарифмировав это отношения и приведя подобные члены, получим байесовскую решающую функцию

 ,

где  — информационный вес k-го дескриптора, а

 — константа.

Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:

если  , то  , иначе .

При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов  и  неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны:

 и .

Оценка величин piи qiосуществляется по конечному числу выборочных представителей образов в соответствующих классах:

 ,  ,

где  — числа встречаемости i-го дескриптора в первом и втором классах, а  — объемы выборок в этих классах.

Отнесение химического соединения к соответствующему классу токсичности производилось в дипломном проекте по значениям  , где  — ошибка второго рода для k-го класса в зависимости от отношения правдоподобия l, а значение k, на котором достигается  , и является номером класса опасности.
    продолжение
–PAGE_BREAK–