Санкт-Петербургский государственный технический университет
Методы определения вторичной структуры белков
Пособие для проведения лабораторных работ
на кафедре биофизики физико-механического факультета СПбГТУ
Инфракрасная спектроскопия и спектроскопия кругового дихроизма.
Захаров В.В.
1999
Содержание
Введение
1. Спектры кругового дихроизма белков
1.1 Явление кругового дихроизма
1.2 Методы анализа спектров кругового дихроизма белков
1.3 Работа с пакетом программ STRUCTURE по анализу спектров КД белков
2. Инфракрасные спектры поглощения белков
2.1 Поглощение белков в ИК-области
2.2 Методы анализа ИК-спектров белков
2.3 Работа с пакетом программ STRUC по анализу ИК-спектров белков
Список литературы
Введение
Хромофоры белковых молекул (то есть химические группы в молекулебелка, ответственные за поглощение света на определенных длинах волн) можно разделитьна три класса: пептидные группы, боковые группы аминокислотных остатков и простетическиегруппы. Спектроскопические методы исследования вторичной структуры белка основанына изучении спектров именно пептидных хромофоров, поскольку конформация пептидныхгрупп и определяет тот или иной тип вторичной структуры белка — a-спираль, b-структуруи др. Изучение поглощения света пептидными группами белка обычно проводится в ультрафиолетовоми в инфракрасном диапазонах. Как показывают эксперименты, простая адсорбционнаяспектроскопия белков в неполяризованном ультрафиолетовом свете мало пригодна дляанализа вторичной структуры белка. Более ценную информацию можно извлечь из спектровкругового дихроизма белка. Инфракрасные спектры поглощения белка также пригодныдля анализа его вторичной структуры [1]. Ниже будет рассмотрено применение методовизмерения кругового дихроизма и инфракрасной спектроскопии для анализа вторичнойструктуры белка.
1. Спектры кругового дихроизма белков
1.1 Явление кругового дихроизма
Белки, как практически все биологические молекулы, вследствиесвоей пространственной асимметрии обладают оптической активностью. При прохождениичерез оптически активную среду плоскополяризованный свет становится эллиптическиполяризованным. Эллиптичность света qявляется одной из мер оптической активности. Она определяется как арктангенс отношениямалой и большой осей эллипса. Другим параметром, характеризующим оптическую активность,является отклонение большой оси эллипса от направления поляризации падающего света,называемое оптическим вращением (или дисперсией оптического вращения) j.
Если представить плоскополяризованную волну Е в виде суммыдвух волн противоположной круговой поляризации Е=ЕL+ЕR, то можнопоказать, что величина j пропорциональнаразности показателей преломления среды для этих волн nL-nR, а величина q — разности коэффициентов экстинции eL-eR. Таким образом, оптическое вращение и появление эллиптическойполяризации у плоскополяризованного света при прохождении его через оптически активнуюсреду можно объяснить различным замедлением (nL¹nR) ипоглощением (eL¹eR)двух его составляющихЕL и ЕR, поляризованныхпо кругу. Разность Dn=nL-nR называют круговым двулучепреломлением, а разность De=eL-eR — круговым дихроизмом. Зависимости этих величин от длины волны называют спектрамидисперсии оптического вращения (ДОВ) и кругового дихроизма (КД).
На самом деле, ДОВ и КД являются проявлениями одного и того жефизического явления, а их спектры можно выводить один из другого. Поэтому на практикедостаточно измерять лишь один из этих двух спектров. Спектры КД более удобны дляиспользования на практике, поскольку содержат узкие, хорошо разрешимые полосы. Этимобъясняется то, что в настоящее время метод измерения КД используется гораздо болеешироко, чем ДОВ, несмотря на то, что он требует гораздо более сложного экспериментальногооборудования.
КД легко измерить путем попеременного пропускания через образецлево — и правополяризованного по кругу света и регистрации соответствующей разницыпоглощений, поскольку эллиптичность выходящего из оптически активного образца светаобычно очень мала, и ее точное измерение весьма затруднительно. Однако, разностьпоглощений обычно пересчитывают в значения эллиптичности. Для того, чтобы можнобыло сравнивать результаты, полученные при исследовании разных образцов, пользуютсязначениями так называемой молярной эллиптичности:
[q] = 100q / Cl= 3300 De, (1.1.1)
где С — молярная концентрация, а l — длина оптического пути.
В случае белков главной целью измерения спектров КД являетсяопределение содержания в них вторичных структур разных типов. Если доля ароматическихаминокислот в белке не очень велика, его оптическая активность в области от 180до 240 нм определяется главным образом полипептидным остовом. Многочисленные экспериментыпоказали, что алифатические боковые группы аминокислотных остатков белка также недают заметного вклада в спектр КД в этой области. Следовательно, в первом приближениибелковую молекулу можно рассматривать просто как комбинацию участков полипептиднымостова, находящихся в конформациях a-спирали,b-структуры и беспорядочного клубка.
Поглощение света пептидной группой
/>
в ультрафиолетовом диапазоне определяется электронными переходамив ее электронных оболочках. В этом процессе основное участие принимают три молекулярныхорбитали пептидной группы: n-орбиталь — несвязывающая орбиталь,на которой располагается неподеленная пара 2py-электроноватома кислорода, p-орбиталь — связывающаяорбиталь, на которой располагаются 2pz-электронатома кислорода и 2pz-электрон атома углерода,в значительной степени делокализованные по атомам кислорода, углерода и азота, иp*-орбиталь — разрыхляющая орбиталь, накоторой в основном состоянии электроны отсутствуют. Два электронных перехода с наименьшейэнергией наблюдаются при возбуждении электрона с n-орбиталина p*-орбиталь (n®p* переход)и с p-орбитали на p*-орбиталь (p®p* переход).n®p* переходу в пептидах соответствует слабая полосапоглощения 210-220 нм, а p®p* переходугораздо более сильная полоса с максимумом вблизи 190 нм (характерная для a-спиральной конформации).
КД различных типов вторичной структуры белка можно оценить порезультатам измерения КД гомополипептидов известной конформации (например, поли-L-лизина), после чего определить вклад каждой из структур в спектрКД исследуемого белка. Однако, такой подход имеет ряд больших недостатков. Во-первых,участки упорядоченной вторичной структуры модельных гомополипептидов имеют значительнобольшую длину, чем длина типичных участков в глобулярных белках. Во-вторых, их конформацияможет сильно отличаться от конформации, наблюдаемой у элементов вторичной структурыреальных белков. Кроме этого, среди гомополипептидов нельзя найти «стандартов»для b-изгибов. И, наконец, хотя вклад вКД от взаимодействий между хромофорами уменьшается как квадрат расстояния междуними, должен существовать определенный вклад от взаимодействия между участками сразличной вторичной структурой. Эти взаимодействия нельзя адекватно смоделировать,рассматривая протяженные гомополимеры. Поэтому на практике спектры КД гомополипептидовне используются. Вместо этого в качестве базисных берут спектры КД белков, структуракоторых известна из данных рентгеноструктурного анализа. Различные подходы к анализуисследуемого спектра КД на основе этого базисного набора определяют различия междуметодами, которые будут описаны ниже.
1.2 Методы анализа спектров кругового дихроизма белков
Метод «эталонных спектров» [2,3]. Методы предсказаниявторичной структуры белков по их спектрам КД основаны на предположении о том, чтоспектры КД различных структурных форм, составляющих белковую молекулу, дают аддитивныйвклад в спектр КД белка в целом. Это можно записать в следующем виде:
/> (1.2.1)
где /> – спектр КД белка (зависимость эллиптичностиот длины волны света), /> – идеализированный «эталонныйспектр» — спектр КД, соответствующий i-ой структурной форме, участвующейв образовании вторичной структуры белка, /> – доля этой формы во вторичной структуре,причем
/>и/>. (1.2.2)
Эталонные спектры /> для всех структурных форм могут бытьвычислены на основании набора базисных спектров КД (спектров белков с известнойвторичной структурой — коэффициентами />) с помощью метода наименьших квадратови формулы (1.2.1), примененной к каждому базисному спектру. После этого экспериментальныйспектр КД исследуемого белка с помощью того же метода наименьших квадратов можетбыть аппроксимирован по формуле (1.2.1) с использованием вычисленных эталонных спектров.При этом вклад каждого из эталонных спектров будет равен доле соответствующей емуструктурной форме в общей структуре белка Такой подход к анализу спектров КД белковбыл впервые использован в работе [2]. Ниже будет более подробно рассмотрена модификацияэтого метода [3].
Принимая в рассмотрение в качестве структурных классов a-спираль (H), b-структуру(b), b-изгиб(t) и “неупорядоченную” форму (R), можем написать:
/>. (1.2.3)
Суммируя экспериментальные данные, вместо /> в уравнение (1.2.3) вводятвеличину />,учитывающую зависимость эталонного спектра, соответствующего a-спирали, от числа аминокислотных остатков, образующихее:
/>, (1.2.4)
где /> и /> – эталонные спектры для a-спирали из n аминокислотных остаткови для a-спирали “бесконечной” длины, а k — так называемый фактор длины цепи (/>). Согласно теоретическим расчетамоптической активности a-спирали и экспериментальнымданным, спектр КД a-спирали /> в диапазоне 185-240нм может быть разложен на три независимых оптически активных составляющих (n®p*, p®p||*,p®p^*),которые можно описать гауссовскими зависимостями:
/>, (1.2.5)
где /> и /> – положение максимума и полуширинаj-ой гауссовской линии в спектре КД a-спирали,а /> – максимальноезначение эллиптичности “бесконечной” a-спиралина длине волны />. В окончательном виде для спектраКД белка можно написать следующее выражение:
/>, (1.2.6)
где
/>. (1.2.7)
Здесь /> – среднее число аминокислот на a-спиральный участок цепи в молекуле белка.
Параметры />, />, /> и />в уравнении (1.2.7) были найдены наоснове спектра КД миоглобина. Они имеют следующие значения:
j
/>, нм
/>, нм
/>, град×см2×дмоль-1
/> 1 223.4 10.8
-3.73×10/> 2.50 2 206.6 8.9
-3.72×10/> 3.50 3 193.5 8.4
+10.1×10/> 2.50
Эти параметры для глобулярных белков с достаточно большой точностьюможно считать постоянными. Попытки оценить /> для конкретных белков по их спектрамКД оказались ненадежными. Для большинства исследованных белков этот параметр оказалсяравным примерно 10-11 аминокислотам на a-спиральныйсегмент. Распространяя этот факт на все анализируемые белки, авторы данного методаположили /> равным10.
Вклад b-структуры в спектрКД белка оказывается зависящим от гораздо большего числа параметров: не только отчисла аминокислотных остатков на сегмент, но и от числа нитей в данном участке структурыи их направленности, поэтому его описание простым уравнением, подобным уравнению(1.2.7), невозможно. То же самое касается b-изгибаи, особенно, “неупорядоченной” формы, под которой подразумевается все, не относящеесяк другим классам. Используемые в данном методе эталонные спектры b-структуры, b-изгибаи “неупорядоченной” формы являются статистически усредненными по белкам, используемымв качестве базисных.
Процедура анализа спектра КД исследуемого белка подразделяетсяна два этапа. Первый этап заключается в вычислении эталонных спектров структурныхэлементов, то есть значений />, />, /> и /> для длин волн в диапазоне 185-240нм с интервалом в 1 нм, на основе экспериментальных спектров КД пятнадцати эталонныхбелков со значениями />, />, />, />, />, известными из рентгеноструктурногоанализа. Эталонный спектр, соответствующий a-спирали,может быть вычислен непосредственно по формуле (1.2.7). Остальные эталонные спектрынаходятся из уравнения (1.2.6) с помощью метода наименьших квадратов, причем дляуменьшения числа неизвестных в этом уравнении из экспериментального спектра КД каждогоэталонного белка исключается вклад a-спиральнойформы, вычисленный по формуле (1.2.7). Эталонные спектры, вычисленные с помощьюданного метода показаны на рисунке 1.2.1.
Когда эталонные спектры найдены, могут быть вычислены коэффициенты/>, />, />, /> в уравнении (1.2.6),примененном к спектру КД исследуемого белка. Для этого также используется методнаименьших квадратов. Он заключается в подборе таких коэффициентов />, что
/> minimum. (1.2.8)
Здесь /> – экспериментальный, а /> – рассчитанныйпо формуле (1.2.6) спектр КД исследуемого белка; /> – число точек в спектре. Коэффициенты/>, являющиесярешением уравнения (1.2.8) с учетом условий (1.2.2), представляют собой искомыедоли структурных элементов во вторичной структуре белка.
Метод «регуляризации» [4].Подход к анализу спектраКД белка, лежащий в основе предыдущего метода, заключается в определении эталонныхспектров, которые, как можно было бы предполагать, полностью характеризуют структурныеэлементы, образующие вторичную структуру исследуемого белка. Однако, как показываютэкспериментальные данные, ни один эталонный спектр не может точно описать все разновидноститаких обширных и достаточно неопределенных классов, как a-спираль, b-структура, b-изгиб и др.
Конформация элементов вторичной структуры глобулярных белковзначительно отличается от идеальной. Кроме этого, вклад каждого структурного классав спектр КД белка зависит от очень многих параметров, о которых упоминалось выше.Для учета всего разнообразия типов вторичной структуры белков требуется расширитьисходный набор базисных спектров. В результате возникающей при этом избыточностиначальных данных обычный метод наименьших квадратов становится неустойчивым к экспериментальнойошибке и приводит к заведомо неверным результатам. Применение метода «эталонныхспектров» в том виде, как он описан в предыдущем пункте, к большому базисномунабору спектров оказывается, по сути, некорректным.
Эту проблему частично можно разрешить, заменив метод наименьшихквадратов моделью, применение которой, на первый взгляд, не вполне оправдано и адекватно,но зато приводит к устойчивому к экспериментальной ошибке результату даже в случаебольшого числа параметров. Применение такой стабилизирующей модели позволяет подойтик анализу спектров КД с другой стороны. А именно, появляется возможность прямогопредставления спктра КД исследуемого белка в виде линейной комбинации базисных спектров.Таким образом удается полностью избежать проблемы, связанной с определением эталонныхспектров отдельных структурных классов и проводить более гибкий и точный анализс использованием реальных белковых спектров.
Рассмотрим данный метод более подробно. Предположим, что намудалось представить спектр КД исследуемого белка в виде линейной комбинации спектров/> базисных белков,структура которых известна из рентгеноструктурного анализа. Обозначим число этихспектров через /> (в данном методе />=16). Тогда можем записать:
/>, (1.2.9)
где /> – спектр КД (эллиптичность) исследуемогобелка.
Обозначим долю аминокислот j-ого базисного белка в i-омструктурном классе через />, тогда базисные спектры могут бытьпредставлены в виде суперпозиции /> идеализированных эталонных спектров/>, соответствующихотдельным структурным классам:
/>. (1.2.10)
Аналогично для спектра КД исследуемого белка:
/>. (1.2.11)
Подставляя равенства (1.2.10) и (1.2.11) в уравнение (1.2.9),получим связь искомых коэффициентов /> с известными (из рентгеноструктурногоанализа) коэффициентами />:
/>. (1.2.12)
Проблема заключается в определении коэффициентов /> в разложении (1.2.9).В подобных задачах широко применяется метод наименьших квадратов, определяющий коэффициенты/> из следующегоусловия:
/> minimum (1.2.13)
с ограничениями
/>и/>. (1.2.14)
Здесь /> и /> – экспериментальное и рассчитанноепо формуле (1.2.9) значения для эллиптичности на длине волны />, /> – число точек в спектре.
Согласно теореме Гаусса-Маркова, среди линейных несмещенных оценокоценка, получаемая с помощью метода наименьших квадратов, является наиболее эффективнойв том смысле, что рассчитанные с его помощью коэффициенты /> наиболее близки к своимистинным значениям. Однако, при больших значениях /> метод наименьших квадратов становитсякрайне неустойчивым к экспериментальной ошибке. Повышение стабильности метода засчет снижения величины />, в свою очередь, также приводит кзаметной ошибке.
Авторы метода [4] нашли выход в использовании вместо метода наименьшихквадратов линейной смещенной оценки, определяемой следующим условием:
/> minimum. (1.2.15)
Эта оценка является смещенной и, следовательно, приводит к систематическойошибке. Тем не менее при больших значениях /> она дает значения /> более близкие реальным,чем получаемые с помощью метода наименьших квадратов. Очевидно, что уравнение (1.2.15)также необходимо дополнить условиями (1.2.14).
Рассмотрим критерий (1.2.15) более подробно. При a=0 мы получаем обычный метод наименьших квадратов,не пригодный в нашем случае. При a>0второй член в левой части (1.2.15) является регуляризатором. Он стабилизирует решение,поддерживая коэффициенты /> малыми (близкими к 1//>). Тем не менее,если некоторый спектр /> содержит компоненты, которые хорошоаппроксимируют />, это ограничение не будет иметь такойсилы, так как минимизация левой части уравнения (1.2.15) сможет быть достигнутав большей степени уменьшением первого члена, чем второго, что приводит к наиболееоптимальному значению />. Таким образом получается очень гибкая,но стабильная модель, которая самостоятельно выбирает из большого набора базисныхспектров те, которые аппроксимируют данные наилучшим образом. В случае анализа спектровКД белков уравнению (1.2.15) можно дать следующую интерпретацию. Поскольку априоринельзя сказать, какой из спектров /> будет аппроксимировать /> лучше, ни одиниз них не имеет преимущества, и все коэффициенты /> полагаются приблизительно равными,близкими к 1//>(смотри условия (1.2.14)).
При возрастании параметра aточность аппроксимации экспериментальных данных падает за счет уменьшения эффективногочисла степеней свободы, соответствующего числу свободных параметров в обычном методенаименьших квадратов. Обычно при малых aэто происходит медленно, но когда этот параметр становится слишком большим, числостепеней свободы становится таким малым, что коэффициенты /> становятся равными 1//>, и метод полностьютеряет свою гибкость. Выбор параметра aопределяется оптимальным компромиссом между гибкостью и стабильностью модели, темсамым давая наилучшие значения />. Авторы данного метода осуществляливыбор a с помощью автоматического статистическоготеста на относительное увеличение отклонения аппроксимирующего спектра (реконструированногоиз спектров эталонных белков) от экспериментальных данных при увеличении этого параметра.
Если при анализе спектра КД белка нам известно, что среди белковбазисного набора есть белки, структурно схожие с исследуемым, то в уравнение (1.2.15)можно ввести эти данные с помощью различного взвешивания отдельных членов второйсуммы этого уравнения, тем самым давая соответствующим коэффициентам /> большую свободуизменения. Однако сделать это объективно и количественно довольно сложно, поэтомуавторы метода не пользовались этим. Как показывают эксперименты, в случае структурнойсхожести белков соответствующие коэффициенты /> автоматически выбираются наибольшимибез какой-либо дополнительной информации.
Метод «ортогональных спектров» [5,6]. Основойданного метода является метод собственных векторов многокомпoнентного матричногоанализа. Он позволяет проводить быструю обработку больших наборов данных с помощьюформирования из них ортогональных компонент в виде собственных векторов с соответствующимисобственными значениями.
Этот метод использует в качестве базисных спектры КД 16 белковс известной вторичной структурой в диапазоне 178-260 нм с интервалом в 2 нм (всегопо 42 точки в каждом из 16 спектров). Пусть С — прямоугольная матрица размером16/>42, содержащаяв качестве строк спектры КД эталонных белков. Умножая ее на свою транспонированнуюматрицу, получим симметричную квадратную матрицу CCT размером16/>16. Приведемэту матрицу к диагональному виду с помощью ортогональной матрицы U (16/>16):
(CCT) U = UE. (1.2.16)
Матрица U будет состоять из 16 собственных векторов, адиагональная матрица Е — из 16 собственных значений матрицы CCT.Рассмотрим матрицу B, определяемую выражением
B = UTC. (1.2.17)
Это прямоугольная матрица, которая, также как и матрица исходныхспектров КД базисных белков, имеет размер 16/>42. Ее строки можно использовать вкачестве 16 новых ортогональных базисных спектров КД, каждый из которых представляетсобой линейную комбинацию исходных белковых спектров. Разложение произвольного спектраКД по этим новым базисным спектрам, вместо исходных, оказывается более удобным,поскольку “значимость” каждого их них в этом разложении, то есть степень, вкоторой он представляет исходный набор базисных спектров, пропорциональна квадратномукорню из соответствующего собственного значения. Из этого следует, что любой неполныйнабор из ортогональных базисных спектров, выбранный таким образом, что соответствующиеим собственные значения максимальны, будет описывать произвольный белковый спектрКД лучше, чем любой неполный набор из исходных спектров базисных белков.
Ошибка, возникающая при аппроксимации экспериментального белковогоспектра КД с помощью неполного набора наиболее “значимых” ортогональных базисныхспектров, определяется следующей формулой:
/>. (1.2.18)
Здесь s — среднее квадратичноеотклонение, n — число точек в спектре, m — число базисных спектров в исходном наборе,/> – число ортогональныхбазисных спектров в неполном наборе, используемом для реконструкции произвольногобелкового спектра, а /> – собственные значения, расположенныев ряд в порядке убывания их величины. Случайная ошибка, связанная с погрешностьюизмерений при снятии спектров КД эталонных белков, приблизительно равна 0.3 единицыDe.Сравним ее со значениями s, рассчитаннымипо формуле (1.2.18) для разных значений m(при m=16): m s, ед. De 3 0.38 4 0.24 5 0.17 6 0.12
Из приведенной таблицы видно, что четыре ортогональных базисныхспектра дают значение s, нe превышающееуровень случайной ошибки. Но эксперименты показывают, что форма реконструированноготаким образом спектра плохо совпадает с реальной. Пять ортогональных базисных спектровдают значение s, в два раза меньшее уровняслучайной ошибки, и при этом хорошо воспроизводят форму спектра. Шесть ортогональныхбазисных спектров дают лишь незначительное улучшение.
Это объясняется тем, что оставшиеся базисные спектры представляютсобой ни что иное, как “шум”, и их учет приводит лишь к увеличению ошибки при вычислениях.Авторы данного метода использовали для вычислений пять «наиболее значимых»ортогональных базисных спектров (m=5), полагаяэто количество оптимальным. Эти спектры представлены на рисунке 1.2.2.
Из выражения (1.2.17) следует, что
С = UB. (1.2.19)
Восстанавливая по сокращенному набору ортогональных базисныхспектров исходный набор базисных спектров КД, можем написать:
/>, (1.2.20)
где /> – исходные базисные спектры (i=1,.,16; k=1,.,42), а/>-/> — пять «наиболее значимых»ортогональных базисных спектров. Эксперименты по воспроизведению исходных белковыхспектров по формуле (1.2.20) показывают, что среднеквадратичная ошибка при этомсоставляет от 0.08 до 0.25, что является весьма хорошим показателем.
Представим данные рентгеноструктурного анализа для 16 базисныхбелков в виде матрицы S размером 16/>8, содержащей величины относительногосодержания в каждом из белков восьми структурных элементов: спиральной структуры,включая a — и 310-спирали, антипараллельнойи параллельной b-структуры, b-изгибов I, II, III типов, других видов b-изгибов и оставшейся (“неупорядоченной”) структуры.
Как можно предполагать из того факта, что исходный набор базисныхспектров может быть полностью восстановлен но основе лишь пяти спектров ортогональногобазисного набора, спектры КД белков в диапазоне от 178 до 260 нм содержат в себеинформацию лишь о пяти независимых типах вторичной структуры.
С точки зрения независимости спектров КД в качестве таких типоввторичной структуры могут быть приняты комбинации обычных типов вторичной структуры(a-спирали, b-структуры и т.д.), соответствующие пяти «наиболее значимым»ортогональным базисным спектрам.
Если для ортогональных базисных спектров также ввести матрицуструктурных данных D (16/>8), то аналогично формуле (1.2.19)можно записать
S = UD (1.2.21)
Как показывает эксперимент, структурная матрица S можетбыть полностью восстановлена на основе лишь пяти комбинаций элементов вторичнойструктуры матрицы D, соответствующих пяти «наиболее значимым» ортогональнымбазисным спектрам. Таким образом, эти комбинации обычных типов вторичной структурыявляются (с точки зрения независимости спектров КД) независимыми вторичными«суперструктурами»:Номер «супер-структуры»
a, 310
b
¯
b
b-изг.
I
b-изг.
II
b-изг.
III
b-изг.
др.
Ост.
типы 1 1.77 0.30 0.20 0.16 0.07 0.12 0.14 1.06 2 0.56 -0.47 -0.06 -0.04 -0.07 -0.01 -0.09 -0.76 3 0.06 0.38 -0.12 0.01 0.02 0.01 0.01 -0.18 4 0.00 0.06 0.27 -0.04 -0.02 0.00 0.03 -0.06 5 -0.01 -0.01 0.02 0.16 0.02 0.05 0.00 -0.03
Следовательно, восемь рассматриваемых в данном методе стандартныхструктурных классов, вообще говоря, не являются строго независимыми, так как всеони также могут быть описаны с помощью пяти независимых “суперструктур”, описанныхвыше.
Для применения данного метода к анализу спектров КД произвольныхбелков необходимо, чтобы анализируемый спектр также быть снят в диапазоне от 178до 260 нм. Поскольку при его аппроксимации базисными спектрами рассматривается лишьнебольшой их набор, то проблемы, связанной с неустойчивостью метода наименьших квадратов,не возникает. Однако, очевидно, что приемлемые результаты возможно получить тольков том случае, если структурные характеристики исследуемого белка достаточно хорошопредставлены среди базисных белков. Для установления достоверности полученных результатовавторы метода рекомендуют использовать метод наименьших квадратов без ограниченийна коэффициенты разложения (смотри условия (1.2.2)). При этом большие по модулюотрицательные коэффициенты /> или большое отклонение их суммы отединицы свидетельствуют о том, что метод в данном случае неприменим. Подробнее обэтом критерии будет говориться в следующем разделе.
Метод «выбора переменных» [7]. Обычный методнаименьших квадратов, используемый для представления произвольного спектра КД ввиде линейной комбинации базисных спектров, имеет по сравнению с другими методаминаибольшую гибкость. Это проявляется в том, что спектры базисных белков участвуютв разложении в различной степени в зависимости от характера конкретного спектра.Однако, эксперименты показывают, что наилучшее воспроизведение формы спектра невсегда дает лучшие результаты. Более того, метод наименьших квадратов оказываетсянеустойчивым к экспериментальной ошибке, если число используемых в разложении базисныхспектров превышает информационное содержание анализируемого спектра (для спектровв диапазоне 178-260 нм оно приблизительно равно пяти, а в диапазоне 190-260 нм- четырем).
Метод «регуляризации» [4] решает эту проблему с помощью«регуляризатора», который стабилизирует систему, оставляя ей при этомзначительную гибкость. Метод «ортогональных спектров» [5,6] достигаетустойчивости метода наименьших квадратов за счет использования только пяти ортогональныхбазисных спектров, построенных на основе исходного набора спектров базисных белков.Однако, поскольку базисные спектры построены на основе фиксированного набора спектровбазисных белков, степень участия последних при воспроизведении анализируемого спектратакже оказывается в некоторой мере фиксированной, а гибкость метода — крайне низкой.
Метод «выбора переменных», суть которого будет описананиже, основан на методе «ортогональных спектров», но обладает значительнойгибкостью, достигаемой за счет использования при построении ортогональных базисныхспектров различных наборов базисных белков, выбираемых с помощью статистическойпроцедуры «выбора переменных». Рассмотрим смысл этой процедуры более подробно.
Предсказание вторичной структуры белка по его спектру КД должноудовлетворять двум важным условиям:
1. Величины содержания в белке рассматриваемых структурных элементов не должныбыть отрицательными: />.
2. Суммарное содержание в белке всех рассматриваемых типов структур должно бытьравно единице (100%): />.
Второе условие является особенно важным при анализе конформационныхизменений белка при денатурации или связывании каких-либо лигандов. Во всех методах,описанных выше, оба эти условия вводятся непосредственно в процедуру нахождениякоэффициентов /> с помощью метода наименьших квадратов.Однако такое ограничение на коэффициенты может весьма заметным образом исказитьрезультаты этой процедуры.
Для преодоления подобных недостатков авторы рассматриваемогометода не пользуются условиями (1) и (2) и допускают существование отрицательныхкоэффициентов /> и отклонение их суммы от единицы.Появление подобных несоответствий свидетельствует о неуспехе метода и может бытьобъяснено наличием у некоторых базисных белков таких структурных форм, вкладов которыхв спектр исследуемого белка не было обнаружено. Для избежания подобных ситуацийвводится процедура «выбора переменных», которая поочередно исключает белкииз исходного базисного набора, а затем проводит вычисления с каждой из полученныхкомбинаций базисных белков, используя метод «ортогональных спектров».Эксперименты показали, что достоверность результатов значительно повышается по меретого, как сумма коэффициентов /> приближается к единице. Повышениеточности анализа было достигнуто даже при анализе спектров в укороченном диапазоне(190-260 нм).
Поскольку заранее не известно, какие из базисных белков содержатэлементы, отсутствующие у исследуемого белка, и спектры которых необходимо исключитьиз исходного набора для улучшения результатов, рассматриваются все возможные комбинациииз исходного набора 16 базисных спектров. Эта процедура выполняется в следующемпорядке. Сначала из исходного набора исключаются поочередно по три базисных спектрана каждом шаге, а ортогональные базисные спектры строятся на основе оставшихся 13исходных базисных спектров. Сравнение результатов, полученных для различных наборовиз 13 базисных белков, выявляет один или два белка, которые являлись причиной отклоненийкоэффициентов /> и их суммы от условий (1) и (2). Этибелки исключаются из исходного набора, и процедура повторяется до тех пор, покане будут получены удовлетворительные результаты.
Критериями удовлетворительного решения, соответствующего оптимальномунабору базисных спектров, являются следующие условия:
1. Сумма коэффициентов /> должна находиться в диапазоне от 0.96до 1.05 (или, по крайней мере, от 0.90 до 1.10).
2. Значение содержания произвольной структурной формы в исследуемом белке (/>) должно быть выше- 0,05.
3. Воспроизведение анализируемого спектра на основе выбранного набора базисныхспектров должно быть лучше, чем при использовании полного их набора.
4. Более предпочтительным является набор, содержащий большее число базисныхспектров.
5. Более предпочтительными являются те белки, спектры которых ближе к анализируемомуспектру.
На практике в большинстве случаев удовлетворительных результатовудается достичь при исключении из исходного набора всего трех или четырех белков,причем среднеквадратичная ошибка при воспроизведении анализируемого спектра составляетменьше 0.2 единицы De. Если несколько наборов базисных белков оказываютсяудовлетворительными в одинаковой степени, то результаты, полученные на их основе,усредняются.
В заключение можно отметить, что метод «выбора переменных»является мощным средством анализа спектров КД белков в ситуациях, когда другие распространеннныеметоды дают заведомо неверные результаты.
Сравнение различных методов анализа спектров КД.Посколькувсе методы анализа спектров КД имеют чисто эмпирический характер, каждый из нихнуждается в экспериментальной проверке на белках с известными рентгеноструктурнымиданными. Обычно подобная проверка проводится на белках, включенных в базисный набордля данного метода. При этом белки поочередно исключаются по одному из этого набора,а их спектры анализируются на основе спектров оставшихся белков. После этого результаты,полученные для каждого типа вторичной структуры, сравниваются со значениями, полученнымипри рентгеноструктурном анализе, с помощью подсчета коэффициента корреляции междуэтими двумя наборами данных, определяемого следующим выражением:
/>.(1.2.22)
Здесь /> и /> – экспериментальный и рассчитанныйнаборы данных, n — число белков в базисном наборе. Значения коэффициента корреляцииr лежат в диапазоне от — 1 до 1, причем значеия r, близкие к 1, свидетельствуютоб успешном предсказании, характеризующимся достаточно высокой точностью. Значенияr, близкие к 0 или — 1, говорят о случайном совпадении или полном несоответствиирассчитанных и экспериментальных данных.
Ниже приведены значения коэффициентов корреляции для четырехрассмотренных методов: метода «эталонных спектров» [2,3], метода«регуляризации» [4], метода «ортогональных спектров» [5,6] иметода «выбора переменных» [7]: метод диапазон, коэффициент корреляции r нм a b ¯ b b ¯+ b-изг. Ост. [2,3] 190-240 0.85 – – 0.25 -0.31 0.46 [4] 190-240 0.96 – – 0.94 0.31 0.49 [5,6] 190-260 0.98 0.40 0.00 -0.27 0.18 0.24 [7] 190-260 0.95 0.57 0.47 0.45 0.54 0.69 [4] 178-260 0.96 0.23 0.39 0.12 0.51 0.64 [5,6] 178-260 0.98 0.55 0.63 0.54 0.30 0.61 [7] 178-260 0.97 0.78 0.67 0.76 0.49 0.86 1.3 Работа с пакетом программ STRUCTURE по анализу спектров КД белков
Пакет программ STRUCTURE разработан в институте белка РАН (1991-1992 К.С. Василенко).Он предназначен для анализа спектров кругового дихроизма белков и определения ихвторичной структуры. Алгоритм анализа спектров основан на методах, описанных выше.Пакет STRUCTURE состоит из следующихпрограмм и вспомогательных файлов:
– STRUCTURE (файл structur.exe) — программа, обеспечивающая интерфейс для всех программ пакета,позволяющая также создавать и редактировать файлы данных в универсальном для всехпрограмм формате.
– CONTIN (файл contin.exe)- программа, определяющая вторичную структуру белка методом «регуляризации»[4].
– PROVCD (файл provcd.exe)- программа, осуществляющая проведение статистического теста для программы CONTIN.
– DEF_CLASS (файл def_clas.exe) — программа, определяющая типтретичной структуры белка.
– CDESTIMATE (файл cdestima.exe) — программа, определяющая вторичную структуру белка методом«эталонных спектров» [3].
– VARSELEC (файл varselec.exe) — программа, определяющая вторичную структуру белка методом«ортогональных спектров» с процедурой «выбора переменных» [7].
– RUN.BAT — командный файл, используемыйдля запуска программ пакета в условиях недостаточного объема оперативной памяти.
– *.DAT — файл, содержащий спектр КД белка, а также данные о его вторичнойструктуре (если они известны).
– *.GRP — файл, содержащий список базисных спектров КД (принадлежащиходной из базисных групп).
– *.STR — файл, содержащий набор структурных типов (элементов вторичнойструктуры белка).
После запуска файла structur.exe на экране появляется главное менюпрограммы, состоящее из следующих пунктов:
1. File — создание и редактирование файлов данных;
2. Group — создание и редактирование групп базисныхспектров КД белков;
3. Calculate — выбор метода анализа, анализируемогоспектра, группы базисных спектров, запуск вычислений и просмотр результатов;
4. Options — выбор набора структурных типов;
5. Setup — изменение цветового оформления окон программы;
6. Quit- выход из программы.
В нижней части экрана располагаются три окна, содержащие информациюоб анализируемом спектре КД (Protein), а также о выбранныхдля анализа группе базисных спектров (Group) и наборе типоввторичной структуры белка (Structures).
Создание и редактирование файлов данных. Создание и редактированиефайлов данных осуществляется с помощью команд меню File/Create и File/Edit соответственно. В файл необходимовнести следующую информацию:
– Комментарий длинойне более 45 символов (пункт меню Comment).
– Идентификатор длинойне более 7 символов, который становится именем файла и автоматически приобретаетрасширение.dat (пункт меню Identificator).
– Содержание в белке(относительные доли) различных типов вторичной структуры по данным рентгеноструктурногоанализа (пункт меню Structure data). Эти данные необходимы только в случае использования вводимогоспектра в дальнейшем в качестве базисного.
– Диапазон и шаг подлинам волн, а также сам спектр КД (пункт меню Spectrum).Для программы CDESTIMATE диапазонанализируемого спектра не должен быть шире, чем 240 — 190 нм, а шаг должен бытьравен 1 нм или больше. Для программы CONTIN число точек в анализируемом спектре не должно превышать 51. Дляпрограмм CONTIN, VARSELEC и PROVCD диапазонанализируемого спектра не должен быть шире диапазона базисных спектров, а шаг долженсовпадать с шагом базисных спектров.
После ввода всей перечисленной выше информации необходимо сохранитьее с помощью пункта меню Save. При необходимости можно построитьвведенный спектр КД на экране в графическом виде с помощью пункта меню View.
Команды меню File/Load и File/Delete используются соответственно для добавления новых спектров в списокрабочих спектров, запоминаемых программой, и для удаления из него ненужных спектров.Для добавления нового спектра с помощью команды Load необходимо указать имя файла,в котором он хранится (предварительно его надо записать в текущий каталог). Приудалении какого-либо спектра из списка с помощью команды Delete соответствующий ему файл не удаляется, поэтому его всегда можнобудет включить обратно в список с помощью команды Load.
Создание и редактирование групп базисных спектров. В программеSTRUCTURE уже существует 6 предопределенныхгрупп базисных спектров, соответствующих различным методам анализа спектров КД.Эти группы имеют следующие имена:
– PG_3_16.GRP иPG_4_16.GRP — базисные наборы, состоящиеиз 16 спектров, использованные для анализа авторами метода «регуляризации»[4] (Provencher & Glockner), предназначенные для определения вторичной структурыпо 3 и 4 структурным классам соответственно (смотри ниже);
– PG_3_20.GRP иPG_4_20.GRP — базисные наборы, содержащиете же самые 16 спектров, что и в двух предыдущих наборах, плюс 4 спектра денатурированныхбелков;
– HJ_16.GRP и HJ_22.GRP — базисные наборы, состоящиеиз 16 и 22 спектров соответственно, использованные для анализа авторами метода«ортогональных спектров» [7] (Henessey & Johnson), предназначенные для определениявторичной структуры по 5 структурным классам (смотри ниже).
В программе предусмотрена возможность создания собственных группбазисных спектров. Для этого необходимо воспользоваться командой главного меню Group/Create, позволяющей выбрать из спискасуществующих спектров те, которые вы хотите включить в свой базисный набор. Аналогичнымобразом осуществляется редактирование групп базисных спектров (команда главногоменю Group/Edit). Удаление группыбазисных спектров осуществляется с помощью команды главного меню Group/Delete.
Выбор набора структурных типов. В программе STRUCTURE предопределены следующие 3 наборатипов вторичной структуры белка: Provencher 3 (PG3.STR)
ALFA_hl (a-спираль)
BETA_sh (b-структура)
Remain (остальные типы) Provencher 4 (PG4.STR)
ALFA_hl (a-спираль)
BETA_sh (b-структура)
BETA_tn (b-поворот)
Remain (остальные типы) Johnson 5 (HJ.STR)
ALFA_hl (a-спираль)
BETA_Ash (антипараллельная b-структура)
BETA_Psh (параллельная b-структура)
BETA_tn (b-поворот)
Other (остальные типы)
Набор All structures (FULL.STR)содержит дополнительные типы вторичной структуры белка, однако он ни с одной изпредопределенных групп базисных спектров не используется.
Каждая группа базисных спектров соответствует одному из вышеперечисленных наборов структурных типов. Это соответствие выглядит следующим образом:
PG_3_16.GRP и PG_3_20.GRP- Provencher 3;
PG_4_16.GRP и PG_4_20.GRP- Provencher 4;
HJ_16.GRP и HJ_22.GRP- Johnson 5.
При выборе одной из групп базисных спектров необходимо выбратьсоответствующий набор типов вторичной структуры белка. Выбор нужного набора структурныхтипов осуществляется с помощью команды главного меню Options/Structure types.
Запуск вычислений. Для начала вычислений необходимо воспользоватьсякомандой главного меню Calculate. В появляющемся меню нужновыбрать один из предлагаемых методов вычислений. В появляющемся после этого спискеимеющихся белковых спектров необходимо выбрать анализируемый спектр. Если для расчетовбыли выбраны программы CONTIN, VARSELEC,PROVCD или DEF_CLASS, то необходимо также выбрать группу базисных спектров, накоторой будут основаны вычисления. После этого производится запуск вычислений.
Если для расчетов была выбрана программа VARSELEC,то необходимо также установить порядок исключения спектров из исходного базисногонабора для процедуры «выбора переменных» с помощью команды главного менюOptions/Var.select.Для этого необходимо указать число спектров, исключаемых на каждом шаге вычислений.После его задания автоматически вычисляется общее количество шагов, требуемых дляперебора всех возможных комбинаций. Если перебор всех возможных комбинаций не требуется,необходимо указать номер начальной и конечной комбинации.
Время вычислений равняется в среднем 1-3 минутам, однако можетсоставлять значительно больший интервал для программы VARSELEC при задании очень большого количества комбинаций базисных спектров.
Результаты вычислений можно просмотреть с помощью команды Calculate/Result.
2. Инфракрасные спектры поглощения белков
2.1 Поглощение белков в ИК-области
Поглощение света в видимом и ультрафиолетовом диапазонах обусловленоэлектронными переходами в молекулах поглощающего вещества. Поглощение света в инфракрасномдиапазоне имеет иную природу. Оно связано с переходами между колебательными уровнямиосновного состояния молекулы. Полосы поглощения, отвечающие колебательным переходам,обычно лежат в диапазоне длин волн от 2000 до 50000 нм или, как принято записыватьдля ИК-спектров, в диапазоне волновых чисел от 5000 до 200 см-1.
Колебательные спектры подчиняются в сущности тем же закономерностям,что и электронные. Однако для колебательных переходов характерна значительно меньшаяинтенсивность, чем для электронных. Следовательно, при регистрации ИК-спектра образецдолжен быть гораздо более концентрированным. Кроме этого, многие полосы ИК-спектровбелков, в том числе соответствующие пептидным хромафорам, расположены в той спектральнойобласти, где наблюдается сильное поглощение воды. Использование D2О вместо Н2О иногда помогает обойти этутрудность, но не решает проблему полностью, поскольку полная замена лабильных протоновбелка на дейтерий часто связана с потерей его нативной конформации.
Описываемый ниже метод определения вторичной структуры белкаоснован на использовании ИК-спектров поглощения белков в Н2О [8-10].Проблема, связанная с их измерением, была решена авторами метода с помощью довольносложной процедуры компенсации поглощения воды и использования очень узких ячеек(с длиной оптического пути около 6-12 мкм). Поскольку все измерения проводилисьв Н2О трудностей с поддержанием нативной конформации белков не возникало.
Колебательные полосы поглощения обычно порождаются переходами,которые можно довольно точно отнести к определенным химическим связям. В случаебелков наиболее интересными являются три инфракрасные полосы, соответствующие колебательнымпереходам в пептидном остове. Это полосы, связанные с растяжением связи N-H (около 3300 см-1), растяжениемсвязи C=O (1640-1660 см-1,полоса амид I) и деформацией связи N-H (1520-1550 см-1, полоса амид II).Эти полосы довольно легко зарегистрировать, поскольку каждое пептидное звено даетвклад в их интенсивность.
Образование водородных связей при формировании вторичной структурыбелка приводит к сдвигу энергии этих трех пептидных колебаний. Первые две полосы,отвечающие валентным колебаниям, смещаются в область более низких энергий, посколькуналичие водородной связи облегчает смещение атома азота амидной группы и атома кислородакарбонильной группы в направлении акцептора или донора протона соответственно. Полосаамид II смещается в сторону болеевысоких энергий, так как водородная связь препятствует изгибанию связи N-H.
Влияние водородных связей на полосы амид I и амид II в случаеa-спирали и b-структуры оказывается различным, что дает возможность использоватьИК-спектры для определения вторичной структуры белков. Ниже представлена таблица,суммирующая данные о влиянии вторичной структуры на положение полос амид I и амид II. Вней приведены положения максимумов (n0)и значения интенсивности в максимумах (Е0) для полос амид I и амид II, усредненныепо нескольким модельным полипептидам и фибриллярным белкам в Н2О [9]:Тип вторичной Амид I Амид II структуры
n0, см-1
Е0, л·моль-1·см-1
n0, см-1
Е0, л·моль-1·см-1 a-спираль 1647 700
1551
1520
310
80 b-структура
1695
1619
180
980
1533
1563
340
100
неупорядочен-
ная форма 1651 320 1550 210
Следует отметить, что расщепление полос амид I и амид II происходит за счет взаимосвязанности колебаний в отдельных пептидныхгруппах.
На рисунке 2.1.1 представлены ИК-спектры трех модельных полипептидов,находящихся в конформациях a-спирали, b-структуры и неупорядоченной формы.
2.2 Методы анализа ИК-спектров белков
В целом, проблемы, решаемые при анализе ИК-спектров белков сцелью определения их вторичной структуры, очень схожы с проблемами, возникающимипри анализе спектров кругового дихроизма белков. При этом также используется наборИК-спектров белков с известной вторичной структурой, используемых в качестве базисных.Так, например, в методе, описанном в работах [8-10], анализ базисного набора, состоящегоиз 13 спектров глобулярных белков и 6 спектров фибриллярных белков и полипептидовв Н2О в диапазоне 1800-1480 см-1, осуществляется с помощьюметодов «регуляризации» [4] и «ортогональных спектров» [6],рассмотренных выше.
Авторы этого метода вводят дополнительную процедуру, позволяющуюисключить вклад в ИК-спектр белка поглощения боковых групп аминокислотных остатков.Ими было показано, что этот вклад составляет около 20% от суммарной интенсивностиполос амид I и амид II. Возможность проведения такой процедуры определяется тем, чтовклады в ИК-спектр поглощения белка от боковых групп аминокислотных остатков и полипептидногоостова являются аддитивными. Для оценки поглощения боковых групп было проведеноизмерение ИК-спектров водных (Н2О) растворов аминокислот. Оказалось,что наиболее сильно поглощают в исследуемой части ИК-диапазона боковые группы аминокислотаспарагина, глутамина, аспарагиновой кислоты, глутаминовой кислоты, аргинина, лизина,тирозина, фенилаланина и гистидина. Было обнаружено также сильное поглощение заряженныхa-амино — и a-карбоксильной групп аминокислот. Поэтому их поглощение также необходимоучитывать при анализе белкового спектра. Суммарно, ИК-спектр белка может быть представленв следующем виде:
/>. (2.2.1)
/> – спектр поглощения полипептидногоостова белка, а /> – спектр поглощения боковых группаминокислотных остатков белка, вычисляемый по формуле
/>, (2.2.2)
где /> – спектр поглощения k-ой аминокислоты, /> – число k-ыхаминокислот в белке, а /> – общее число аминокислот в белке.N — и С-концевые — NH2и — COOH группы белка также должныбыть включены в эту формулу наравне с аминокислотами. Пример исключения из ИК-спектрарибонуклеазы А вклада от поглощения боковых групп аминокислотных остатков приведенна рисунке 2.2.1 Таким образом, данный метод анализа ИК-спектров полностью аналогиченметодам анализа спектров КД белков, за исключением того, что в нем используютсяне реальные белковые спектры, а вычисленные с помощью формул (2.2.1) и (2.2.2) спектрыпоглощения пептидного остова белков.
Авторы метода использовали для анализа шесть типов вторичнойструктуры белка: упорядоченная (Ho) и неупорядоченная(Hd) формы a-спирали,упорядоченная (Вo) и неупорядоченная (Вd) формы b-структуры,b-изгиб (Т) и остальные формы (R). К неупорядоченной форме a-спиралибыли отнесены по два аминокислотных остатка с каждой стороны спирального сегмента,а к неупорядоченной форме b-структуры — аминокислотные остатки b-нитей, образующие«неклассические» водородные связи.
Применение к выбранному базисному набору метода «ортогональныхспектров» [6] привело к получению 11 ортогональных спектров, амплитуда которыхпревышает экспериментальную ошибку, возникающую при регистрации ИК-спектров. Пять«наиболее значимых» ортогональных спектров показано на рисунке 2.2.2.
Экспериментальная проверка точности анализа ИК-спектров белковна белках из базисного набора дала следующие коэффициенты корреляции (смотри раздел1.2):Метод
Ho
Hd
Bo
Bd T R «регуляризации» 0.97 0.77 0.94 0.91 0.80 0.48 «ортогональных спектров» 0.98 0.80 0.93 0.90 0.75 0.48 «регуляризации» (без исключения поглощения боковых групп аминокислот) 0.92 0.68 0.85 0.90 0.53 0.32 2.3 Работа с пакетом программ STRUC по анализу ИК-спектров белков
Пакет программ STRUC разработан в институте белка РАН [10]. Он предназначен для анализаинфракрасных спектров поглощения белков и определения их вторичной структуры. Алгоритманализа спектров основан на оригинальном методе авторов программы [8-10] (смотривыше). Пакет STRUC состоит из следующихпрограмм и вспомогательных файлов:
– STRUC.BAT — командный файл, используемыйдля определения вторичной структуры белка. Он организует работу следующих трех программ:
– AMACIR (файл amacir.exe)- программа, исключающая из ИК-спектра поглощения белка вклад от поглощения боковыхгрупп аминокислотных остатков по методу [8];
– SVDIR (файл svdir.exe)- программа, определяющая вторичную структуру белка методом «ортогональныхспектров» [6];
– CONTIR (файл contir.exe)- программа, определяющая вторичную структуру белка методом «регуляризации»[4].
– VISUAL.BAT — командный файл, предназначенныйдля графического воспроизведения ИК-спектра поглощения белка. Он организует работуследующих двух программ:
– PLOTFL (файл plotfl.exe)- программа, осуществляющая преобразование спектров поглощения к формату, используемомупрограммой PLOTNIK;
– PLOTNIK (файл plotnik.exe) — программа, осуществляющая графическое построение ИК-спектрапоглощения белка.
– SOURCE — файл, содержащий входные данные для программы AMACIR (в том числе сам ИК-спектр поглощения белка).
– OUT.SVD и OUT.CON — файлы, являющиеся результатомработы программ SVDIR и CONTIR, содержащие данные по оценке вторичной структуры белкасоответствующими методами.
Программы, входящие в пакет STRUC, неимеют системы экранного интерфейса, и работа с ними осуществляется из команднойстроки. Перед началом работы с пакетом необходимо создать текстовый файл SOURCE (рекомендуется скопировать уже имеющийся) и записать внего исходные данные по исследуемому белку и его ИК-спектру поглощения, необходимыедля работы программ. Формат этого файла следующий:Номер строки Содержание 1 Идентификатор файла (длиной не более 70 символов) 2, 3 Формат записи числовых значений спектра в строках 6 — 14. По умолчанию устанавливается формат (10F6.0) — по 10 значений в каждой строке в форме действительного числа с фиксированной десятичной точкой, причем на запись всего числа отводится 6 позиций, из которых 0 позиций — на десятичную часть. (Для действительных чисел с плавающей десятичной точкой вместо символа ‘F’ следует записать символ ‘E’.) 5
Спектральный диапазон (по волновым числам), используемый для вычислений, и число точек в спектре. Максимально допустимый спектральный диапазон составляет 1800 — 1480 см-1 при числе точек в спектре, равном 81. При задании диапазона и числа точек необходимо сохранять интервал между точками равным 4 см-1. 6 — 14
ИК-спектр поглощения белка, выраженный в единицах л моль-1·см-1. 17 Содержит единственный символ ‘*’, положение которого определяет тип записи данных по аминокислотному составу белка: (а) NAmAc — указывается абсолютное количество остатков каждой аминокислоты в белке; (б) NAmAc/N — указывается абсолютное количество остатков каждой аминокислоты в белке, деленное на общее количество аминокислотных остатков. 19 — 40 Аминокислотный состав белка. Здесь же отдельно указываются N — и C-концевые группы белка. 42 Общее количество аминокислотных остатков в белке и значение pH, при котором снимался спектр. Указывать значение pH нужно обязательно, а общее количество аминокислотных остатков — только в том случае, если при записи аминокислотного состава белка записывались относительные доли аминокислотных остатков (вариант (б)). 43 Комментарий к файлу
Пример заполнения файла можно посмотреть в уже имеющемся файлеSOURCE.
После подготовки файла SOURCE необходимо запустить вычисления. Для этого в командной строкеследует ввести
STRUC SOURCE OUT.SVD OUT.CON и нажатькнопку [Enter]. (Названия файлов SOURCE,OUT.SVD иOUT.CON могутбыть любыми, следует лишь соблюдать указанный порядок пр их записи.)
После окончания работы программ результаты вычислений моут бытьпросмотрены в файлах OUT.SVD и OUT.CON с помощью любого текстового редактора. Первая часть этих файловсодержит информацию о входных данных (взятую из файла SOURCE).Далее следует набор решений, соответствующий различным комбинациям ортогональныхспектров (в файле OUT.SVD) или различнымзначениям параметра регуляризации (в файле OUT.CON). В конце файлов приводится аппроксимированный спектр и окончательновыбранное решение.
Можно просмотреть также промежуточные результаты вычислений программ.Файл PEPT, создаваемый программой AMACIR,содержит ИК-спектр поглощения пептидной цепи. Этот файл является входным для программSVDIR и CONTIR.Файл AMACIR.RES, также создаваемыйпрограммой AMACIR, содержит данные об ионизации отдельныхаминокислотных остатков при заданном значении pH, среднемзначении массы одного аминокислотного звена данного белка, содержании в белке азота,а также три ИК-спектра поглощения: спектр белка (определенный экспериментально)и спектры боковых групп аминокислотных остатков и пептидной цепи (вычисленные программойAMACIR).
Для того, чтобы построить все три спектра на экране, необходимозапустить файл VISUAL.BAT.
В появляющемся после этого на экране главном меню программы PLOTNIK следует выбрать пункт Suit, позволяющий перейти в раздел задания параметров, необходимыхдля построения графиков. Ниже перечислены основные из них:
Titles/X
Titles/Y
Scale/X/Upper
Scale/X/Lower
Scale/Y/Upper
Scale/Y/Lower
Misc/Npts
Misc/Data
Волновое число, 1/см
Коэффициент молярной экстинции, 1/ (моль см)
1480
1800
Auto
Auto
Auto
Formatted
Для одновременного построения трех графиков необходимо задатьтри набора данных (A, B и C) и указать имена файлов, содержащихэти данные:Set Legend Filename
A
B
C
экспериментальный спектр
спектр поглощения пептидной цепи
спектр поглощения а/к остатков
buf1.dat
buf2.dat
buf3.dat
Файлы buf1.dat, buf2.dat и buf3.dat создаются программой PLOTFL наоснове данных файла AMACIR.RES (эти файлы уничтожаются послезавершения работы программы PLOTNIK). После задания параметровследует вернуться в главное меню программы PLOTNIK и выбрать в нем пункт View. При этомна экране будут построены требуемые графики.
Список литературы
1. Кантор Ч., Шиммел П. Биофизическая химия. Том 2: Методы исследованияструктуры и функции биополимеров. М: Мир, 1984
2. Saxena V.P., Wetlaufer D.B. (1971) A new basis forinterpreting the circular dichroic spectra of proteins. Proc. Natl. Acad.Sci. U.S.A.68, 969-972
3. Сhang C.T., Wu C. -S.C., Yang J.T. (1978) Circulardichroic analysis of protein conformation: inclusion of the b-turns. Anal.Biochem.91, 13-31
4. Provencher S.W., Glockner J. Estimation of globularprotein secondary structure from circular dichroism. (1981) Biochemistry20, 33-37
5. Hennessey J.P., Jr., Johnson W.C., Jr. (1981) Informationcontent in the circular dichroism of proteins. Biochemistry 20, 1085-1094
6. Compton L.A., Johnson W.C., Jr. (1986) Analysis ofprotein circular dichroism spectra for secondary structure using a simple matrixmultiplication. Anal. Biochem.155, 155-167
7. Manavalan P., Johnson W.C., Jr. (1987) Variable selectionmethod improves the prediction of protein secondary structure from circular dichroismspectra. Anal. Biochem.167, 76-85
8. Venyaminov S.Yu., Kalnin N.N. (1990) QuantitativeIR specrtophotometry of peptide compounds in water (H2O) solutions.I.Spectral parameters of amino acid residue absorption bands. Biopolymers 30,1243-1257
9. Venyaminov S.Yu., Kalnin N.N. (1990) QuantitativeIR specrtophotometry of peptide compounds in water (H2O) solutions. II.Amide absorption bands of polypeptides and fibrous proteins in a-, b-, and random coilconformations.Biopolymers 30, 1259-1271
10. Kalnin N.N., Baikalov I.A., Venyaminov S.Yu. (1990)Quantitative IR specrtophotometry of peptide compounds in water (H2O)solutions. III. Estimation of the protein secondary structure. Biopolymers30, 1273-1280