Применение методов математической статистики и теории вероятностей в задачах теоретической лингвистики при анализе устной и звучащей речи на русском и английском языках

Применениеметодов математической статистики и теории вероятностей в задачах теоретическойлингвистики при анализе устной и звучащей речи на русском и английском языках
2007 г.

Оглавление
1.Введение
2.Анализ стихотворений
2.1Построение дискретного вариационного ряда
2.2Непрерывные вариационные ряды
2.3Графическое построение дискретных лингвистических вариационныхрядов для рассматриваемых стихотворений
2.4Ряды распределения дискретных случайных величин
2.5Математическое ожидание дискретной случайной величины
2.6Дисперсия дискретной случайной величины
2.7Энтропия дискретной случайной величины
2.8Вероятность появления гласных звуков в стихотворениях, сравнение
2.9Коэффициент темпа речи
3. Объединённый коэффициент синтаксической и ритмомелодическойсложности
4.Вывод
5.Список литературы
 

1. Введение
В эпоху научно-технической революцииматематизация охватывает все сферы человеческой деятельности, в том числе иязыкознание. Проникновение математических методов в лингвистику обусловленодвумя причинами. Во-первых, развитие языковедческой теории и практики требуетвведения все более точных и объективных методов для анализа языка и текста.Одновременно использование математических приемов при систематизации, измерениии обобщении лингвистического материала в сочетании с качественнойинтерпретацией результатов позволяет языковедам глубже проникнуть в тайныпостроения языка и образования текста. Во-вторых, все расширяющиеся контактыязыкознания с другими науками, например с акустикой, физиологией высшей нервнойдеятельности, кибернетикой и вычислительной техникой, могут осуществлятьсятолько при использовании математического языка, обладающего высокой степеньюобщности и универсальности для различных отраслей знаний.
Особенно настойчивоматематизируется языкознание в связи с использованием естественного языка винформационных и управленческих системах человек–машина–человек. В действующихсистемах машинного перевода, автоматического аннотирования, человеко-машинногодиалога всякое сообщение на естественном языке перекодируется в математическомязыке компьютера. Примером того является голосовое управление в современныхмобильных телефонах.
Говоря об особенностяхвзаимодействия языкознания и математики, следует иметь в виду, что какестественный язык, так и язык математики являются знаковыми (семиотическими)системами передачи информации.
Основные расхождениямежду этими языками связаны с различным построением языкового знака и знакаматематического.
лингвистический знак(слово, словосочетание, предложение) обычно включает в себя четыре компонента –имя (материальный носитель информации), денотат (отражение предмета из внешнегомира), десигнат (понятие о предмете) и коннотат (комплекс чувственно-оценочныхоттенков, связанных с предметом и понятием о нем); знак математического языкавключает только имя и десигнат — математическое понятие;
лингвистический знакмногозначен — значения его представляют собой нечеткие множества с размытымиграницами; математический знак имеет, как правило, одно концептуальное значение;
лингвистический знакпотенциально метафоричен, у знака математического метафоричность полностьюотсутствует.
Особенности построениялингвистического языка приводят к тому, что естественный язык представляетсобой нежестко организованную диффузную систему, которая воспринимается ииспользуется человеком в значительной мере интуитивно. Напротив, языкматематики является хорошо организованной системой, существующей ифункционирующей в виде логического построения, каждый элемент которого имеетосознанную значимость.
Конфронтацияестественного языка и языка математики требует, чтобы каждому лингвистическомуобъекту был поставлен в соответствие некоторый математический объект.Лингвистический знак, например, словосочетание или слово и составляющие этотзнак фигуры – фонемы, буквы, слоги – должны интерпретироваться с помощью знаковматематических. Эта математическая интерпретация связана с расчленениемлингвистического объекта и выделением в нем одного смыслового или сигнальногокомпонента, который становится предметом дальнейшего исследования.
Применение математическихметодов в языкознании имеет своей целью заменить обычно диффузную, интуитивносформулированную и не имеющую полного решения лингвистическую задачу одной илинесколькими более простыми, логически сформулированными и имеющимиалгоритмическое решение математическими задачами. Такое расчленение сложнойлингвистической проблемы на более простые алгоритмизуемые задачи мы будемназывать математической экспликацией лингвистического объекта или явления.
Выбор математическогоаппарата в лингвистических исследованиях – вопрос не простой. Его решениезависит в первую очередь от того, как определяется предмет и основные понятияязыкознания и его теоретического ядра – структурно-математической лингвистики.
Некоторые математики и лингвистысчитают, что предметом математической лингвистики должно быть изучениеграмматики, порождающей текст. При этом грамматика понимается как конечноемножество детерминированных правил, в том числе неграмматических, а языкрассматривается как бесконечное число регулярных цепочек слов, порождаемых этойграмматикой. При этом подходе экспликация лингвистических объектов должнаопираться на теорию множеств, математическую логику, теорию алгоритмов.
На основе применения«неколичественного» математического аппарата в теоретическом языкознании сформировалосьнаправление, условно называемое комбинаторной лингвистикой – в ней используютсяметоды
математической статистики
теории вероятностей,
теории информации,
математического анализа
Современныеинструментальные методы экспериментальной фонетики связаны с применениемразличных приборов, главным образом электроакустических (спектрографы,интонографы и тому подобное), а также регистрирующие движения органов речи(артикуляцию). Поэтому фонетика тесно связана с физикой, физиологией иматематикой. Методы математической логики применяются для формального описаниякатегорий естественных языков. Языкознание оказалось той гуманитарной наукой,которая, не порывая связей с другими науками о человеке и его культуре, первойрешительно стала использовать не только инструментальные методы наблюдения (вфонетике) и экспериментальные приёмы (в психолингвистике), но и систематическиприменять математические способы (в том числе и ЭВМ) для получения и записисвоих выводов.
Цель моего реферата –выявить и изучить статистические закономерности стиля двух равных текстов (по105 слов в каждом) поэтессы Зинаиды Гиппиус (1869 — 1945) «Свободный стих» ианглийского поэта Вильяма Блейка «Колыбельная» (William Blake, 1757-1827, «A Cradle Song») согласно звуковым характеристикам языка – ударению,сложности восприятия, темпу речи и другим. При анализе я использую следующиетермины:
вероятность события,
вариационные ряды,
математическое ожидание,
закон распределениявероятности,
дисперсия,
энтропия.
Также я приведу примерыиспользования методов математической статистики и теории вероятностей прианализе устной и звучащей речи.

/>2. Анализ стихотворений
 
/>2.1 Построение дискретного вариационногоряда
 
«Свободный стих»
Приманной легкостьюиграя,
Зовет, влечет свободныйстих.
И соблазнил он,соблазняя,
Ленивых малых и простых.
Сулит он быстрые ответы
И достиженья без борьбы.
За мной! За мной! И вот,поэты –
Стиха свободного рабы.
Они следят его извивы,
Сухую ломкость, скрипуглов,
Узор пятнисто-похотливый
Икающих и пьяных слов…
Немало слов с подоломгрязным
Войти боялись… А теперь
Каким ручьем однообразным
Втекают в сломаннуюдверь!
Втекли, вшумели ивпылились…
Гогочет уличная рать.
Что ж! Вы недаромпокорились:
Рабы не смеют выбирать.
Без утра пробил часвечерний,
И гаснет серая заря…
Вы отданы на посмех черни
Коварной волею царя!
А мне лукавый стихугоден.
Мы с ним веселые друзья.
Вариационные ряды длинсловоупотребления в фонемах:
7 9 6
5 6 9 4
1 9 2 10
7 5 1 7
5 2 7 6
1 10 3 5
2 4 2 4 1 3 5
5 10 4
3 6 3 6
6 7 5 5
4 18
8 1 6 4
6 4 1 7
5 7 1 5
5 6 12
8 1 9 4
6 7 1 8
7 8 3
3 1 2 7 9
4 2 6 7
3 4 6 3 8
1 6 6 4
2 5 2 6 5
8 6 4
1 3 7 4 6
2 1 3 7 6
(порядок следования чиселздесь повторяет порядок следования слов в стихотворении построчно)
Рассматривая приведеннуюздесь последовательность чисел нетрудно заметить, что величина длины словоформварьирует от одной единицы совокупности к другой. Моя задача – определить иизучить вариацию признака в данной совокупности.
Возможные значенияпризнака в статистике называют вариантами. Различия между вариантами могут бытькак количественными (дискретными или непрерывными) и качественными.
Теперь я построю дискретныйвариационный ряд длины словоформ в фонемах в данном стихотворении:X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 N 13 10 8 13 14 18 11 8 5 3 1 1
Где X – признак, N – суммавсех вариант, />– варианты, />– число повторений вариант
N = 105 (так как текст состоит из 105слов, как было указано выше)
/>
Теперь вместо абсолютныхчастот /> укажу относительные частоты(частости) /> в процентах:X
/>
/>
/>
/>
/>
/>
/>
/>
/> f*100% 12,38% 9,52% 7,62% 12,38% 13,33% 17,14% 10,47% 7,62% 4,76% X
/>
/>
/>
/>/>
/>
/>
/>
/>
/> f*100% 2,85% 0% 0,95% 0% 0% 0% 0% 0% 0,95%

Самые распространённыеслова в данном стихотворении имеют длину в 6 фонем (17,14%)
Проведу аналогичныедействия со стихотворением «Колыбельная»:
A Cradle Song
Sweet dreamsform a shade,
O’er my lovelyinfants head.
Sweet dreamsof pleasant streams,
By happysilent moony beams
Sweet sleep withsoft down,
Weave thybrows an infant crown.
Sweet sleepAngel mild,
Hover o’erhappy child.
Sweet smilesin the night,
Hover over mydelight.
Sweet smilesMothers smiles
All thelivelong night beguiles.
Sweet moans,dovelike sighs,
Chase notslumber from thy eyes,
Sweet moans,sweeter smiles,
All thedovelike moans beguiles.
Sleep sleephappy child.
All creationslept and smil’d.
Sleep sleep,happy sleep, 1
While o’erthee thy mother weep
Sweet babe inthy face,
Holy image Ican trace.
Вариационные ряды длинсловоупотребления в фонемах:
4 5 4 1 5
4 3 5 7 3
4 5 4 7 6
3 4 7 4 4
4 4 4 4
3 3 5 2 6 5
4 4 6 5
6 2 3 4 5
4 6 2 2 4
6 4 3 6
4 6 5 6
2 2 7 4 7
4 5 7 4
4 3 6 4 2 3
4 5 4 6
2 2 7 5 7
4 4 4 4
2 7 5 3 6
4 4 4 4
4 4 2 2 4 3
4 4 2 2
4 3 4 2 3 5
Дискретный вариационныйряд длины словоформ в фонемах в данном стихотворении будет таков:X 1 2 3 4 5 6 7 N 1 15 13 41 14 12 9
Где так же, как и впредыдущем примере, X – признак(количество фонем в слове), N – суммавсех вариант, />– варианты, />– число повторений вариант.
N = 105
/>
Очевидным является то,что дискретные вариантные ряды двух стихотворений сильно отличаются друг отдруга, это можно представить нагляднее, если вместо абсолютных частот /> указать относительныечастоты /> в процентах:X
/>
/>
/>
/>
/>
/>
/> f*100% 0,95% 14,28% 12,38% 39,04% 13,33% 11,42% 8,57%
Различие между длинамисловоформ в рассматриваемых стихотворениях состоит в том, что у английскогоавтора преобладают слова в четыре фонемы (39,04%), в то время как у ЗинаидыГиппиус – в шесть. Так же несложно заметить, что количество вариантов встихотворении «The Cradle Song» значительно меньше, чем в «Свободный стих».
/>2.2 Непрерывные вариационные ряды
Непрерывные вариационныеряды, как и дискретные, широко распространены в анализе устной и звучащей речи,так как здесь значения признака:
длина
частота
интенсивность звука
могут отличаться друг отдруга на как угодно малую величину. Поскольку отличия между вариантами имеютнепрерывный характер, используется только интервальное построение вариационногоряда. Для исследования данных фонетических аспектов нужны специальные измерительныеприборы для замеров звучания слогов. Несмотря на невозможность проведенияданного анализа, я расскажу о его основном принципе.
При наличии результатовэмпирических исследований, создаются непрерывные интервальные ряды, где /> – длина слогов в мс, аинтервалы вариант выглядят следующим образом – (/>,(/>), (/>) и так далее.
Ширина интервалаопределяется по формуле Стерджесса:
/>.
При этом интервальнаяразность kокругляется до ближайшего целогочисла, число интервалов lопределяетсяиз выражения
/>.
/> 
2.3Графическое построение дискретных лингвистических вариационных рядов длярассматриваемых стихотворений
Несмотря на его простоту,слабой стороной табличного описания колебания признака является недостаточнаянаглядность. Поэтому для достижения большей наглядности я использую графическоеизображение интересующего меня распределения (длин словоформ по фонемам) – многоугольникраспределения признака (полигон).

/>/>
2.4 Рядыраспределения дискретных случайных величин
Так как дискретнаяслучайная величина может принимать возможные значения с различнымивероятностями, чтобы охарактеризовать её в статистическом смысле, необходимоуказать вероятности всех её значений.
Законом распределениявероятностей дискретной случайной величины называется таблица соответствия междувозможными значениями этой величины и их вероятностями. Эта таблица – рядраспределения дискретной случайной величины.
Для первогостихотворения:
X 1 2 3 4 5 6 7 8 9
/> 0.1238 0.0952 0.0762 0.1238 0.1333 0.1714 0.1047 0.0762 0.0476
X 10 11 12 13 14 15 16 17 18
/> 0.0285 0.0095 0.0095
Для второгостихотворения:X 1 2 3 4 5 6 7
/> 0.095 0.1428 0.1238 0.3904 0.1333 0.1142 0.0857

По определению, суммавероятностей событий в каждом из стихотворений должна быть равна 1
Сделаю проверкурезультатов. Для первого стихотворения:
/>0.1238 + 0.0952 + 0.0762 + 0.1238 +0.1333 + 0.1714 + 0.1047 + 0.0762 + 0.0476 + 0.0285 + 0.0095 + 0.0095 = 0.9997/> –
подсчёты произведены снебольшой погрешностью
Для второгостихотворения:
/>0.095 + 0.1428 + 0.1238 + 0.3904 +0.1333 + 0.1142 + 0.0857 = 0.997/>1
Из данных результатовследует, что предыдущие исследования сделаны без ошибок.
/>2.5 Математическое ожиданиедискретной случайной величины
Математическим ожиданиемдискретной случайной величины Х называется сумма произведений её всехвозможных значений на соответствующие вероятности, обозначается через М(Х).
Если случайная величинапринимает значения />, соответственнос вероятностями />, />… />, то
/>
Стоит заметить, чтоматематическое ожидание является величиной постоянной, его часто называютстатистическим значением случайной величины, а также центром распределения, таккак около него группируются отдельные значения случайной величины.
Для «Свободногостихотворения»:
M(X)/> = 1/>0.1238 + 2/>0.0952 + 3/>0.0762 + 4/>0.1238 + 5/>0.1333 +6/>0.1714 + 7/>0.1047 + 8/>0.0762 + 9/>0.0476 + 10/>0.0285 + 12/>0.0095 + 18/>0.0095 = 5.0738
Для «The Cradle Song»:
M(X)/> = 1/>0.095+ 2/>0.1428+ 3/>0.1238+ 4/>0.3904+ 5/>0.1333 +6/>0.1142+ 7/>0.0857 = 4.1797
Соответственно, M(X)/>> M(X)/>, исходя из данного результата можноутверждать, что первое стихотворение сложнее для восприятия на слух, чемвторое, что немаловажно для анализа звучащей речи.
/> 
2.6Дисперсия дискретной случайной величины
Дисперсией дискретнойслучайной величины Х называется математическое ожидание квадрата еёотклонения от среднего статистического значения и обозначается черезD(X).
 
/>
Для первогостихотворения:
 
D(X)/>=0.1238(1 — 5.0738 )/>+ 0.0952(2 — 5.0738)/>+ 0.0762(3 — 5.0738)/>+ 0.1238(4 — 5.0738)/> 0.1333(5 — 5.0738 )/>+ 0.1714(6 — 5.0738 )/>+ 0.1047(7 — 5.0738)/>+ 0.0762(8 — 5.0738)/>+ 0.0476(9 — 5.0738)/>+ 0.0285(10 — 5.0738 )/>+ 0.0095(12 — 5.0738 )/>+ 0.0095(18 — 5.0738 )/>= 8.0928
Для второгостихотворения:
 
D(X)/>=0.095(1 — 4.1797)/>+ 0.1428(2 — 4.1797)/>+ 0.1238(3 — 4.1797)/>+ 0.3904(4 — 4.1797)/>+ 0.1333 (5 — 4.1797)/>+ 0.1142(6 — 4.1797)/>+ 0.0857(7 — 4.1797)/> = 2.9732
/>2.7 Энтропия дискретной случайнойвеличины
Теория энтропии – основасовременной теории информации, которая является актуальным направлениемисследований в области теории вероятностей и высшей математики в целом.Энтропия является информационной характеристикой дискретной случайной величины.Вычисляется она по формуле К. Шеннона:
/>
Для первого стихотворенияH(X) = 3,282844098 бит
Для второго стихотворенияH(X) = 2,675265бит
Энтропия в лингвистике –это одна из наиболее универсальных теоретико-информационных характеристиктекста. Это показатель сложности текста в теоретико-информационном смысле.
Из данных результатовнесложно сделать вывод, что стиль и звучание «Свободного стихотворения» ЗинаидыГиппиус намного сложнее стихотворения «The Cradle Song». Оно более вариативно и несколько труднеевоспринимается на слух.
/>2.8 Вероятность появления гласныхзвуков в стихотворениях, сравнение
Рассчитать вероятностьгласных звуков в стихотворении будет не сложно, тем не менее, результатыданного исследования дадут нам возможность сравнить стихотворения по уровню ихпевучести, плавности.
Обозначим количествогласных звуков в первом стихотворении />,во втором — />
По результатам подсчётов />=216, /> = 205, но это ещё незначит, что русское стихотворение певучей английского, для этого следуетрассчитать вероятности /> и /> по общей формуле
/>
/>533 – для первого стихотворения,соответственно />439
/>
/>
/>
Очевидно то, что встихотворении Вильяма Блейка вероятность появления гласных звуков превышаетсоответствующую вероятность в стихотворении Зинаиды Гиппиус, поэтому можно сполной уверенностью утверждать, что произведение «The Cradle Song» названо автором как нельзя кстати – «колыбельная» — певучая, плавная, спокойная.
/>2.9 Коэффициент темпа речи
 
T=/>
 
Гдеn– количество знаменательных слов,
Р – количество подлежащих,
S – количество сказуемых,
N– количество простых предложений,
N/> – количество двусоставных предложений.
Для «Свободногостихотворения»:
 
T=/>=9.33
Для «Колыбельной»:
 
T=/>1.23
Темп речи первогостихотворения значительно превышает соответствующий показатель во втором,отсюда следует, что второе стихотворение более спокойное, плавное, что сноваподтверждает, что Вильям Блейк отлично подобрал название для своего творения.

/>3. Объединённый коэффициентсинтаксической и ритмомелодической сложности
Так как предметами моегоисследования являются два стихотворения, то формула для расчета объединённогокоэффициента синтаксической и ритмомелодической сложности может сыгратьогромную роль в изучении данных текстов с точки зрения устной и звучащей речи ивыявлении разницы между ними.
Общая формула выглядитследующим образом:
 
Сл = />
Где n– количество знаменательных слов,
T/> — количество безударных слогов,
l– количество строк,
N=105, как нам известно из предыдущихисследований.
Сл/>1.0762
Сл/>0.314
Из данных подсчётов можносделать вывод, что стихотворение воспринимается на слух сложнее, чемстихотворение Вильяма Блейка.

/>4. Вывод
Рассмотренное исследованиенаглядно иллюстрирует возможности методов математической статистики и теориивероятностей в задачах математической лингвистики. Там, где одной толькоинтуиции читателя недостаточно, так как она всегда субъективна и недостаточнодостоверна, применяется математический подход – строгий, объективный,основывающийся на математической модели стиля определенного вида. В моёмпримере была рассмотрена вероятностная модель текста – наиболеераспространённая для решения сложных задач лингвистического анализа, но отнюдьне единственная.
Сравнив «Свободноестихотворение» Зинаиды Гиппиус и «The Cradle Song» Вильяма Блейка с помощью методовматематической статистики и теории вероятностей, я пришла к выводу, что стильЗинаиды Гиппиус более разнообразный, сложный, непредсказуемый, а стихотворениеанглийского поэта – более плавное, спокойное, певучее, мелодичное, легковоспринимающееся на слух.

/>5. Список литературы
1. Р.Г. Пиотровский,К.Б. Бектаев, А.А. Пиотровская, Математическая Лингвистика, — М.: Высшая школа,1977
2. В.В. Савченко,Теория вероятностей и математическая статистика: Конспект лекций, — Н. Новгород:НГЛУ, 2003
3. В.В. Савченко, В.В. Ретивина, Математика и информатика для лингвистов, краткий конспект лекций,- Н. Новгород: НГЛУ, 2006
4. ВВ Власов,Конспект лекций по высшей математике, — М.: Айрис, 1997
5. Р.Г. Пиотровский,К.Б. Бектаев, Математические методы в языкознании. Часть 2. математическаястатистика и моделирование текста, Алма-ата: КазГУ, 1973