Автоматизація реферування скачать бесплатно на Диплом IQ

–PAGE_BREAK–

Перефразування– це побудова реферату на основі передачі змісту вихідного документа у перефразованому вигляді. При такому методі допускається заміщення, суміщення та узагальнення текстових речень. Текст реферату лише частково співпадає з вихідним документом.

Інтерпретація– це побудова реферату на основі узагальненого уявлення про зміст вихідного документа. При такому

методі референт оперує не самим текстом первинного документа, а його змістом. Найчастіше зустрічається при реферуванні зарубіжних матеріалів або документів великого обсягу (напр. дисертацій).

Ще слід зупинитися на формуванні початку реферату. Початок реферату не повинен містити зайвої інформації, загальновідомих положень. Слід уникати дублювання назви вихідного документа. Початок реферату має встановити межу, з якої починається виклад нової інформації. 3.Особливості підготовки рефератів з суспільних наук.

Дослідження в суспільних науках, їх результати, узагальнення, висновки використовують для викладу певних ідеологічних поглядів та політичних доктрин. Тому при реферуванні документів з суспільних наук потрібно проаналіувати світогляд та переконання автора. Важливо також враховувати конкретні історичні умови, місце й час розвитку подій.

В цій галузі використовується переважно розширений реферат, тому що джерела реферування мають великий обсяг та своєрідний стиль викладу. Обсяг реферату вважається оптимальним, якщо він становить не більше 1/10 обсягу вихідного документу. Реферат на такі документи повинен містити інформацію про автора первинного документа. Реферат має широку читацьку адресу, він багатьом замінює читання першоджерела. Для забезпечення найбільшої інформативності реферату в ньому викладаються кінцеві висновки, результати та інша фактографічна інформація автора, його погляди.

Замість приміток користуються оціночними зворотами типу, «автор справедливо стверджує», «автор вважає» тощо.

Припускається пояснення змісту першоджерела. Але реферат не повинен перетворюватися у вступну статтю до первинного документа, переказ його змісту чи критичну рецензію.
2.2 Вітчизняне реферування та видання реферативної інформації
Практично всі розвинуті країни світу мають реферативні служби, що готують та видають реферативну інформацію з різноманітними покажчиками, як на папері, так і на мікро- та машинних носіях.

США володіють найстарішою і добре розвинутою системою реферування НТІ, яка побудована на галузевому та тематичному принципах. Реферативні служби об’єднані в Національну федерацію служб реферування та індексування. Ще з 1963 року цією федерацією видається «Повний покажчик науково-технічних реферативних та бібліографічних видань світу», в якому в систематизованому вигляді наводяться дані про періодичні видання вторинної інформації 40 країн світу. У 1966 році в США створено Комітет з науково-технічних зв’язків, а також державні центри з документації, на які покладені завдання з організації діяльності реферативних служб країни .

У Великій Британії при Міністерстві освіти та науки ще 1965 року створено Управління з науково-технічної інформації, на яке покладено функції координації діяльності реферативних служб у країні, стимулювання дослідних робіт в галузі інформаційного обслуговування, в тому числі реферативною інформацією .

В Японії функціонує Національна служба реферування з природничих наук та техніки на базі Японського центру науково-технічної інформації. Виходять 9 серій реферативного журналу «Поточна бібліографія з науки та техніки» в традиційній формі та на машиноносіях .

У зв’язку з тим, що збільшується кількість науково-технічної літератури у світі, збільшується і кількість реферативної інформації, її обсяги подвоюються через кожні 15 років. Відповідно зростає кількість реферативних служб, робота яких організується за централізованою та децентралізованою схемами. Так, в ряді країн, наприклад у Франції, Японії, Російській Федерації, Румунії, Угорщині, функціонує лише один інформаційний орган, шо охоплює реферування всієї літератури в галузі науки та техніки.

У Росії протягом більш 40 років функціонує реферативна служба на базі ВІН1ТІ, яка готує та видає реферативну інформацію з вітчизняних та зарубіжних публікацій. У ВІН1ТІ щорічно оброблюється біля 13 тис. зарубіжних журналів ЗО країн світу 60 мовами. У реферативні журнали (РЖ) ВІН1ТІ щорічно включається біля 1 млн рефератів. У 1995 році було видано 27 зведених томів РЖ, до яких увійшли 204 випуски з найбільш актуальних проблем науки та техніки.

Вся створена ВІН1ТІ реферативна інформаційна продукція та бази даних (БД) є інтелектуальною власністю ВІН1ТІ як юридичної особи; вони не можуть бути власністю якогось окремого підрозділу ВІН1ТІ.

Децентралізована підготовка та видання реферативної інформації спеціалізованими службами реферування прийнята у Німеччині, США та в інших країнах. Такі служби створюються за тематичним принципом у залежності від тематичної направленості самих служб. Однак треба відзначити, що децентралізація реферативної діяльності приводить до значного дублювання як в національному, так і в міжнародному масштабах.

Тому виникла ідея створення всесвітньої служби реферування, яка об’єднувала б реферативні служби різних країн. У межах такої всесвітньої служби окремі інформаційні органи повинні діяти на принципах координації та взаємодії. Кожна реферативна служба зобов’язується обробити літературу своєї країни для центрального або міжнародного реферативного центру. З свого боку центральна служба поставляє місцевим службам свої видання і БД та забезпечує їх іншими видами обслуговування. Тепер функції спеціального органу, що відає діяльністю реферативних і бібліографічних служб окремих країн, покладені на Реферативне бюро Міжнародної ради наукових спілок (РБ МРНС).

Згідно з Законом України «Про науково-технічну інформацію» одним з основних завдань національної системи НТІ України е реферування опублікованих та неопублікованих на території України джерел науково-технічної та економічної інформації.

Реферуванню підлягають всі результати науково-технічної діяльності, що опубліковані в книгах, брошурах, збірках, періодичних виданнях, інших джерелах інформації. Реферування всієї науково-технічної літератури та документації – це своєрідний обліково-реєстраційний механізм охоплення всього масиву вітчизняних публікацій, що видаються на терені України.

В Україні вже налагоджено обліково-реєстраційний механізм обробки результатів науково-дослідних та дослідно-конструкторських робіт (НДДКР). Діє, хоч і за старою схемою, механізм реєстрації і обліку депонованих рукописних робіт. Свою систему обліку та державної реєстрації мають патентна та нормативно-технічна документація. Бібліографічний облік вітчизняних публікацій, у тому числі в галузі науки і техніки, веде Книжкова палата України. Проте відсутність в Україні реферативних джерел приводить до втрат інформації, перешкоджає якісному обслуговуванню споживачів інформації, а також участі України в міждержавному обміні НТІ. Необхідно також відзначити, що реферативні журнали (збірники) у тих країнах, що їх видають, входять до складу обов’язкового набору інформаційних продуктів даної держави, без яких неможливе нормальне функціонування національної системи НТІ.

В Україні вже здійснюються спроби підготовки та видання реферативної інформації. Так, Черкаський центр інформації з хімічної промисловості видає реферативні збірники, що являють собою фактично збірники коротких оригінальних статей з проблем хімії та хімічної промисловості або ж містять виробничий досвід. «Медицинский реферативний журнал», який видає з 1994 року Республіканський центр наукової медичної інформації Міністерства охорони здоров’я України, містить реферати зарубіжних медичних періодичних видань. Інститут проблем реєстрації інформації НАН України з 1995 року видає український реферативний журнал «Джерело» (чотири рази на рік). Журнал містить авторські реферати статей, що публікуються лише у періодичних виданнях НАН України. Реферування кожного журналу здійснюється нетематично, незважаючи на те, що багато статей має міжгалузеве значення В журналі відсутній довідково-пошуковий апарат. Усе це не дозволяє вважати журнал повноцінним реферативним виданням.

Отже, в Україні вже тепер можна застосовувати систему реферування за двома схемами: децентралізованою та централізованою. Однак при застосуванні децентралізованої схеми в системі реферування буде задіяно багато різних міністерств та відомств, що викличе труднощі в координації цієї роботи. Тому доцільно застосовувати централізовану систему реферування.

Згідно з Законом України «Про видавничу справу» видання реферативних журналів покладається на Книжкову палату. Враховуючи те, що Книжкова палата України одержує обов’язковий примірник всієї друкованої продукції, має власну видавничо-поліграфічну базу, можна стверджувати, що вона має всі підстави стати провідною організацією у сфері реферування.

З метою підвищення оперативності та якості підготовки реферативних журналів та збереження бюджетних коштів було б доцільним застосовувати авторський реферат, який в обов’язковому порядку повинен супроводжувати рукопис документа, що видається.

Таким чином, запропонована нами організаційно-функціональна структура системи реферування має основним своїм ланцюгом центральний заклад з підготовки та видання реферативних журналів – Книжкову палату України. На неї повинні бути покладені такі функції:

• одержання від видавництв, реєстрація та обробка рефератів і формування бази даних рефератів;

• формування змістовної частини, оформлення та підготовка до друку випусків реферативних журналів;

• контроль за виконанням вимог нормативно-методичних документів щодо системи реферування;

• створення реферативних баз даних;

• довідково-інформаційне обслуговування в традиційному та автоматизованих режимах;

• здійснення в установленому порядку міждержавного обміну реферативного інформацією.

Пропозиції щодо фінансово-господарського механізму функціонування системи реферування складаються з вимог поширення чинності законодавства України, що стосується державної підтримки періодичних видань засобів масової інформації, на реферативні видання. Це дасть можливість одержати пільги та звільнення від податку на додану вартість на папір, картон та інші поліграфічні матеріали вітчизняного виробництва, а також на послуги підприємств поліграфії, зв’язку та транспорту.

Підготовка, видання та розповсюдження реферативних журналів ведеться на безприбуткових засадах. Саме фінансування робіт з підготовки та видання реферативної інформації повинне здійснюватись із держбюджету за державним замовленням та за рахунок коштів від розповсюдження реферативних видань.

3.Автоматичне реферування
Одним з класичних завдань комп’ютерної лiнгвiстики є побудова систем автоматичного реферування наукових, технiчних, полiтичних, дiлових текстiв. Актуальнiсть цього завдання значно зростає у зв’язку з появою на iнформацiйному ринку повнотекстових баз даних. Цi бази мiстять у виглядi документiв не реферати, а тексти наукових статей. У свiтлi сказаного в Главi 2 стає очевидною необхiднiсть вияву в кожному з таких текстiв найбiльш iнформативних речень, iнакше якiсть пошуку буде невисокою. Якщо ж iдеться про iншомовнi бази, то треба, очевидно, прагнути до побудови систем, якi iнтегрують 3 основнi функцiї: пошук, переклад i реферування. Розробка системи автоматичного реферування є можливою на основi експериментально-семантичного дослiдження мiжфразової структури тексту, з наступною реалiзацiєю IС, що володiють спроможнiстю гiперсинтаксичного “розумiння” текстiв.
3.1 Теоретичнi аспекти мiжфразового аналiзу
Одне з найважливiших лiнгвiстичних явищ — рiзне значення мовних одиниць в iзольованому станi та в бiльш складному мовному цiлому. Ще А.А.Потебня вiдзначав, що значення будь-якої граматичної форми проявляється по зв’язку з iншими формами в мовi та текстi [Потебня, 1958]. Звiдси можна зробити висновок, що принципову важливiсть має аналiз граматичних i семантичних явищ у контекстi, тобто моделювання їх поводження у текстi. При цьому очевидно, що контекст, взагалi кажучи, може вийти за рамки речення, так що внутрiшньофразовий опис вiдповiдних одиниць буде заздалегiдь помилковим. Мiжфразовi зв’язки реалiзуються в текстi двома засобами: експлiцитно та iмплiцитно. При розробцi систем автоматичної переробки тексту необхiдно враховувати цi розбiжностi у вiдносинах мiж реченнями; зрозумiло, що для їхнього моделювання необхiднi рiзнi апарати. З iншого боку, не треба розглядати вивчення цих зв’язкiв як принципово рiзнi завдання: для вияву в текстi iмплiцитних мiжфразових вiдносин необхiдно спочатку навчитися виявляти експлiцитнi вiдносини. Очевидно, що автоматизована система, що враховує при переробцi тексту тiльки експлицитнi вiдношення мiж реченнями, неминучо минає деякi мiжфразовi вiдносини лише тому, що вони не мають формального вираження. Велика кiлькiсть промислових iнформацiйних систем (наприклад, системи iндексування, перекладу), використовуючи тiльки “поверхнi” мовнi явища, як ми бачили, тим не менше, є досить ефективними. В данiй главi описуються теоретична база та реалiзованi на її основi автоматизованi системи, що аналiзують тексти на мiжфразовому рiвнi. Створення таких систем переслiдувало двi цiлi: практичну та теоретичну. Перша полягає в автоматизацiї процесу реферування текстiв у промислових iнформацiйних системах, друга — у перевiрцi правильностi лiнгвiстичних гiпотез про структуру тексту й розподiл iнформацiї в ньому.
3.2 Мiжфразовi зв’язки
Для того щоб вивчити характеристики тексту як єдиного цiлого, необхiдно, в першу чергу, визначити поняття зв’язностi. На перший погляд, природно розглядати речення як смисловi одиницi i виявляти в текстi їх смисловi зв’язки. У виглядi прикладу такого пiдходу можна навести теорiю семантичної еквiвалентностi Е. Агриколи [Agricola, 1977], який вважає, що основною формою об’єднання речень є семантична еквiвалентнiсть — явнi чи неявнi смисловi вiдносини рiзноманiтного типу мiж словами, якi входять у речення. Рiзновидом такого пiдходу є всiлякi модифiкацiї (явного) лексично-семантичного повтору, прибiчники якого дотримуються погляду, що смисловий зв’язок речень у текстi проявляється в смисловiй близькостi слiв, котрi входять до їх складу, вважаючи, очевидно, що смислова близькiсть слiв гарантує або принаймнi прогнозує смислову близькiсть речень.

Роботи цього напрямку походять вiд вiдомого дослiдження О.В. Падучевої [Падучева, 1965], яка, вивчивши об’єктивнi характеристики тексту, ввела поняття прямої та непрямої домiнацiї, пiзнiше iнтерпретованi як лексичний i семантичний повтор [Рылова, 1969; Бэлза, 1971; Гиндин, 1971; Бондаренко, 1975]. Розумiючи, що явища прямої i непрямої домiнацiї становлять одну з характерних особливостей тексту, цi дослiдники пiшли, на наш погляд, “шляхом найменшого опору”, вважаючи саме повтор механiзмом зв’язностi. Це, в свою чергу, дозволяло поставити питання про достатнiсть використання семантичних словникiв [Гиндин, 1972] для вияву зв’язкiв мiж реченнями тексту, правда, без наступної iнженерно-лiнгвiстичної перевiрки цiєї гiпотези. Iнакше кажучи, при такому пiдходi практично вiдпадає необхiднiсть утворення особливої граматики мiжфразового рiвня мови, тому що вся iнформацiя, необхiдна для опису мiжфразових вiдносин, може бути апрiорно зафiксована в словнику. Проте, незвжаючи на спокусливу простоту, при бiльш глибокому розглядi цей пiдхiд починає викликати заперечення. З одного боку, методологiчно невиправданим було б розглядати текст як свого роду гербарiй, елементи якого можуть бути сгрупованi за ознакою спорiдненостi. В текстi речення не повторюють, а доповнюють одне одне (див. нижче), а ступiнь їх “смислової близькостi” та “далекостi” практично неможливо вимiрити. З iншого боку, i самий iнструмент аналiзу мiжфразових зв’язкiв — семантичнi словники — виглядає надто ненадiйним i таким, що не вiдповiдає всiй гамi мiжфразових вiдносин. Реальнi семантичнi словники вiдбивають лише малу частину реально iснуючих смислових вiдносин, причому останнi часто вiдбираються для включення в словник iз суто прагматичних мiркувань: так, в iнформацiйно-пошукових тезаурусах задаються вiдносини синонiмiї, антонiмiї, родово-видовi та деякi види асоцiативних. Але цей “екстракт” жодним чином не вичерпує всiх смислових вiдносин мiж словами i, отже, не може бути й мови про достатнiсть використання словникiв для вияву в текстi непередбачених, апостерiорних вiдносин. Це вiдноситься, в першу чергу, до слiв “загального” значення, що має дуже нечiтку семантику [Блехман, 1982: Формалiзация…]. Крiм того, в текстi часто зустрiчаються випадки “просторової” близькостi об’єктiв, що не мають жодного априорного, словникового смислового зв’язку. Так, у вiдомiй англiйськiй лiчилцi

(1) Humpty-Dumpty sat on the wall. Humpty-Dumpty had a great fall.
(2) Humpty-Dumpty sat on the wall. He enjoyed the state greatly and never had any trouble about it.

Якщо в першому уривку сидiння Шалтая-Болтая на стiнi розглядається як причина наступної катастрофи, то в другому — як джерело насолоди. Таким чином, для правильного, тобто такого, що вiдповiдає задуму автора, розумiння деякого речення Si неминучо потрiбно враховувати iншi речення того ж тексту, кiлькiсть яких у текстi з t речень може складати вiд 1 до t-1. Притягнення iнформацiї з iнших речень для розумiння даного I.I.Ревзiн у своїй класичнiй роботi з лiнгвiстики тексту [Ревзин, 1978] назвав “насиченням” речення. Проте, треба пiдкреслити, що саме по собi насичення, власне кажучи,є недостатнiм для адекватного розумiння речень тексту, тому що повної насичувальної iнформацiї значно бiльше: вона вiдбиває багатий досвiд, накопичений людством за тисячолiття свого iснування, вiн мiститься в багатьох тисячах усних i письмових текстiв рiзних жанрiв.Справдi, чи можна зводити, наприклад, змiст речення The cow jumped over the Moon до простої констатацiї того факту, що корова перестрибнула через Мiсяць? Лiнгвiстику ж мають цiкавити, головним чином, вiдношення мiж реченнями, якi входять в одне й те ж мовне цiле — текст, i саме тому I.I.Ревзiн запропонував абстрагу-ватися вiд позалiнгвiстичних чинникiв при аналiзi тексту. Отже, зв’язок речень у текстi має сенс розглядати не як деяку їх семантичну близькiсть (“семантичнi близькими” є всi речення тексту, оскiльки вони є частками єдиного цiлого), а як насичення одних речень iншими. Речення Si пов’язане з реченням Sk, якщо одне з них насичує iнше. (В загальному виглядi, як було сказано вище, насичуюча iнформацiя може мiститися бiльш нiж в одному реченнi тексту). Там, де немає насичення, вiдсутнiй зв’язок речень. При такому пiдходi мiжфразовий зв’язок розглядається як явище, що носить апостерiорний характер, i, природно, семантичнi повтори самi по собi не можуть розглядатися анi в якостi причини, анi у виглядi показника зв’язку речень. Тепер можна встановити, що таке насичення речень i в чому проявляється їх ненасиченiсть. Продовжуючи мiркування, якi ми почали вище, скажемо, що ненасиченiсть речення Si може бути викликана або наявнiстю в ньому деякого предмету, бiльш докладний опис якого мiститься в Sk, або деяким логiчним вiдношенням мiж Si i Sk (пор. приклад iз Шалтаєм-Болтаєм). Переходячи до аналiзу мовного оформлення зв’язкiв мiж реченнями тексту, треба визначити, що в одних випадках мiжфразовi вiдносини “попадають” у план вираження, так що їх можна назвати поверхнево-синтаксичними, в iнших же “залишаються” в планi змiсту. Експлiцитнiсть поверхнево-синтаксичних зв’язкiв зумовлена тим, що речення Si мiстить спецiальний сигнал про наявнiсть у ньому предмету, котрий визначається в деякому Sk, чи логiчного зв’язку Si з деяким Sk. Найбiльш розповсюджене найменування таких сигнальних елементiв — конектори. Особливiсть конектора полягає в тому, що вiн одночасно — i маркер, i причина ненасиченостi речення. Будемо (пор. [Берзон, Зубов, 1977]), розрiзняти безоцiнювальнi та логiчно-смисловi конектори. Рiзниця мiж ними полягає в тому, що другi безпосередньо виражають логiчнi вiдношення мiж Si i Sk. Зокрема, причинно-наслiдковi логiчно-смисловi конектори (“следовательно”, “поэтому”, “hence” тощо) не тiльки оформлюють зв’язок мiж реченнями, але й маркують її характер, а саме — причинно-наслiдковi вiдносини даних речень. Що ж стосується безоцiнкових конекторiв (“этот”, “the” тощо), то вони не несуть такого семантичного навантаження, маркуючи лише об’єктивно iснуючi в текстi суто анафоричнi (з вiдсиланням назад) i катафоричнi (з вiдсиланням уперед) речення. Це не означає, зрозумiло, що речення, формально зв’язанi безоцiнковим конектором, не можуть знаходитися в логiчних вiдносинах. Наведемо простий приклад:

Si-1: Петя купил в магазине шапку. Si: Надев ее, он вышел на улицу.

Речення Si має два експлiцитних показники суто анафоричного зв’язку з реченням Si-1 — безоцiнковi конектори “ее” та “он”. У той же час, данi речення iмплiцитно пов’язанi логiчним вiдношенням наступної дiї:

Si: [Затем], надев ее, он вышел на улицу.

Цiкаво, що в переважнiй бiльшостi типiв поверхньо-синтаксичних мiжфразових зв’язкiв проявляється дiя категорiї визначеностi [Блехман, 1985] — текстове видiлення об’єкту з класу подiбних через його спiвставлення з антецедентом (“адресою” в даному класi). Справдi, бiльшiсть логiчно-смислових конекторiв можна представити у виглядi комбiнацiї анафоричної вiдсилки типу “цей” i деякого логiчного вiдношення, котре вiдповiдає типу конектора -”Результат”, “Протиставлення” тощо. (Про типи конекторiв див. [Берзон, Зубов, 1977]). Займенники ж типу “iнший” можна звести до вислову “не цей”. Iнакше кажучи, причина ненасиченостi речення Si, зв’язаного з деяким Sk, полягає в наявностi в Si явного чи неявного об’єкту, що видiляється з класу подiбних i спiввiдноситься з “адресою”, котра мiститься в Sk. Нижче ми детальнiше опишемо той роздiл ВIЛМ мiжфразового рiвня тексту, який моделює текстоутворюючу функцiю категорiї визначеностi. Виявляється, що поряд з граматично оформленими логiчними та безоцiнковими вiдносинами в текстах iснують подiбнi вiдносини, якi однак не мають спецiальних граматичних засобiв вислову. Аналiз показує, що в текстi присутнi лексичнi одиницi, котрi несуть таке ж семантичне навантаження, що й логiчно-смисловi конектори, але якi не є осередками ненасиченостi речень. Порiвняємо два речення:

(1) Например, уравнение 1 разрешимо при x=1. (2) Примером условия 3 является уравнение 7.

Витягнення речення (1) з контексту виявляє його експлiцитну ненасиченiсть, викликану наявнiстю в ньому логiчно-смислового конектору “например”, тодi як речення (2) є формально насиченим. З iншого боку, в (2) можна видiлити словоформу “примером”, яка має ту ж семантику, що й логiчно-смисловi конектори класу “Деталiзацiя”. Можна припустити, що ця словоформа в рядi випадкiв бере участь у мiжфразовому зв’язку, семантично близькому до зв’язку шляхом логiчно-смислових конекторiв “например”, “в частности” i т.iн. Назвемо такi лексичнi одиницi “квазiконекторами”. Проаналiзуємо подiбнiсть i рiзницю конекторiв i квазiконекторiв. Найважливiшою вiдзнакою конектора є те, що вiн у рiвнiй мiрi належить двом структурам — мiжфразовiй та внутрiшньофразовiй, тобто використовується у виглядi формального виразника мiжфразового зв’язку, являючись, у той же час, елементом синтаксичної структури речення, в яке входить. Особливiсть гiперсинтаксичної ролi логiчно-смислового конектора викликана його “триелементним” складом: логiчно-смисловий конектор = логiчний компонент + вiдсилочний компонент (анафоричний або катафоричний) + присудок. Ця суть логiчно-смислових конекторiв виявляється шляхом трансформацiй: продолжение
–PAGE_BREAK–

“например” = “примером этого является” “в результате” = “результатом этого является” “иначе говоря” = “перифразой этого является”.

На вiдмiну вiд конекторiв, квазiконектори не мають вiдсилочного елементу i повнiстю належать до внутрiшньофразової структури. Спроможнiсть же непрямо вказувати на мiжфразовий зв’язок мiститься в однiй лише семантицi квазiконекторiв. Iншими словами, квазiконектор -це “чистий” логiчний компонент, тобто, так би мовити, третя частина конектора, вiн самий по собi є значно бiльш насиченим iнформацiєю, нiж конектор. Саме внаслiдок вiдсутностi у квазiконекторi вiдсилочного елементу його наявнiсть у реченнi не викликає формальної ненасиченостi цього речення. Якщо читач зацiкавиться типологiєю мiжфразових зв’язкiв i їх ранжуванням у залежностi вiд мiри експлiцитностi, вiн може ознайомитися з моїм пiдходом до цiєї проблематики, висловленим у працях [Берзон, Блехман, 1981; Блехман, 1982; Блехман, 1983; Блехман, 1984; Блехман, Головинова, 1982]. Перейдемо тепер до розгляду гiперсинтаксичних угруповань, якi базуються на мiжфразових зв’язках.

3.3 Синтаксична мiжфразова одиниця
В основi пiдходу, що описується, лежить поняття поверхньо-синтаксичної мiжфразової одиницi (ПМО) — незалежного ланцюжка речень, межами якого (верхнiм iнклюзивним i нижнiм ексклюзивним) є автосемантичнi речення тексту [Берзон, 1974; Зарубина, 1977]. Автосемантичним, або насиченим, будемо називати будь-яке речення, що не мiстить показникiв синтаксичного зв’язку з iншими реченнями; речення, котрi мають такi показники, — синсемантичними. У виглядi маркерiв синтаксичного мiжфразового зв’язку використовуються конектори. Можна видiлити такi типи ПМО: а) що складаються з одного речення:

(1) Si: Colorimeters measure the intensity of visible light. Si+1: Colorimeters made by Hach Chemicals Co continuously monitor copper, iron, and other components.

(2) Si: В работе описывается новая нетекстурованная сталь, содержащая алюминий и олово. Si+1: В [16] анализируются аморфные сплавы с высокой магнитной индукцией и малыми потерями, используемые в трансформаторах.

В прикладах (1) i (2) речення Si є ПМО.

б) що складаються з одного автосемантичного та одного чи декiлькох синсематичних (ненасичених) речень: (3) Si-4: The measurements of R were made with storage ring called ADONE at Frescati in Italy. Si-3: These measurements gave values of 2. Si-2: In other words, there were twice as many hadronic events as muon pairs. Si-1: Shortly thereafter theory briefly caught up with experiment. Si: Wang and Smith published details of a rather simple method…

(4) Si-3: Каждая лексическая единица, помимо смысла, который она несет, который она несет, приобретает некоторые новые свойства. Si-2: Эти свойства ЛЕ выражаются в лек-сико-грамматических категориях: Si-1: Например, в качестве лексико-грамматических категорий могут выступать такие свойства, как “многозначность”, “вектороность” и т.п. Si: Для того чтобы задать ЛЕ, надо …

В прикладi (3) ПМО складають речення Si-1 — Si-4, а в прикладi (4) — Si-1 — Si-3. Таким чином, ПМО складає “параграф” документу, що видiляється формально, причому автосемантичне речення можна розглядати як свого роду “заголовок” цього параграфа. Для видiлення в текстах автосемантичних речень необхiдно формалiзувати розпiзнання синсемантичних речень, що експлiцитно залежать вiд контексту. Iншими словами, вирiшальне значення набувають пошук у текстi конекторiв i їх формальний аналiз. Цей аналiз можна порiвняти з синтаксичним аналiзом речення з використанням фулькрумiв [Гарвин, 1980].
3.4 Конектори та псевдоконектори
Як уже говорилось, конектори — це слова i словосполучення, що виконують функцiю iнструменту поверхньо-синтаксичного мiжфразового зв’язку. Можна припустити, що в будь-якiй мовi кiлькiсть конекторiв, як i кiлькiсть маркерiв внутрiшньофразового синтаксичного зв’язку, є iстотно меншою, нiж загальний лексичний фонд, тому конектори можна задати списком. Проте завдання значно ускладнюється тим, що наявнiсть у реченнi лексичної одиницi, формально спiвпадаючої з конектором, не гарантує синсемантичностi даного речення. Причина тут у тому, що потенцiйний конектор використовується не для зв’язку речень, а в якiйсь iншiй функцiї, тобто є псевдоконектором. Треба розрiзняти двi ситуацiї такого роду: а) Антецедент лексичної одиницi, спiвпадаючої з конектором, знаходиться в тому ж реченнi, тобто зона дiї конектора розповсюджується тiльки на те речення Si, в яке входить конектор. Наведемо приклади:

(5) Si: At this stage, the product is a powder, and the hydroxides are then filtered to produce mixed oxygen.

(6) Si: В случае непрямой диалоговой связи человек -машина пользователь обращается к программам обнаружения максимально совпадающих цепочек только при отсутствии термина в банке, однако использование этого принципа оправдывается лишь в некоторых областях. В прикладах (5, 6) слова and, then, “однако” та “этого” поєднують простi речення в межах складних i тому є псевдоконекторами.

б) Лексична одиниця є омонимiчною конектору. Тут можна провести аналогiю з ситуацiєю, коли ланцюжок лiтер у кiнцi слова омонiмичний закiнченню, наприклад, “бра”, “кофе”.

Приклади:
(7) Si: It is rather difficult to increase that rate significantly.

У прикладi (7) слово it є омонимiчним конектору. Пор.:

(8) Si-1: A properly working control system will deliver 457 milliliters per minute to reach the target pH. Si: As long as it delivers between 433 and 483 milliliters per minute …

У прикладi (8) конектор it є маркером синтаксичного зв’язку речень Si и Si-1.

(9) Si: Связь не могла быть интерпретирована, так как в таблице отсутствовало сочетание РП23 с РПО141.

У прикладi (9) слово “так” є омонимiчним конектору. Пор.:

(10) Si-1: Элементы текста могут нести разную информацию при переводе. Si: Так, из сказуемого можно извлечь информацию о сопутствующих именных группах.

У прикладi (10) конектор “так” маркує синтаксичний зв’язок речень Si i Si-1. До ситуацiй другого типу вiдноситься вживання такого частотного маркеру категорiї визначеностi, як визначений артикль, для оформлення узагальненого чи єдиного об’єкту, а не для зв’язку речень через спiввiдношення об’єктiв [Блехман, 1985]:

(11) Si: The nucleus consists of protons and electrons.

У прикладi (11) артикль оформлює узагальнений об’єкт nucleus и тому не є конектором. Пор.:

12) Si-k: The detector consists of an orifice for measuring pressure… Si: The pressure is proportional to the…

У реченнi Si прикладу (12) визначений артикль оформляє видiлений з класу об’єкт pressure, антецедент якого знаходиться в реченнi Si-k, тому даний артикль маркує синтаксичний зв’язок Si i Si-k. Процес розрiзнення конекторiв i псевдоконекторiв у кожнiй конкретнiй ситуацiї є обов’язковою умовою формалiзацiї поверхньо-синтаксичних зв’язкiв i розробки систем реферування. Для рiшення цього завдання була вжита спроба представити даний процес у виглядi невеликої кiлькостi стандартних операцiй. Перелiчимо цi операцiї. а) Визначення порядкового номеру потенцiйного конектора в реченнi та порiвняння його з деякою пороговою величиною. Ця операцiя використовується тому, що в мовi спостерiгається тенденцiя вживати конектори на початку речення або в позицiях, ненабагато вiддалених вiд першої. Так, дуже малою є ймовiрнiсть вживання конектора hence (“отже”) в позицiї, номер якої перевищує 7. У роботi [Берзон, 1972] наведенi пороговi позицiйнi характеристики росiйських конекторiв. Проте треба пiдкреслити, що позицiйний критерiй не може бути використаний на практицi в якостi єдиного критерiю вiдмiнностi конекторiв вiд псевдоконекторiв. Дiйсно, в реченнi

(13) Si: The usual method for such investigations is to hypothesize a particular mode of decay

артикль the знаходиться в першiй позицiї, але не є конекто-ром, тому що не оформлює об’єкт, що видiляється з класу “usual method for such investigations”. З цiєї причини виникає необхiднiсть використовувати також iншi операцiї аналiзу тексту, а саме: б) Пошук в оточеннi потенцiйного конектора дiагностичних лексичних одиниць. Ця операцiя є аналогiчною зняттю лексичної багатозначностi в системах машинного перекладу. Так, омонiмiя займенника such конектору може дiагностуватися наявнiстю на обмеженiй вiдстанi справа вiд нього слова as; займенника the same — слiв as або that тощо. Пор.:

(14) Si: The results were the same as in the previous experiments.

У прикладi (14) the same є псевдоконектором.

(15) Si-1: Reverse gel precipitation is a chemical process in which hydroxides of the required metals are precipitated by adding an alkali to an aqueous solution of the metal. Si: The same techique was employed to obtain…

У прикладi (15) the same є конектором.

в) Вияв у текстах конекторiв, котрi використовуються для формування одного з найбiльш розповсюджених рiзновидiв синтаксичного мiжфразового зв’язку — А-зв’язку [Блехман, 1985], — визначеного артикля i вказiвних займенникiв. Складнiсть цiєї операцiї викликана необхiднiстю виходу за межi речення, що мiстить потенцiйний конектор. Справдi, без притягнення екстралiнгвiстичної iнформацiї неможливо на внутрiшньофразовому рiвнi визначити, чи є конектором артикль у реченнi:

(16) The hydroxides are filtered to produce mixed oxides.

Iнакше кажучи, неясно, чи автор має на увазi деякi конкретнi гiдроксиди чи будь-якi гiдроксиди, тобто об’єкт є узагальненим — таким, що не видiляється з класу подiбних. З iншого боку, вихiд за межi цього речення дозволяє вiдповiсти на поставлене питання, не притягуючи, користуючись введеною в Главi 1 термiнологiєю, другий рiвень розумiння:

(17) Si-1: The result is hydroxides in the form of a fine slurry. Si: The hydroxides are filtered to produce mixed oxides.

У реченнi Si прикладу (17) визначений артикль є конектором, тому що оформлений їм об’єкт hydroxides видiляється з класу подiбних об’єктiв шляхом спiввiдношення з антецедентом, що знаходиться в реченнi Si-1.

3.5 Словник i граматика систем
Опрацювання апарату аналiзу тексту на мiжфразовому рiвнi мало цiллю утворення реально дiючих автоматизованих iнформацiйних систем, якi здiйснюють реферування англiйських i росiйських текстiв. Iдея такої системи, рiвно як i концепцiя гiперсинтаксису, описанi в серiї класичних робiт В.Ю.Берзона з мiжфразового аналiзу. В найбiльш розгорнутiй формi вони наведенi в монографiї [Добрускина, Берзон, 1986]. У системi, що описується нижче, використовується два машинних словника: словник конекторiв (Ск) i допомiжний словник (Св). Перший складається з незалежних англiйської та росiйської частин. Словник кожної частини мiстить понад 100 конекторiв. У другий включенi слова та словосполучення, що є дiагностуючими ознаками. Св, як i Ск, складається з незалежних англiйської та росiйської частин, кожна з яких подiлена на секцiї. Секцiя має таку структуру: номер секцiї; її довжина; лексичнi одиницi, наприклад, англiйськi слова “загального” значення: fact, problem, result тощо. Алгоритм розпiзнання складає систему правил, застосування яких до тексту дозволяє з достатньою надiйнiстю реалiзувати пошук конекторiв. У пояснювальнiй частинi Ск при кожному конекторi мiститься вказiвка на те, за яких умов лексична одиниця є конектором. Наприклад, займенник such є конектором, якщо його порядковий номер у реченнi не перевищує 8 i одночасно справа вiд нього на вiдстанi не бiльше трьох слiв вiдсутнє слово з певної секцiї Св (as, that). Умови формулюються в термiнах: — вiдстанi конектору вiд початку речення ( в кiлькостi слiв); — дiагностуючої ознаки; — напрямку пошуку дiагностуючого признаку; — вiдстанi дiагностуючого признаку вiд конектора; — вимоги наявностi чи вiдсутностi дiагностуючого признаку. Очевидно, що описана схема перевiрки умов не залежить вiд конкретної мови. Умови перевiряються за допомогою конкретних процедур. Кожному конектору вiдповiдає один запис Ск. Спочатку фiксується його довжина, пiсля цього слiдує так званий признак конектора, що може приймати одне з трьох значень: 1 — конектор є словом (however, “однако”); 2 — конектор є словосполученням (on the other hand, “с другой стороны”); 3 — конектор є основою слова (“эт-”, “так-”). За ознакою конектора слiдують: його системний номер, власне конектор i признак кiнця конектора. В iншiй частинi запису фiксуються групи процедур перевiрки. Кожна група мiстить тип конектора [Берзон, Зубов, 1977] i набiр процедур. Тип конектора визначає смислове вiдношення мiж реченнями, що зв’язуються:

А — итог В — противопоставление С — следствие D — перечисление Е — дополнение G — соединение Н — пространство, время I — подтверждение К — уточнение L — развитие мысли (А-связь) М — пояснение N — пример Р — цитата R — вопрос S — перефразирование

Треба зазначити, що деякi конектори можуть виражати рiзнi типи смислових вiдносин. Зокрема, конектор “так” потенцiйно вiдноситься до типiв G i N. В системi реалiзовано такi процедури: 1) Визначається номер позицiї потенцiйного конектора в реченнi, i цей номер порiвнюється iз заданим в описi процедури параметром. 2) Символ, що знаходиться в словi безпосередньо за ланцюжком символiв, спiвпавших з конектором, порiвнюється з тим, що задається у виглядi параметра. 3) Символ, що знаходиться в словi безпосередньо перед ланцюжком символiв, який спiвпадає з конектором, порiвнюється iз символом, що задається у виглядi параметра. 4) Перевiряється збiг знайденого в текстi слова з конектором — основою слова — пiсля додання до останнього одного з закiнчень, котрi входять у зазначену в описi процедури секцiю Св. 5) На вiдстанi не далi n слiв лiворуч чи праворуч вiд конектора визначається наявнiсть одного зi слiв, котрi входять у зазначену в описi процедури секцiю Св. Можлива iнверсiя результату: лексична одиниця є конектором при вiдсутностi, а не наявностi зазначеного слова. 6) Перевiряється виконання необхiдних умов А-зв’язку. Перевiрка полягає у вiдшуканнi антецеденту для iменника N, оформленого потенцiйним конектором. Пiд N розумiємо будь-яке слово, яке знаходиться праворуч вiд конектора не далi, нiж на певну вiдстань, i безпосередньо передує правiй ексклюзивнiй межi iменникової групи [Волосевич, 1971]. Антецедентом визнається слово A, котре входить у ту ж ПМО, що й N, i знаходиться в одному з наступних вiдносин з N: — A i N спiвпадають; — A i N — однокорiннi; — A i N — синонiми чи значення A є “вужчим”, нiж значення N. 7) Перевiряється виконання достатнiх умов А-зв’язку [Блехман, 1985]. Перевiрка полягає в порiвняннi слiв, котрi залежать вiд N (N-слiв), зi словами, котрi залежать вiд A (A-словами). N-словом вважається будь-яке слово, що знаходиться мiж конектором i N; A-словом — будь-яке слово, що знаходиться мiж A i ближчою лiворуч межою iменникової групи. A-зв’язок встановлюється в тому випадку, якщо сукупнiсть N-слiв входить у сукупнiсть A-слiв. Якщо в сукупностi N-cлiв є “зайвi” у порiвняннi з сукупнiстю A-слiв, то цi “зайвi” не перешкоджають встановленню А-зв’язку тiльки в тому випадку, якщо вони входять у список так званих описових залежних. Якщо антецедент не знайдений, то перевiряється умова неявного А-зв’язку — N спiвпадає з одним iз слiв “загального” значення.
3.6 Система квазiреферування
Опрацювання системи автоматичного реферування має чималий практичний iнтерес. Це викликано не тiльки регулярним збiльшенням обсягу документальних потокiв, але й таким важливим чинником, як запровадження в дiю промислово-орiєнтованих АСНТI з автоматичним iндексуванням i систем машинного перекладу, а також повнотекстових баз даних. При цьому реферування, будучи одним iз ключових процесiв аналiтично-синтетичної переробки текстiв, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справдi ефективним тiльки в тому випадку, якщо виконуються такi п’ять вимог: — система має формувати реферат iз речень вхiдного тексту (можливо, з деякими скороченнями за рахунок порiвняно малоiнформативних сегментiв — цитат, вiдсилок i т.iн.), а не породжувати його на пiдставi смислового аналiзу текстiв. Iншими словами, система повинна повнiстю наслiдувати термiнологiю та стиль автора, не допускаючи багатозначного тлумачення його думок. Таким чином, йдеться про розробку системи, що має перший рiвень “розумiння” тексту, — системи квазiреферування; — реферати, що формуються системою, мають мiстити не тiльки “сигнальну” iнформацiю про документ, але й дозволяти прослiдкувати хiд думок автора, тобто система повинна породжувати саме реферати, а не анотацiї; — мiра скорочення тексту, яка називається звичайно коефiцiентом редукцiї i пiд якою розумiють вiдношення кiлькостi речень у вхiдному текстi до кiлькостi їх у рефератi, має бути достатньо високою (не менше 4-5); — швидкiсть автоматичного реферування повинна бути значно вищою за швидкiсть ручного; — система має легко переналагоджуватися на обробку текстiв рiзних мов. Розглянемо тепер принципи реалiзацiї розробленої пiд керiвництвом автора системи квазiреферування[Берзон, Блехман, Захаров, Певзнер, 1984]. На першому етапi реалiзацiї принцип дiї системи полягає у формуваннi квазiреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЕС ЕОМ включає головну програму й сiм процедур. Головна програма виконує такi функцiї: — читання тексту, що реферується; — розмiщення словникiв в оперативнiй пам’ятi; — аналiз тексту по реченнях: видiлення слiв, пошук в Ск i перевiрку збiгу лексичної одиницi, що аналiзується, з одним iз конекторiв; — у разi збiгу — звернення до процедур, обчислення значення логiчної функцiї по результатах роботи процедур, прийняття рiшення про iстинiсть конектора i визначення типу речення вiдповiдно до типу конектора; — прийняття рiшення про включення чи невключення речення до квазiреферату; — друк квазiреферату на принтерi. По мiрi роботи головної програми формується таблиця речень, що є основним результатом цiєї програми. Рядок таблицi вiдповiдає одному реченню. На час звернення до процедури всi рядки, котрi мають вiдношення до попереднiх за порядком слiдування реченням, цiлком заповненi. Рядок, котрий вiдноситься до речення, пiд час аналiзу якого сталося звертання до процедури, в момент звернення заповнений частково. Рядок таблицi має таку структуру: — номер речення; — кiлькiсть символiв у реченнi; — тип речення; — автосемантичне чи синсемантичне; — номер речення, з яким дане знаходиться в синтаксичному зв’язку; — номер конектора в Ск. Кожна процедура має доступ до адрес початку тексту, початку речення, аналiзованого слова, початку таблицi речень, початку Ск, початку Св, а також до порядкових номерiв речення, аналiзованого слова в реченнi, першого символу слова вiдносно початку речення, до змiщення початку запису Ск, до значень параметрiв, зазначених в описах Ск. Як бачимо, програмне забезпечення системи не залежить вiд мови тексту, що обробляється. Для реферування текстiв на iншiй мовi достатньо органiзувати словник конекторiв i допомiжний словник на цiй мовi. Система реалiзована на мовi Асемблер пiд управлiнням ДОС i ОС ЕС ЕОМ. Документ надходить до системи у виглядi текстового файлу, в якому допускається видiлення за допомогою спецiальних службових символiв заголовкiв документiв i окремих його пiдроздiлiв, а також елементiв бiблiографiчного опису. Вся видiлена таким чином iнформацiя включається системою у квазiреферат. Результатом роботи системи є друкована копiя квазiреферату, сформованого з автосемантичних речень тексту з вказiвкою їх порядкових номерiв у вхiдному текстi. Якщо при цьому коефiцiент редукцiї вхiдного тексту виявляється менше 4, то у квазiреферат не вводяться iзольованi автосемантичнi речення [Берзон, 1972]: з послiдовностi автосемантичних речень у квазiреферат вводяться тiльки першi. Передбачений також режим, у якому до квазiреферату потрапляють не тiльки автосемантичнi речення, але й вказiвка на тип вилучених синсемантичних. Це дозволить у майбутньому органiзувати дiалог користувача з ЕОМ, запрошуючи у системи субтексти, котрi мають iнтерес для абонента (детальнiше див. [Берзон, Брайловский, 1979]).

3.7 Експерименти
На заключному етапi побудови ВIЛМ мiжфразової структури наукового тексту був проведений експеримент, що полягав в автоматичному реферуваннi 10 англiйських текстiв такої тематики: — металознавство — чотири тексти; — обчислювальна технiка — чотири тексти; — порошкова металургiя — два тексти. Оскiльки система не використовує тезаурусної iнформацiї (це дещо знижує її розпiзнавальну спроможнiсть), можна сказати, що тематика документу, що реферується, для неї не є iстотною. У зв’язку з тим, що при реферуваннi аналiзуються тiльки формально вираженi зв’язки мiж реченнями, а “глибиннi” вiдносини не враховуються i концептуальне подання самих речень не береться до уваги, система виявилася досить стiйкою до помилок при пiдготовцi даних: 90% помилок не впливають на якiсть реферування. Тривалiсть реферування тексту, що складається з 70 речень, — 1,5 хвилин роботи центрального процесора ЕОМ ЕС-1022. Середнiй коефiцiент редукцiї — 4. У процесi експерименту квазiреферати, якi вiдносяться до металознавства та порошкової металургiї, були пред’явленi фахiвцю-металлургу; квазiреферати з обчислювальної технiки аналiзував автор. Всi квазiреферати одержали оцiнку “4” за 7-бальною шкалою: “Реферат у цiлому задовiльний, шуму мало, але втрати найбiльш важливої iнформацiї дещо бiльше припустимого рiвня”. Отже, квазiреферат, обсяг якого в чотири рази менший за обсяг вхiдного тексту, дає досить повне уявлення про тематику документу, мiстить мало другорядних вiдомостей (отже, може бути використаний також в АСНТI для автоматичного iндексування документу), проте в ньому вiдсутня частина iстотної iнформацiї. Можна припустити, що останнє частково викликане самим принципом квазiреферування, яке не враховує, зрозумiло, того факту, що важлива, з точки зору користувача, думка може бути висловлена в деяких реченнях, серед яких можуть опинитися синсемантичнi, якi вилучаються при квазiреферуваннi. Наведемо приклад квазiреферування роздiлу статтi N.Berhood, et al. The Yield and Flow Stress of Cu-1% Cd Alloy. — Acta Metallurgica, 1980, 28, p. 1141. Цифрами позначенi порядковi номери речень у вхiдних текстах.

On the Lower Bainite Transformation

00. Pickering [1] systematically studied the variation of the transition temperature between upper and lower bainite as function of carbon contenent in steels containing 0 plus boron, or 1,5 mc. 01. (L; развитие мысли) 02. (L; развитие мысли) 03. In order to explain the apparent initial rise in transition temperature with an ancrease in carbon content he proposed that it gets progressively difficult to remove carbon from supersaturated bainite ferrite as the alloy carbon content increases since the conceтеration gradients in austenite will become shallower. 04. (C; следствие) 05 (B; противопоставление) 06 (E; дополнение) 07. (E; дополнение) 08. (C; следствие) 09. (L; развитие мысли) 10. (E; дополнение) 11. (L; развитие мысли) 12. In fig 2, comparison of Pickering’s data with the bainite start (bs) and marteniste start (ms) lines given by Steven and Haynes suggests that the transition temperature between upper and lower bainite or the lower bainite start temperature should also vary in a similar manner. 13. (J; подтверждение) 14. (J; подтверждение) 15. It is assumed that the lower bainite start temperature should also vary in a similar manner. 17. (J; подтверждение) 18. The following table list shows that the steels in which lower bainitic epsilon carbide has been positively identified invariably have a high carbon content. 19. (B; противопоставление) 20. (L; развитие мысли) 21. Bhadeshia [3] originally suggested that the lack of epsilon carbide in the 0,43 C alloy steel may be due to the presence of the substantial amount of manganese. 22. (B; противопоставление) 23. Kalish and Kohen [4] have shown that it is energetically favourable for carbon atoms to remain segregated at dislocation compared with their presence in the epsilon carbide lattice. 24. (C; следствие) 25. (L; развитие мысли) 26. Kalish and Kohen estimate that a dislocation density of 2110 CN will prevent epsilon carbide precipitation in steels of up to 5,28 wt% carbon. продолжение
–PAGE_BREAK–

Похожие работы