ДИПЛОМНЫЙ ПРОЕКТ
Выпускнаяквалификационная работа дипломированного специалиста
Специальность 230102
Автоматизированныесистемы обработки информации и управления
АВТОМАТИЗИРОВАННАЯИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА КЛАССИФИКАЦИИ ИНФОРМАЦИОННЫХ СООБЩЕНИЙ СРЕДСТВМАССОВОЙ ИНФОРМАЦИИ
Содержание
Введение
1.Обзор и анализ существующих систем
2.Общесистемные решения
2.1Пояснительная записка к техническому проекту
2.2Описание схемы организационной структуры управления информационных ианалитических технологий аппарата администрации Тульской области
2.3Описание автоматизируемых функций и схемы функциональной структуры АИС«Классификатор»
2.4Описание постановки задачи
3Информационное обеспечение
3.1Перечень входных данных
3.2Перечень выходных данных и документов
3.3Описание информационного обеспечения АИС «Классификатор»
3.4Описание организации информационной базы
4Математическое обеспечение
4.1Математическая постановка задачи классификации информационных сообщений СМИ
4.2Описание метода нечеткого поиска
4.3Описание запросов
4.4Описание схемы работы системы
5.Техническое обеспечение
5.1Описание комплекса технических средств
5.2Инструкция по эксплуатации комплекса технических средств
6Программное обеспечение
6.1Описание программного обеспечения
6.2Описание контрольного примера
7Организационное обеспечение
7.1Описание организационной структуры
7.2Руководство пользователя
Заключение
Библиографическийсписок
Приложения
1. Структуравходных и выходных документов
2.Текст программы.
ВВЕДЕНИЕ
При современном уровне развитияинформационных технологий использование компьютера для хранения любых видовинформации становится единственным способом, предоставляющим широчайшиевозможности по управлению информацией.
В настоящее время идет постоянный ибыстрый рост объемов информации. Значительную часть этой информации составляюттекстовые данные. В связи с этим встает проблема создания средств доступа ктекстовой информации.
Технически существует возможностьдоступа к значительной части имеющихся текстов, но практически доступна лишьмалая часть. Это связано с несовершенством средств доступа. Современныесредства поиска, каталогизации, описания текстов не удовлетворяют нарастающимпотребностям пользователей. Требуется их развитие в направлении повышенияэффективности поиска информации и упрощения взаимодействия с пользователем.
Возможным путем решения проблемыявляется создание технико-информационных средств описания смысла имеющихсятекстов с возможностью дальнейшего осмысленного поиска в массиве текстовойинформации. Причем большие и постоянно увеличивающиеся объемы текстовойинформации требуют, чтобы такие средства работали в автоматическом режиме.
Наиболее важным направлениемавтоматизации деятельности предприятий является использование современныхинформационных технологий для хранения, систематизации и эффективной обработкиинформации, поступающей из различных источников, а также использования этойинформации в целях выработки рекомендаций для принятия управленческих решений.
Проблемаиспользования большого объема накопленных данных является ключевой во многихорганизациях. Проблема работы с большим количеством информации имеет двааспекта:
— автоматическийсбор информации;
— автоматическийразбор поступившей информации по данной тематике, проведенный на основе анализатекста документа.
В связи с этим,во-первых, появляется задача загрузки информации в систему. Процесс загрузкизаключается в занесении данных с носителя информации в хранилище данных.Поставляющие информацию оперативные системы далеко не всегда обладаютдостаточным уровнем качества данных, поэтому процесс загрузки этих данных вхранилище не ограничивается простым копированием, а включает в себя очистку,согласование и контроль качества. Хранилища данныхзагружают и постоянно обновляют огромные объемы данных из различных источников,поэтому вероятность попадания в них «грязных данных» весьма высока.Поэтому появляется проблема поиска ивыборки необходимой информации из больших массивов текстовых данных.
Эффективностьпоиска в большом информационном массиве существенно повысится, если его разбитьна части по некоторому критерию, связанному с целями поиска. Следовательно, во-вторых,появляется проблема классификации сообщений.Для решения задачи анализа текстовой информации и последующегоавтоматического распределения ее по требуемым тематикам необходимо в первуюочередь сформировать рубрикатор, то есть задать список рубрик и словарь,наиболее точно характеризующие исследуемую область знаний. Классификациядокументов позволяет сузить область поиска и не только увеличить его скорость,но и значительно повысить точность результатов. Поэтому технологииавтоматической классификации документов отводится важное место в системахуправления электронным документооборотом.
Суть задачи классификации состоит вавтоматическом распределении поступающих в систему документов в зависимости отих типа и содержания по рубрикам.
В настоящее время в структуреобластной исполнительной власти ответственность за поддержание информационноготонуса в регионе возложена на управление информационных и аналитическихтехнологий аппарата администрации Тульской области (УИАТ ТО), одной из задачкоторого является создание условий для удовлетворения информационныхпотребностей органов власти, населения.
В целях обеспечения информацией органоввласти и населения все больше внимание уделяетсясовершенствованию профессионального мастерства рабочегоперсонала отдела технологий отображения информации (ОТОИ) УИАТ ТО, повышениюоперативности и эффективности работы. ОТОИ осуществляет своюдеятельность в сфере управления процессами создания и внедрения передовыхинформационных технологий и в сфере управления вопросами графической обработкии отображения информации.
Внедрение системы автоматизации втехнологические процессы отделов по управлению информацией позволяетмаксимально использовать их возможности:
— автоматизация процесса загрузкиинформационных сообщений СМИ в информационную базу системы позволяет улучшитькачество данных, выявить и удалить ошибки несоответствий в данных;
— автоматизация процесса поискапозволяет частично снять нагрузку с работника и сократить время по отслеживаниюнеобходимой информации;
— автоматизация процесса классификацииинформационных сообщений СМИ позволяет автоматически распределить поступающие всистему информационные сообщения в зависимости от их типа и содержания порубрикам.
Управление процессами в отделах поуправлению информацией должно выполняться в режиме реального времени для болееуспешного развития предприятия. Также необходимы такие возможности, чтобысистема быстро реагировала на возникающие изменения.
Одним из путей повышенияэффективности деятельности отделов по управлению информацией являетсясовершенствование работы процессов по формированию информации. Поэтому важноеместо занимает проблема автоматизации работы консультанта ОТОИ, связанной с обработкой информации и присвоениеей классифицирующих атрибутов.
1 ОБЗОР И АНАЛИЗСУЩЕСТВУЮЩИХ СИСТЕМ КЛАССИФИКАЦИИ ИНФОРМАЦИИ
В настоящее время задача автоматическогоразнесения информационного потока по тематическим рубрикам является одной изважнейшей в области обработки информации в системах электронногодокументооборота. Главное внимание при организации работ по управлениюинформацией сосредоточено на проблему автоматизации процессов классификацииинформационных сообщений СМИ. Наиболее актуальными являютсязадачи загрузки информационных сообщений в информационную базу, обработкитекстовой и цифровой информации, переход к структурированным сообщениям,оперативная корректировка структуры рубрикатора и словаря.
В настоящее время в отделахдокументооборота началось активное использование программных продуктов дляавтоматизации процесса классификации.
Наибольшее распространение в отделахдокументооборота получили программные продукты: поисково-аналитическая система«Галактика-Зум», система «Термин-5», информационно-аналитическая система«Астарта», информационно-аналитическая система INLINETechnologies.
Каждый из вариантов имеет своипреимущества и недостатки. Наиболее распространенные зарубежные системы хорошоотлажены, но имеют гораздо более высокую стоимость, недостаточно приспособленык принятым в организациях технологиям, стандартам и форматам, что требует ихсерьезной и дорогостоящей адаптации.
Отставание отечественных системобъясняется в основном тем, что при отсутствии значительных финансовыхинвестиций российские системы используют в качестве базового программногообеспечения бесплатные или дешевые пакеты программ, которые не предназначеныдля создания высокотехнологичных систем.
Учитывая сложившуюся ситуацию,целесообразно осуществить анализ отечественных систем с целью доработки их доуровня полной конкурентоспособности.
Рассмотрим ряд автоматизированных системпо процессу классификации информации.
Поисково-аналитическая система«Галактика-Зум» предназначена для компаний и организаций, которым необходимоавтоматизировать процесс классификации.
Программа предоставляет следующиевозможности:
— определение «информационного портрета»запрашиваемой темы, то есть набор упорядоченных по значимости ключевых слов исловосочетаний, характерный именно для данной выборки;
— решение задачи ранжирования документоввыборки по значимости – по наибольшему соответствию инфопортрету выборкиколичества значимых тем и их ранга в рассматриваемом документе;
— корректирование полученныхинфопортретов;
— сравнение инфопортрета документа синфопортретами рубрик, с отсечение малохарактерных инфопортретов.
Информационно-аналитическая система«Астарта» предназначена для компаний и организаций, которым необходимоавтоматизировать и кардинальным образом повысить эффективность сбора, обработкии анализа неструктурированной информации, получаемой из Интернета, печатныхматериалов, СМИ и т.д. Программное решение базируется на технологии «Евфрат» ипредназначено для сбора, обработки и анализа неструктурированной информации,получаемой из Интернета, печатных материалов СМИ и других источников.
К недостаткам данных систем можноотнести следующее:
— неудобный для работы интерфейс;
— отсутствие достаточно полного словарядля процесса классификации информационных сообщений;
— отсутствие необходимых для эффективнойработы функций формирования рекомендаций для принятия решений и отчетов.
Таким образом, учитываявозможности и недостатки существующих систем, необходимо разработать систему,которая предоставляла бы следующие возможности:
— создание информационной базы дляавтоматизированного процесса классификации статей по категориям рубрикатора;
— загрузка информационных сообщений СМИв информационную базу;
— обработка текстовой и цифровойинформации с использованием метода нечеткого поиска;
— классификация информационных сообщенийс использованием метода ранжирования;
— возможность оперативной корректировкиструктуры рубрикатора и словаря;
— формирование рекомендаций для принятиярешений;
— формирование отчетов.
2 ОБЩЕСИСТЕМНЫЕ РЕШЕНИЯ
2.1 Пояснительнаязаписка к техническому проекту
Полное наименование системы:Автоматизированная интеллектуальная система классификации информационныхсообщений средств массовой информации (СМИ). Условное обозначение: АИС«Классификатор».
Заказчик:Управление информационных и аналитических технологий аппарата администрацииТульской области (УИАТ ТО), отдел технологий отображения информации (ОТОИ).
Разработчик:студентка Тульского государственного университета факультета Экономики и правакафедры Автоматизированных информационных и управляющих систем группы 730211Жиренкова Ирина Юрьевна.
Плановые сроки начала и окончания работыпо созданию системы:
— начало работ: 1сентября 2006 года;
— окончание работ:1 декабря 2006 года.
Разрабатываемая АИС «Классификатор»предназначена для обеспечения болееудобной, эффективной и качественной работы консультанта ОТОИ, связанной с обработкойинформации и присвоение ей классифицирующих атрибутов.
Целью созданиясистемы является автоматизация процесса классификацииинформационных сообщений СМИ. Система позволит освободить человека отнеобходимости рутинной работы по отслеживанию необходимой информации,принадлежащей к той или иной рубрике, а также сократить время на их обработку.
АИС «Классификатор» включает в себяследующие подсистемы:
1) подсистема ведения информационнойбазы;
2) подсистемаобработки информационных сообщений СМИ;
3) подсистеманастройки параметров;
4) подсистемаклассификации информационных сообщений СМИ.
Подсистема ведения информационной базы должнавыполнять следующие функции:
1) формирование информационной базы;
2) добавление записи;
3) изменение записи;
4) удаление записи;
5) сохранение записи.
Подсистема обработки информационныхсообщений СМИ должна выполнять следующие функции:
1) открытиесписка текстовых файлов в каталоге;
2) открытиефайла;
3) считываниестроки из файла;
4) записьинформационных сообщений СМИ в базу;
5) закрытие файла.
Подсистема настройки параметров должна выполнятьследующие функции:
1) определение каталога с файлами;
2) настройка расширения файлов сисходными данными;
3) настройка параметров классификации.
Подсистема классификации информационныхсообщений СМИ должна выполнять следующие функции:
1) поиск записей по различным ключамсловаря с помощью метода нечеткого поиска;
2) классификация сообщений порезультатам поиска;
3) формирование рекомендаций дляпринятия решений;
4) формирование отчетов.
Информационноеобеспечение организовано в соответствии с принципами развития, совместимости,стандартизации и унификации.
Входными данными являются:
— информационные сообщения СМИ;
— параметры классификации;
— рубрикатор тем;
— словарь.
Выходными данными являются результатыклассификации информационных сообщений СМИ.
Выходными документами являются:
— отчет по результатам классификации;
— отчет по обработанным сообщениям СМИ.
АИС«Классификатор» была разработана в среде программирования Borland Delphi 7.0,основным инструментом которого является Object Pascal. Намагнитных носителях сведения о сообщениях хранятся в виде базы, котораяразработана в системе MS Access. Сами информационные сообщения хранятся в файлах нажестком диске. Программное обеспечение реализовано с помощью модульногопринципа и функционирует независимо от аппаратной части.
Дляфункционирования АИС «Классификатор» разработан комплекстехнических средств, включающий в себя ПЭВМна базе процессора Intel Celeron с тактовой частотой 2 ГГц, клавиатуру, мышь, монитор SVGA, 2 Гбайт нажестком диске, 512 Мбайт оперативной памяти (RAM),операционную систему Windows Me, 2000, XP.
Для ввода системыв эксплуатацию необходима персональная ЭВМ с набором периферийных устройстврабочего места. Также необходимо провести ознакомление консультанта ОТОИ спринципами работы данной системы.
2.2 Описание схемыорганизационной структуры управления информационных и аналитических технологийаппарата администрации Тульской области
Руководит управлением информационных ианалитических технологий аппарата администрации Тульской области начальникуправления. В непосредственном подчинении у начальника находится заместительначальника управления. У заместителя в подчинении определенное количествоподразделений (отделов). Схема организационной структуры управленияинформационных и аналитических технологий приведена на рисунке 2.1.
/>
ОТОИ осуществляет свою деятельность всфере управления процессами создания и внедрения передовых информационныхтехнологий и в сфере управления вопросами графической обработки и отображения информации.
Основными задачами и функциями отдела являются:
— участие в подготовке управленческихрешений (нормативно-правовых актов губернатора и администрации Тульскойобласти) в сфере информатизации;
— участие в организации информационноговзаимодействия федеральных и региональных органов власти, органов местногосамоуправления путем отработки технологии изготовления и распространенияинформационных и информационно-правовых электронных и печатных бюллетеней и сборников;
— подготовка справочных, информационныхи аналитических материалов в целях повышения информированности и компетентностипредставителей органов власти;
— сбор и обработка информации о деятельностиорганов исполнительной власти, аппарата администрации Тульской области, органовместного самоуправления региона в целях создания государственных информационныхресурсов;
— техническое, информационное, лингвистическое,организационное участие в наполнении сайта (портала) администрации Тульскойобласти, включая разработку интернет-страниц;
— подготовка предложений по применению ворганах исполнительной власти новых технических средств и компьютерныхтехнологий ввода, обработки и отображения графической, текстовой,гипертекстовой, аудио- и видеоинформации;
— подготовка информационных материаловдля публикации в федеральных изданиях.
В целях организации информационногообмена между структурными подразделениями областной администрации,муниципальными образованиями области и органами власти регионов экономическогоЦентра России
осуществляется выпускинформационно-правового периодического издания «Вестник администрации Тульскойобласти», периодических электронных бюллетеней «Опыт регионов» и «В Туле и области».
Подготовка этих материалов включает всебя разработку тематики и композиционной структуры каждого выпуска,стилистическое и техническое редактирование материалов.
Основополагающими принципами организациивыпуска информационных материалов являются:
— соответствие задачам, решаемымместными органами власти;
— оперативность и достоверностьпредоставляемой информации;
— читабельность выпускаемыхматериалов (техническая грамотность, доходчивость изложения, лаконичность).
Необходимо автоматизировать работуконсультанта, который от Центраправительственной связи (ЦПС) по Тульской области регулярно получает объемныймассив информации, основанный на публикациях СМИ различных регионов. Передспециалистом департамента стоит задача переработать его до читабельного объемаи удобной для пользователей формы.
/>/>Должностная инструкция консультантаотдела технологий отображения информации
1. Эффективноорганизует служебную деятельность во взаимосвязи с государственными органами иорганами местного самоуправления Тульской области, государственными имуниципальными служащими Тульской области, организациями, гражданами.
2. Владеетсовременными средствами, методами и технологией работы с информацией идокументами.
3. Владееторгтехникой и средствами коммуникации.
4. Разрабатываетпроекты законов и иных нормативных правовых актов по направлению деятельности.
5. Ведетслужебный документооборот, исполняет служебные документы, подготавливаетпроекты ответов на обращения организаций, граждан.
6. Систематизируети подготавливает аналитический, информационный материал, в том числе длясредств массовой информации.
7. Осуществляет сбор, обработку ипредоставление информации о деятельности региональных и муниципальных органоввласти области в виде информационных (электронных и печатных) бюллетеней,сборников, буклетов и т.д.
8. Подготавливает материалы для сайта(портала) администрации Тульской области.
9. Определяет тематику, срокипредоставления и оформления аналитических и иных материалов, размещаемых вофициальном информационно-правовом издании «Вестник администрации Тульскойобласти», электронных информационных бюллетенях и на сайте администрацииобласти.
2.3 Описаниеавтоматизируемых функций и схемы функциональной структуры АИС «Классификатор»
Используя методологию IDEF0при проектировании АИС «Классификатор» была получена ее функциональная модель.
Главной функцией системы (А0) являетсяавтоматизация процесса классификации информационных сообщений СМИ. Дляреализации данной функции необходимо реализовать следующие функции:
А0 Автоматизироватьпроцессклассификации информационных сообщений СМИ
А1 Обработатьинформационные сообщения СМИ
А11 Открыть файл
А12 Считатьинформационные сообщения из файла
А13 Сформироватьсообщения СМИ для занесения в информационную базу
А2 Вести информационнуюбазу
А21 Создатьинформационную базу
А22 Добавить запись
А23 Изменить запись
А24 Удалить запись
А25 Сохранить запись
А3 Настроить параметры
А31 Определить каталогс файлами
А32 Задать расширениефайлов
А33 Настроить параметрыклассификации
А4 Выполнятьклассификацию информационных сообщений СМИ
А41 Найти запись поразличным ключам словаря
А42 Классифицироватьинформационных сообщений СМИ
А43 Выдавать результатыклассификации
А5 Формировать отчеты
Дерево узлов,разработанной модели представлено на рисунке 2.2. Контекстная диаграмма А–0 иее дочерние диаграммы представлены в приложении Б.
/>
2.4 Описание постановкизадачи
Целью создания системы является автоматизация процесса классификацииинформационных сообщений СМИ. Комплекс задач, реализуемых разрабатываемойсистемой, должен обеспечивать удобную,быструю и качественную работу консультанта ОТОИ.
Основными задачамиАИС «Классификатор» будут следующие:
— создание информационной базы дляавтоматизированного процесса классификации статей к той или иной категории;
— загрузка информационных сообщений СМИв базу;
— обработка текстовой и цифровойинформации с использованием метода нечеткого поиска;
— классификация информационныхсообщений с использованием метода ранжирования;
— открытость структуры рубрикатораи словаря, то есть возможность оперативной их корректировки;
— формирование рекомендаций для принятиярешений;
— формирование отчетов.
Входной информацией для реализациизадач системы являются:
— информационные сообщения СМИ;
— параметры классификации;
— рубрикатор тем;
— словарь.
Выходными данными являются результатыклассификации информационных сообщений СМИ.
Выходными документами являются:
— отчет по результатам классификации;
— отчет по обработанным сообщениям СМИ.
3 ИНФОРМАЦИОННОЕОБЕСПЕЧЕНИЕ
3.1 Перечень входныхданных
Для разработки АИС «Классификатор»используются следующие входные данные:
— информационные сообщения СМИ;
— параметры классификации;
— рубрикатор тем;
— словарь.
3.2 Перечень выходныхданных и документов
Выходными данными будут результатыклассификации информационных сообщений СМИ.
Выходными документами будут:
— отчет по результатам классификации;
— отчет по обработанным сообщениям СМИ.
3.3Описание информационного обеспечения АИС «Классификатор»
3.3.1 Описаниеструктуры входных информационных сообщений и выходных данных и документов
Информационные сообщения СМИподготавливаются в виде текстовых файлов.
Текстовыефайлы формируются в формате MS DOS в кодировке ASCII.
Имя текстового файла состоит изсобственного имени, занимающего 6 знакомест, и 3 символов расширения. Порядокобразования имени текстового файла имеет следующую структуру:
ГГЧЧММ.smi,
где ГГ — наименование города, из которого пришло информационное сообщение (2знакоместа);
ЧЧ — число месяца (2 знакоместа), закоторое подготовленоинформационное сообщение;
ММ — месяц, в котором подготовлено информационноесообщение;
smi – расширение информационногосообщения СМИ.
3.3.2 Описаниеструктуры информационной части сообщения СМИ
Текстовый файл сформирован без разбиенияна страницы с сохранением оригинальной структуры публикаций (абзацы, красныестроки и др.).
Всостав текстового файла может входить несколько информационных сообщений.
При формировании текстового файла с 1-ойпозиции на отдельной строке без пропуска строк введена информационная частьсообщения.
Информационная часть сообщения имеетследующую структуру:
АО ХХХХХХХ
==/СМИ
01/ХХХХ
02/ДДММГГ
03/ХХХХХХХХ
04/ХХХХХХХХ
05/ХХ
06/ключевые слова и текст статьи
07/наименование статьи
08/автор статьи
===
где АО ХХХХХХХ – адрес отправителя;
АО — заглавные буквы русского алфавита;
ХХХХХХХ — семизначный код отправителя.
Междубуквами (АО) и кодом допускается один пробел.
==/ — признак начала информационнойчасти (два символа «равно» и слеш — справа налево);
СМИ — принадлежность сообщения СМИ.
Каждоеинформационное сообщение отделяется этим набором символов.
Далее заполняются атрибуты с 1-й позициипо 8-ю:
01/ — четырехзначный кодисточника информации (код или наименование газеты);
02/ — дата публикации вформате ДДММГГ;
03/ — шести- иливосьмизначный код региона;
04/ — наименованиенаселенного пункта (или его 8-разрядный код), о котором пишется в статьегазеты.
Атрибут заполняется заглавными буквамибез указаний г., п., пгт. Под населенным пунктом подразумевается город, село,но не район области, не район города.
05/ — двузначный кодотрасли, о которой идет речь в соответствии с классификатором отраслей. Если встатье газеты затрагивается нескольких отраслей, то код каждой из них даетсяотдельной строкой с указателем — 05/;
06/ — ключевые слова итекст статьи.
Первая строка атрибута – ключевые словапо тематике, отраженной в статье. Ключевые слова отделяются друг от другаточкой. Например:
Бюджет. Задолженность.
Содержание статьи, отражающее существозатронутой проблемы. Оно имеет неограниченную длину, но с учетом ограниченийобъема сообщений в сетях. Продолжение статьи во второй и последующих строкахначинается с 4-й позиции, длина строки должна быть не более 55 знаков.
07/ — наименование статьи.Заносится в атрибут полностью, как в оригинале статьи газеты;
08/ — автор статьи.
Все значения атрибутов заносятся сразуже после слеша без пропуска пустых знакомест.
=== — признак завершения информационногосообщения (три символа «равно»).
Пример заполнения информационной части сообщения приведен вприложении В.
3.3.3 Основныетребования, предъявляемые к подготовке сообщений СМИ в части орфографии
К подготовке информационных сообщенийСМИ предъявляются следующие требования:
1. Текст сообщения подготавливается в виде текстового файла.
2.Информация в текстовом файле размещается в одну колонку и не форматируется.
3. Текстовый файл формируется безразбиения на страницы с сохранением оригинальной структуры публикаций (абзацы,красные строки и др.).
4. Информация в текстовый файл вводитсяпрописными и строчными буквами как в статье газеты.
5. В текстовый файл вводятся наименованиерубрики, подзаголовок (если они присутствуют) и текст статьи отдельнымиабзацами.
6. Абзацы, перечень пунктов и т.п. втексте не отделяются «пустой» строкой.
7. Русские слова текста не должнысодержать букв латинского алфавита; римские цифры — русских букв.
8. Текст не должен содержатьнезаконченных предложений и обрывов в словах.
9. В текстовый файл не заносятся:
— рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графическиематериалы;
— название города, стоящее в начале илив конце текста статьи, так как оно заносится в атрибут 04/;
— спецсимволы, отсутствующие наклавиатуре ПЭВМ.
Если в конце текста статьи имеетсяссылка на источник, из которого напечатан текст, то она заносится на первойстроке перед текстом. Например:
По материалам российского радио.
10. Если к статье газеты даетсяаннотация или комментарий, выделенные
другим шрифтом, заключенные или незаключенные в рамку, то они вводятся после текста статьи в обычном шрифте безрамки, отделяя словами:
Комментарий (фамилия автора).
11. Фамилия от инициалов отделяетсяпробелом.
12. Слова текста, напечатанные вразрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны бытьполными без разрывов и сокращения.
13. Аббревиатуры вводятся без точек иразрядки.
14. Сокращения типа: т.д., т.п., с.г.,т.г. вводятся без разрядки.
15. В числах между цифрами не должнобыть пробелов.
16. Римские цифры вводить на латинскомрегистре большими буквами. Например: XXIV.
17. Спецсимволы, встречающиеся вматематических формулах, должны быть заменены на буквы русского или латинскогоалфавита.
18. Химические элементы, единицыизмерения, математические выражения и прочая информация вводится в текстовыйфайл в соответствии с таблицей значений (приложение Г).
19. Примечание (сноска) вводится втекстовый файл с красной строки после текста, отделяется чертой. Например:
_________________
(прим.2) — …
*) ….
20. Если в газете под однимнаименованием несколько сообщений из разных регионов, то каждое сообщениеоформляется отдельным текстовым файлом.
21. Если статья газеты имеет продолжениев следующем номере газеты, то ее текстовый файл готовится обычным способом, а вконце текста с красной строки вводится: «Продолжение в N». Если статья является продолжением предыдущего номера газеты, то в началетекста вводится: «Начало в N ».
22. Текст сообщения должен быть отредактирован.Все спецсимволы в
тексте должны быть заменены следующимобразом:
— кавычки («») на кавычки (“”);
— номер (№) на номер (латинская букваN);
— длинное тире (¾)на тире (-);
— буква (ё) на букву (е);
— апостроф (‘) на твердый знак.
Характерными ошибками в текстовых файлахявляются:
— орфографические ошибки в русскихсловах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);
— слова написаны слитно без пробела;
— в сложных словосочетаниях пропускдефиса;
— после сокращения и знаков препинанияотсутствует пробел;
— пропуск точки в сокращении и вединицах измерения;
— вместо запятой стоит точка и наоборот;
— вместо номера (латинской буквы N)стоит другой символ.
Параметры классификации включают в себязадание количества совпадений по названию статьи, по тексту статьи и поключевым словам текста статьи. Здесь же задается порог нечеткого поиска впроцентах от 40 до 100. Чем выше процент, тем четче поиск.
Рубрикатор тем представляет собойперечень рубрик на бумажных носителях и имеет следующую структуру:
— рубрики 1-го уровня;
— рубрики 2-го уровня, раскрывающие сутьрубрик 1-го уровня;
— рубрики 3-го уровня, раскрывающие сутьрубрик 2-го уровня;
— рубрики 4-го уровня, раскрывающие сутьрубрик 3-го уровня.
Рубрикам 3-го и 4-го уровнейсоответствуют свои словари, представляющие собой перечень ключевых слов.Рубрикатор тем и словарь приведены в приложении Д.
Результаты классификации информационныхсообщений СМИ содержат код рубрики, наименование рубрики, количество совпаденийпо названию, тексту, ключевым словам статьи, и окончательный результат
классификации.
Отчет по результатам классификациисодержит данные по каждой статье: дату, выбранный файл, название статьи,ключевые слова статьи, автора, текст статьи, количество совпадений по названию,тексту и ключевым словам статьи.
Отчет по обработанным сообщениям СМИсодержит результаты классификации по каждому файлу и включает: дату, названиестатьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.
Структура выходных данных и документовпредставлена в приложении Е.
3.4 Описаниеорганизации информационной базы
3.4.1Описание организации внутримашинной базы
Все сведения о сообщениях СМИ хранятся вбазе данных, которая состоит из следующих таблиц:
— статьи;
— газета;
— регион;
— отрасль;
— справочник отраслей;
— рубрики;
— классификация;
— рубрикатор 1;
— рубрикатор 2;
— рубрикатор 3;
— рубрикатор 4;
— словарь рубрикатора 3;
— словарь рубрикатора 4.
Их описание представлено в таблицах 3.1– 3.13 соответственно.
Таблица 3.1 – Таблица «Статьи»Первичный ключ Атрибуты Тип данных Описание Код газеты Числовой Длина 2 символа Код региона Числовой Длина 8 символов Код статьи Счетчик Последовательное значение Уникальный ключ Наименование Текстовый Длина 150 символов Ключевые слова Текстовый Длина 255 символов Текст Поле MEMO Дата Дата/время Краткий формат даты Автор Текстовый Длина 150 символов Файл Текстовый Длина 255 символов Классифицировано Логический Истина/ложь
Таблица 3.2 – Таблица «Газета»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код газеты Числовой Длина 2 символа Наименование Текстовый Длина 150 символов
Таблица 3.3 – Таблица «Регион»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код региона Числовой Длина 8 символов Наименование региона Текстовый Длина 150 символов
Таблица 3.4 – Таблица «Отрасль»Первичный ключ Атрибуты Тип данных Описание Составной ключ Код статьи Числовой Длинное целое Код отрасли Числовой Длинное целое
Таблица 3.5 – Таблица «Справочникотраслей»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код отрасли Числовой Длинное целое Наименование Текстовый Длина 150 символов
Таблица 3.6 – Таблица «Рубрики»Первичный ключ Атрибуты Тип данных Описание Составной ключ Код рубрики Числовой Длинное целое Код статьи Числовой Длинное целое Уровень рубрики Числовой Длинное целое
Таблица 3.7 – Таблица «Классификация»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код статьи Числовой Длинное целое Код рубрики Числовой Длинное целое Уровень рубрики Числовой Длинное целое По названию статьи Числовой Длинное целое По ключевым словам Числовой Длинное целое По тексту статьи Числовой Длинное целое Результат Текстовый Длина 50 символов
Таблица 3.8 – Таблица «Рубрикатор 1»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код_1 Счетчик Последовательное значение Индекс_1 Числовой Длинное целое Наименование_1 Текстовый Длина 150 символов
Таблица 3.9 – Таблица «Рубрикатор 2»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код_2 Счетчик Последовательное значение Индекс_2 Числовой Длинное целое Наименование_2 Текстовый Длина 150 символов Код_1 Числовой Длинное целое
Таблица 3.10 – Таблица «Рубрикатор 3»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код_3 Счетчик Последовательное значение Индекс_3 Числовой Длинное целое Наименование_3 Текстовый Длина 150 символов Код_2 Числовой Длинное целое
Таблица 3.11 – Таблица «Рубрикатор 4»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код_4 Счетчик Последовательное значение Индекс_4 Числовой Длинное целое Наименование_4 Текстовый Длина 150 символов Код_3 Числовой Длинное целое
Таблица 3.12 – Таблица «Словарьрубрикатора 3»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код_3 Числовой Длинное целое Слова Текстовый Длина 255 символов
Таблица 3.13 – Таблица «Словарь рубрикатора4»Первичный ключ Атрибуты Тип данных Описание Уникальный ключ Код_4 Числовой Длинное целое Слова Текстовый Длина 255 символов
Данные таблицы объединены винфологическую модель, схема которой представлена на рисунке 3.4.1.
/>
Рисунок 3.4.1 – Инфологическая модельбазы
Иерархия заполнениятаблиц базы представлена на рисунке 3.4.2.
/>
Рисунок 3.4.2 – Иерархия заполнениятаблиц базы
4 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
4.1 Математическаяпостановка задачи классификации информационныхсообщений СМИ
Пусть даномножество статей Х, множество ключевых слов статьи W и множествоназваний статей A. Каждое множество описывается своим набором элементов:
X = {x1, x2, …, xc},
где xi – i- я статья;
c – количество статей;
W = {w1, w2, …, wc},
где wi – строка ключевых слов i-ой статьи, />;
A = {a1, a2, … ac},
где ai– название i-ой статьи, />.
Имеетсярубрикатор, состоящий из четырех уровней:
R1 = {r11, r12, … r1k},
где k – количествоэлементов рубрикатора 1;
R2 = {r21, r22, … r2l},
где l – количествоэлементов рубрикатора 2;
R3 = {r31, r32, … r3m},
где m – количествоэлементов рубрикатора 3;
R4 = {r41, r42, … r4n},
где n – количествоэлементов рубрикатора 4.
К каждому элементурубрикаторов 3-го и 4-го уровней привязаны словари со своими множествами:
D3j = {d31j, d32j, … d3yj}, />;
D4j = {d41j, d42j, … d4zj}, />,
где j – индекс элементарубрики;
y, z – количество элементов в словаре для конкретнойрубрики.
Функция нечеткогопоиска задается следующим образом:
/>
здесь U = {{X},{W},{A}};
dpqj – ключевое слово,
где j – индекс элементарубрики, /> или />;
p – уровень рубрикатора 3-й или 4-й;
q – индекс элементов в словарях D3j и D4j;
/> или />;
pн.п– порог нечеткого поиска.
Далее для каждойстатьи применяем функцию нечеткого поиска:
/>
где /> — общее количествосовпадений по i-ой статье из словаря 3-го и 4-го уровней;
/> /> ;
/>.
Затем для ключевыхслов статьи также применяем функцию нечеткого поиска:
/>
где /> общее количествосовпадений по строке ключевых слов i-ой статьи из словаря 3-го и 4-го уровней;
/> /> ;
/>.
Для названийстатей тоже применяем функцию нечеткого поиска:
/>
где /> – общее количествосовпадений по названию i-ой статьи из словаря 3-го и 4-го уровней;
/> /> ;
/>.
Далее дляотнесения каждой статьи к той или иной рубрике используется метод ранжирования.Для этого определяются границы трех интервалов:
1) статью однозначно нельзя отнести к рубрике;
2) консультант ОТОИ принимает решение о принадлежностистатьи к данной рубрике;
3) статья с заданной вероятностью относится к даннойрубрике.
Границей являетсяколичество слов, которые должны встретиться в тексте, названии статьи или всписке ключевых слов, относящихся к этой статье.
Метод ранжированиязаключается в следующем:
/>
где /> границы интервалов потексту i-ой статьи;
/>границы интервалов по строке ключевых слов i-ой статьи;
/> границы интервалов по названию i-ой статьи./> 4.2 Описание метода нечеткого поиска
Для нечеткого поиска информациииспользуется алгоритм, основанный на процентном отношении совпадения двухстрок. Процесс поиска начинается со сравнения каждого элемента одной строки скаждым элементом другой и заканчивается сравнением строк целиком. Эта процедураповторяется дважды для одной и той же пары строк. В первом случае первая строкапринимается за эталон, во втором – вторая. В процессе сравнения подсчитываетсячисло совпадений и общее число рассматриваемых случаев, после чего вычисляетсяих процентное соотношение. На основе этого соотношения принимается решение –считать найденную информацию удовлетворяющей условиям поиска или нет. Описаннаяпроцедура применяется ко всем записям информационной базы, в результатепользователь получает всю информацию, удовлетворяющую запросу.
Изменяя минимальный процент совпаденияможно уменьшать или увеличивать точность соответствия найденной информацииискомой. В данной системе используется 50% совпадения, так как (из практики)этого достаточно для нахождения информации. Схема программы поиска данных поалгоритму нечеткого поиска приведена на рисунке 4.2.1, схема программысравнения строк приведена на рисунке 4.2.2.