WWW.NET.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Интернет ресурсы
 

«В. З. Санников О СЛОВОИЗМЕНИТЕЛЬНОМ КОМПОНЕНТЕ В СИСТЕМЕ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ РУССКИХ ТЕКСТОВ1 За последние десятилетия создано множество систем автоматического морфологического ...»

В. З. Санников

О СЛОВОИЗМЕНИТЕЛЬНОМ

КОМПОНЕНТЕ В СИСТЕМЕ

АВТОМАТИЧЕСКОЙ ОБРАБОТКИ

РУССКИХ ТЕКСТОВ1

За последние десятилетия создано множество систем автоматического морфологического анализа и синтеза русских текстов.

Эту проблему можно считать решенной. Остановимся на двух

связанных с ней, но более сложных проблемах: 1) создание русского морфологического словаря большого объема; 2) пополнение словаря в интерактивном режиме. При обсуждении этих вопросов мы опираемся на многолетний опыт разработки лингвистического процессора для сложных информационных систем в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН.

1. СОЗДАНИЕ АВТОМАТИЧЕСКОГО

МОРФОЛОГИЧЕСКОГО СЛОВАРЯ

РУССКОГО ЯЗЫКА

Морфологический словарь русского языка составлен в Институте проблем передачи информации РАН и использует специально созданный аппарат формальной морфологии (см. Лингвистический процессор для сложных информационных систем. Москва: «Наука», 1992). Первоначальный объем Морфологического словаря не превышал 15.000 статей. С выходом в свет «Грамматического словаря русского языка» А. А. Зализняка появилась возможность резко увеличить объем Морфологического словаря, использовав материалы, содержащиеся в словаре Зализняка. С этой целью были разработан комплекс правил автоматического преобразования статей «Грамматического словаря» в морфологические статьи на принятом нами формальном языке.



Работа выполнена при поддержке Российского фонда фундаментальных исследований (грант N 96-06-80346а).

В. З. Санников. О словоизменительном компоненте...

Комплекс разработанных правил (их около 600) позволил автоматически перевести в нашу форму около 9/10 статей «Грамматического словаря». Остальные статьи содержали разного рода нестандартности и потребовали трудоемкой «ручной» обработки.

Таким образом был полностью переведен на принятый в ИППИ РАН формальный язык весь материал, содержащийся в «Грамматическом словаре» А. А. Зализняка, включающем около

100.000 слов. Существенно указать, что преобразование словарясправочника, предназначенного для человека, в словарь для автоматической обработки текстов заставило изменить не только форму записи, — существенно менялся и порядок статей, и группировка материала, и трактовка некоторых морфологических категорий.

Вот важнейшие из этих изменений.

1. В «Грамматическом словаре» А. А. Зализняка парадигмы задаются соответствующими образцами. Так, глаголы словоизменительного типа 2 на -овать, со схемой ударения а задаются перечнем форм (не делящихся на морфы!): рисовать, рисую,..., рисовала,..., рисовавшийся,... и т. д. Этот способ, удобный для пользователя-человека, крайне неудобен при автоматической обработке текстов. Нами для русского языка в словоформах выделяются следующие пять позиций (cегментов): 1) основа; 2) тема;

3) суффикс; 4) окончание; 5) частица. Каждому сегменту приписываются некоторые морфологические характеристики (в частном случае цепочка характеристик может быть пустой). Например, в словоформе рисовавшуюся выделяются следующие сегменты:

основа: рис (V,несов) тема: ова суффикс: вш (прич, прош) окончание: ую (ед, жен, вин) частица: ся (страд).

2. В «Грамматическом словаре» слова даются в о б р а т н о м а л ф а в и т н о м п о р я д к е (т. е. по исходам слов — первыми даются слова, оканчивающиеся на букву а, затем слова, оканчивающиеся на букву б, и т. д.), в нашем Морфологическом словаре — в прямом алфавитном порядке.

3. В «Грамматическом словаре» формы несовершенного и совершенного вида глагола, напр. спрашивать и спросить задаются (со взаимными отсылками) отдельными статьями, в разных частях словаря. У нас эти две статьи объединяются в одну. В случае вариативности объединяются также и соответствующие морфолоВ. З. Санников. О словоизменительном компоненте...

гические варианты. Так, четыре статьи словаря Зализняка — поворачивать, повертывать, поворотить, повернуть — объединены в нашем словаре в одну, задающую все 470 форм этого глагола.

4. В «Грамматическом словаре» для существительных типа кед, грузин, которые чаще употребляются во множественном, чем в единственном числе, вводится по две статьи, например: кеды (задает формы множ. числа) и кед (задает формы и ед., и множ.

числа). В Морфологическом словаре дублирование устранено, вместо двух статей вводится одна — кед, задающая формы ед. и мн. числа.

5. В «Грамматическом словаре» формы сравнительной степени прилагательных запрещаются только в том случае, если фонетический состав слова не позволяет их образовать, напр., в случае прилагательных на -ск, -цк (русский, молодецкий). Этот «либерализм» словаря Зализняка мы считаем его достоинством, однако при автоматической обработке текстов он приводит к нежелательным последствиям. П р и а н а л и з е словоформы типа двухлетнее получают три разбора, последний из которых ошибочен:

1) им. ед. средн., 2) вин. ед. средн., 3) сравнит. степень. П р и с и н т е з е парадигмы многих прилагательных оказываются загружены «мертвыми душами» — формами типа абажурнее, абажурен (для прилагательного абажурный). В нашем словаре эти и многие другие формы прилагательных, признаваемые А. А. Зализняком потенциально возможными, запрещены.

6. Формы настоящего и будущего времени глагола (традиционно разграничиваемые) имеют одинаковые окончания (у/ю в 1-ом лице ед. числа, ешь/ишь во 2-ом лице ед. числа и т. д.) Поэтому и тем, и другим формам приписывается у нас одна и та же временнаZя характеристика — «непрошедшее время» (непрош), а отличаются они характеристикой вида (спрашиваю, читаю — непрош, несов; спрошу, прочитаю — непрош, сов).

7. Классификация слов по частям речи в «Грамматическом словаре» Зализняка и в нашем словаре в основном совпадает. Вот случаи, где трактовка А. А. Зализняка (а также и традиционно существующая в русистике трактовка) не совпадала с нашей и была нами изменена:

а) числ-п (порядковые числительные, типа третий, девятый) имеют те же окончания, что и прилагательные, и трактуются нами как прилагательные (A);

б) те из числительных (числ), которые, в отличие от «обычных» числительных, сочетаются с существительными, обознаВ. З. Санников. О словоизменительном компоненте...

чающими вещество, ср.: много (мало, немножечко) молока, но не:

*девять молока, мы трактуем как наречия (ADV);

в) Местоимения (точнее — местоимения-существительные) типа я, ты, он отнесены у нас к существительным (S), а мс-п (местоименные прилагательные) типа мой, наш, весь — к прилагательным (A);

г) Единицы, которые в словаре Зализняка трактуются как вводные (вводн.) или предикативы (предик.) — типа хорошо, плохо, трактуются нами как наречия (ADV);

д) Превосходную степень прилагательных, даваемую А. А. Зализняком в отдельных статьях, мы включаем в статьи соответствующих прилагательных (красивейший — форма прилагательного красивый);

е) Сравнительная степень наречий, трактуемая А. А. Зализняком как особая часть речи (сравн.), рассматривается нами как форма соответствующего наречия, напр. позже — форма наречия поздно.

При переводе материала, содержащегося в «Грамматическом словаре» А. А. Зализняка, произошло существенное сокращение общего числа статей (со 100.000 до 87.000). Это связано с тем, что (как было указано раньше) нередко несколько статей Зализняка (типа поворачивать — повертывать — поворотить — повернуть; кед — кеды; красивый — красивейший; поздно — позже) сливались нами в одну статью.

Кроме материалов «Грамматического словаря» наш Морфологический словарь включает около 6.000 статей, которых нет в «Грамматическом словаре». Это, главным образом, терминологическая лексика и географические названия. В целом русский морфологический словарь разрабатываемого нами многоязычного лингвистического процессора включает более 93.000 статей.

Все слова снабжены пословными английскими переводными эквивалентами. Резкое расширение объема морфологического словаря увеличивает мощность лингвистического процессора. Кроме того, словарь в сочетании с имеющимися у нас программами морфологического анализа и синтеза представляет собой самостоятельный продукт, который может быть использован в системах пословного машинного перевода, в информационно-поисковых системах, в системах обучения русскому языку и т. д.





В. З. Санников. О словоизменительном компоненте...

2. СИСТЕМА ПОЛУАВТОМАТИЧЕСКОГО

ПОПОЛНЕНИЯ РУССКОГО

МОРФОЛОГИЧЕСКОГО СЛОВАРЯ В

ДИАЛОГОВОМ РЕЖИМЕ

Необходимость системы пополнения морфологического словаря очевидна: как бы ни велик был имеющийся морфологический словарь, в процессе автоматической обработки текстов постоянно возникает потребность пополнить его за счет новых слов (в первую очередь — имен собственных и специальной терминологии). Крайне желательно предоставить пользователю (в том числе такому, который не имеет лингвистического образования и/или незнаком с формальной моделью русской морфологии!) возможность самостоятельно пополнять морфологический словарь. Для решения этой задачи как раз и разработана система полуавтоматического пополнения русского морфологического словаря.

Система создавалась с учетом двух требований, зачастую противоречащих друг другу: 1) лингвистическая содержательность, достаточная точность результатов; 2) удобство для пользователя (как уже говорилось, это любой человек, полностью владеющий русским языком, точнее, его морфологической системой). Самый простой способ создания морфологического словаря — построение пользователем полной парадигмы вводимого слова. Однако этот способ чрезвычайно громоздок и потому неудобен для пользователя. Достаточно сказать, что полная парадигма многих прилагательных включает 60 форм, а глаголов — 235 форм.

Обычно для облегчения задачи используют о б р а з ц ы: для нового, вводимого в словарь слова пытаются найти в словаре максимально похожее по буквенному составу правой (конечной) части. Но — внешность обманчива, и этот способ неизбежно приводит к многочисленным ошибкам. Так, одуш. существительные муж. рода стриж, страж, сторож похожи, однако использование одного из них как образца для морфологического описания других приведет к ошибкам, ср.: стриж-ом, но: страж-ем, сторож-ем; стриж-и, страж-и, но: сторож-а. Точно так внешне похожие глаголы въезжать, визжать и разжать имеют разные парадигмы (ср.: въезжаю, въезжаешь, въезжает,..., но: визжу, визжишь, визжит,...; но: разожму, разожмешь, разожмет,...).

В данной работе был принят другой подход. После предварительного тщательного анализа русской морфологической системы

В. З. Санников. О словоизменительном компоненте...

были выделены «диагностирующие формы» (ДФ), т.е. формы слова, совокупность которых позволяет однозначно восстановить

1) его парадигму и 2) чередования в основе. Именно эти формы (и только они) должны быть образованы пользователем. Суммарное число ДФ для всех частей речи равно в нашей системе 14.

Естественно, что состав ДФ различен для разных частей речи — существительных, прилагательных, глаголов, наречий. Более того. Количество и состав ДФ неодинаков и для слов, относящихся к одной части речи, напр., для существительных. Стремясь для удобства пользователя максимально сократить число ДФ, мы использовали понятие «морфологической сложности слова». Для создания морфологической статьи «простых» слов достаточно минимального числа форм (и, соответственно, минимального числа обращений к пользователю). Так, для морфологического описания больших групп прилагательных (типа складной, заводской, математический, ньютонов, вьющийся) достаточно одного обращения к пользователю: «Образуйте форму именит. падежа ед. числа муж. рода. Образец: новый, московский, лапласов». Другие прилагательные, а также все существительные и глаголы требуют уже большего числа обращений к пользователю. Так, существительные типа полька, пчела требуют образования (кроме именит. падежа ед. числа) также и формы вин. множ. Эта ДФ позволяет решить сразу три задачи: 1) определить, является ли существительное одушевленным или неодушевленным (вижу полек-, но: вижу пил-ы); 2) выделить окончание вин. падежа мн.

числа, ср.: (вижу) сад-ы, но: (вижу) город-а; 3) получить сведения для последующего (автоматического) определения чередования в основе — путем сопоставления двух диагностирующих форм (ДФ) — формы им, ед и формы вин, мн, ср.: станок — станк-и; польк-а — полек. Для существительных с основой, оканчивающейся на шипящую или ц, необходимо образование еще одной ДФ — формы твор, ед, ср.: (доволен) лыж-ей, но: барж-ой;

товарищем, ранцем, но: борщом, огурцом. Для всех одушевленных существительных мужского рода оказывается необходимым также образование именит. падежа мн. числа, ср.: страж-и, но:

сторож-а, граждан-е (для одушевленных существительных жен.

рода в образовании этой ДФ нет необходимости, поскольку для них окончание им. мн. всегда равно -и или -ы; что касается неодушевленных существительных всех родов, то для них форма имен. мн. совпадает с формой вин. мн., уже образованной ранее).

И т. д. и т.п.

В. З. Санников. О словоизменительном компоненте...

Работа пользователя построена следующим образом. Пользователь указывает, с какой частью речи он будет работать (при этом кроме списка частей речи ему предъявляются и соответствующие образцы). В соответствии с этим система обращается к нему с просьбой образовать (по образцам) некую ДФ. Ответ анализируется системой, выделяется окончание слова и определяется вид основы (т. е. буквенный состав конца основы). В случае заведомо неправильного ответа, когда пользователь указал для ДФ окончание, которое в этой форме невозможно (точнее: отсутствует в нашем списке окончаний данной ДФ), система сообщает об ошибке и просит ее исправить. Подобное сообщение будет выдано, например, если пользователь в качестве формы имен. падежа множ. числа существительного житель укажет форму жителей или житель, — поскольку в списке окончаний имен. множ. (и, ы, а, я, е) нет окончаний ей, й, ь. Дальнейшая стратегия (после исправления ошибок) строится с учетом свойств образованной пользователем ДФ — состава ее окончания и основы. Для «простых» слов (типа приведенных выше прилагательных) с помощью таблиц определяется парадигма слова, «сложные» слова требуют повторных обращений к пользователю.

В результате работы на экран выводится морфологическая статья на формальном языке, разработанном в Лаборатории компьютерной лингвистики ИППИ РАН. Запись статей имеет чрезвычайно компактный вид. Так, статья глагола включать, задающая 235 форм несов. и сов. вида, имеет след.

вид:

включ|ать хар:V,осн:= т:302(т1:‘а’несов) т:365 Поскольку для рядового пользователя эта запись совершенно неинформативна (без обращения к спискам стандартных объектов нашей системы), на экран по его просьбе может быть выдана парадигма слова. Она включает все формы слова за исключением причастий и форм превосходной степени прилагательных: для форм превосходной степени, а также для каждого причастия (как полного, так и краткого) выдается лишь один «полномочный представитель» — форма имен. падежа ед. числа муж. рода. Так, в парадигму прилагательного красивый будет включена форма красивейший; в парадигму глагола включать — формы включающий, включающийся, включаемый, включаем, включавший, включавшийся, включивший, включенный, включен. Сокращенной парадигмы вполне достаточно для определения правильности созданной морфологической статьи, а число выводимых на экран форм резко сокращается (для приведенного глагола включать — В. З. Санников. О словоизменительном компоненте...

с 235 до 38), что, бесспорно, удобно при просмотре их пользователем.

В случае, если пользователь обнаружил в парадигме ошибки или же система не смогла построить морфологическую статью, она выдает пользователю сообщение о нестандартности парадигмы слова и ставит его перед выбором: либо обратиться к специалисту-лингвисту, либо самому образовать «вручную», по образцам, формы слова.

Образование морфологической статьи «вручную» не предполагает образование пользователем в с е х ф о р м, например, всех 235 форм для глагола включать. Для сокращения числа образуемых форм, во-первых, используется введенное выше понятие сокращенной парадигмы (для каждого вида причастий пользователь образует лишь одну форму из 27: имен. ед. муж. рода). Вовторых, может быть существенно сокращено число даже тех глагольных форм, которые входят в сокращенную парадигму: из 6 личных форм непрош. времени достаточно образовать 3 (1-е ед., 3-е ед., 3-е мн.), остальные личные формы выводятся из образованных; из 4 форм прош. времени достаточно образовать 2 (муж.

ед. и жен. ед.), из 2 форм повелительного наклонения — одну (форму ед. числа). Пользователь освобождается также от образования всех форм страдательного залога.

Описанная система пополнения русского морфологического словаря в интерактивном режиме реализована на IBM-совместимом персональном компьютере программистом И. Л. Сегаловой.

Система отлажена и находится в эксплуатации.

ЛИТЕРАТУРА Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин, А. В. Лазурский, Н. В. Перцов, В. З. Санников, Л. Л. Цинман. Лингвистическое обеспечение системы ЭТАП-2. Москва: «Наука», 1989.

Грамматика русского языка. Т. I-II. М., Изд. АН СССР, 1960.

А. А. Зализняк. Грамматический словарь русского языка. Москва:

«Русский язык», 1977.

Лингвистический процессор для сложных информационных систем.

Отв. редактор — Л. П. Крысин. Москва: «Наука», 1992.

Похожие работы:

«Секция 2 ЭНЕРГЕТИКА: ЭФФЕКТИВНОСТЬ, НАДЕЖНОСТЬ, БЕЗОПАСНОСТЬ В советском союзе уже пытались вводить установки на аммиаке, но от них в свое время отказались, так как развивали традиционную энергетику (ПТУ, сейчас ПГУ). Однако, в связи с возрастающей потребностью в эн...»

«1. Среда EWB 1.1 Интерфейс (элементы диалоговой среды пользователя). 1.1.1 Внешний интерфейс пользователя Electronics Workbench Рисунок 1 – Внешний вид экрана компьютера при работе с программой EWB Приложение Electronics Workbench представляет собой средство программной разработки...»

«© Современные исследования социальных проблем (электронный научный журнал), Modern Research of Social Problems, №3(47), 2015 www.sisp.nkras.ru DOI: 10.12731/2218-7405-2015-3-6 УДК 159.923.35 ИССЛЕДОВАНИЕ ФАКТОРОВ, СПОСОБСТВУЮЩИХ РАЗВИТИЮ ТЯЖЕЛОЙ СТЕПЕНИ АД...»

«УДК 004.9 ББК 77.056с.я92 О-23 Stephen O’Brien THE ULTIMATE PLAYER’S GUIDE TO MINECRAFT Authorized translation from the English language edition, entitled THE ULTIMATE PLAYER’S GUIDE TO MINECRAFT, 3rd Editi...»

«Установка и сборка NetShelter CX Монтажные шкафы ns1435a This manual is available in English on the APC Web site (www.apc.com). Dieses Handbuch ist in Deutsch auf der APC Webseite (www.apc.com) verfgbar. Este manual est disponible en espaol en la pgina web de APC (www.apc.co...»

«Международный союз электросвязи СБОРНИК РУКОВОДЯЩИХ УКАЗАНИЙ НА ОСНОВЕ ПРИМЕРОВ ПЕРЕДОВОГО ОПЫТА ГСР 2003 2013 СБОРНИК РУКОВОДЯЩИХ УКАЗАНИЙ НА ОСНОВЕ ПРИМЕРОВ ПЕРЕДОВОГО ОПЫТА ГСР Принят глобальным сообществом регуляторных органов на ежегодном Глобальном симпозиуме для регуляторных органов (ГСР), проводимом Бюро развития электросвязи...»

«Договор доверительного управления № _ г. Саратов "" 201_ г. ООО "ДОХОДНЫЙ ДОМ ИНВЕСТОРА" (далее – "Доверительный управляющий"), в лице Генерального директора _, действующего на основании Устава, с одной стороны,...»

«1. Токарская В. П. (1964) Язык малинке (мандиго). Москва: "Наука".Языки народов Азии и Африки 2. Санжеев Г. Д. (1959) Современный монгольский язык. Москва: Издательство восточной литературы. Языки зарубежного Востока и Африки 3. Дмитриев Н. К. (1960) Турецкий язык Москва: Издате...»

«УТВЕРЖДАЮ: УТВЕРЖДАЮ: Председатель Правления ГОО Директор МБ ОУ ДОД "НГК "Алатау" "ВСЦ "Патриот" А.Н. Малькова А.В. Симонов "_" 2015 г. "_" 2015 г.Согласовано: Директор МАОУ ДОД "ДЮСШ "Грань" А.Н. Конев "_" _2015 г. ПОЛОЖЕНИЕ о Фестивале по скалолазанию 1. Классификация соревно...»








 
2017 www.ne.knigi-x.ru - «Бесплатная электронная библиотека - электронные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.