Московский Автомобильно-Дорожный Институт (Государственный Технический Университет)




Скачать 146.24 Kb.
НазваниеМосковский Автомобильно-Дорожный Институт (Государственный Технический Университет)
Дата публикации26.06.2015
Размер146.24 Kb.
ТипДокументы
5-bal.ru > Химия > Документы

Модели лингвистического транслятора



Г.К. Хахалин

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет)

Россия, 125829, Москва, Ленинградский проспект, д. 64

e-mail: khakhalin@got.mmtel.ru

Ключевые слова: лингвистический транслятор, грамматическая модель, интерпретационная модель, модель проблемной области, естественный язык, синтаксические правила, гиперграфы, система продукций, языки представления знаний, естественный язык

Наполнение лингвистической модели определяется используемым подмножеством естественного языка и проблемной областью, а структура модели – соответствующими языками представления знаний и реализуемыми схемами трансляции. Лингвистическая модель разделяется на грамматическую и интерпретационную модели и модель предметной области. Первая и третья модели представляются в виде концептуального гиперграфа, а вторая – в виде продукционной системы. Такая организация лингвистической модели позволяет осуществлять трансляцию не только простых полных ЕЯ-предложений, но и элементов связного текста. Она также допускает реализацию спектра схем трансляции в зависимости от сложности предложений и решаемых задач.

1. Введение
При разработке метода контекстного фрагментирования, реализованного в лингвистическом трансляторе [1-2], c самого начала предполагалось следующее. Возможность отделимости задачи лингвистической трансляции от других задач общения на естественном языке (ЕЯ) и от задач вычислительной системы, которая использует результаты трансляции; наличие достаточно мощных средств описания и фрагментации лингвистических знаний; наличие механизмов трансляции различных типов ЕЯ-предложений. Схема трансляции должна быть инвариантна относительно разных ЕЯ, подмножеств одного ЕЯ и проблемных областей; позволять динамически изменять стратегию обработки в зависимости от глубины трансляции и сложности самих ЕЯ-предложений; давать возможность (без разрушения структуры модели и алгоритма трансляции) расширять модель при включении новых конструкций ЕЯ и редуцировать ее для упрощенных подмножеств ЕЯ, проблемных областей и решаемых задач. При этом учитывается, что используемые подмножества ЕЯ составляют язык деловой прозы, обязательно включающий сложные, эллиптические и анафорические предложения с возможными искажениями и ошибками, присущими реальному ЕЯ.

Прежде чем рассмотреть модели лингвистического транслятора, определим задачу лингвистической трансляции следующим образом. Пусть заданы некоторое проблемно-ориентированное подмножество ЕЯ и М-язык, на котором описывается модель проблемной среды. Задача трансляции – преобразование некоторого текста (Т множество всех текстов подмножества ЕЯ) в некоторое описание ("текст") (М множество всех "текстов" модели проблемной среды), или на множестве текстов Т определяется отображение , позволяющее по заданному тексту построить адекватный ему текст . Под адекватностью понимается следующее. Пусть существует отображение и некоторое множество эквивалентных лингвистических преобразований . Отображение позволяет для некоторых текстов строить тексты (т.е. синтезировать тексты по описаниям ситуаций в модели проблемной среды). Тогда для по можно построить адекватный ему текст т.т.т., когда по этому тексту с помощью можно получить такое множество различных , что каждый и эквивалентен с точностью до множества .

При этом нет необходимости при постановке задачи формально определять {Пi}, а достаточно возложить задачу проверки эквивалентности текстов на эксперта. Примерами такого рода преобразований могут быть: синтезируемое предложение с другим порядком слов, с синонимическими заменами; на входное сложное предложение синтезируется несколько простых; на входное предложение с эллипсисом синтезируется полное и т.п.

Отображение (прямая трансляция) реализует лингвистический анализ, а отображение (обратная трансляция) – лингвистический синтез. В совокупности и то, и другое отображение характеризуют полную лингвистическую трансляцию. В работе рассматривается прямая трансляция.

В такой постановке транслятор "понимает" ЕЯ-текст, если он может его множественно перефразировать и в перифразах не встречаются тексты, которые не адекватны первоначально заданному (с точки зрения эксперта). Процесс перефразирования важен как с точки зрения тестирования системы, так и с позиций повышения уверенности пользователя в том, что заданный им текст понят лингвистическим транслятором правильно.

2. Лингвистическая модель
Для реализации отображения используется лингвистический транслятор, состоящий из лингвистического процессора (ЛП) и лингвистической модели (ЛМ). ЛП осуществляет трансляцию ЕЯ  М язык. ЛМ играет роль базы знаний ЛП о входном ЕЯ, М языке и о соотнесении элементов и конструкций ЕЯ с элементами и конструкциями М языка. В ЛП отображение представляется как реализация (не обязательно последовательная и полная) трех отображений: – грамматический разбор,  – семантическая интерпретация, – проблемный анализ. И для данной структуры лингвистического транслятора используются три модели: грамматическая модель ЕЯ (словарь транслятора и синтаксическая модель), модель проблемной области и модель интерпретации слов, словосочетаний и составляющих ЕЯ-текста в понятия, отношения, структуры и фрагменты модели проблемной среды. Поскольку ЛТ не имеет возможности непосредственно интерпретировать элементы ЕЯ-текста объектами реального мира, то эта интерпретация реализуется элементами модели предметной области (т.е. элементами "модели мира"), что и определяет семантику ЕЯ.

Исходя из постановки задачи и требований, предъявляемых к ЛТ, структура компонентов лингвистической модели (ЛМ) определяется выбором языков представления знаний, а ее наполнение – используемым подмножеством ЕЯ, моделью проблемной среды и процессом интерпретации.

3. Грамматическая модель
Грамматическая модель состоит из морфологического словаря и синтаксической модели.

Словарь транслятора в зависимости от словарного объема может задаваться декларативно (словарь словоформ) или процедурно (словарь основ). В первом случае все грамматические признаки словоформ задаются явно, а сам процесс морфологического анализа заключается только в поиске в словаре соответствующей словоформы. В случае задания словаря основ морфологический анализ усложняется, но результат аналогичен первому варианту. Отличием от стандартных средств задания морфологического словаря является только наличие возможных связей от словоформы или лексемы к структурам синтаксических правил. Эти связи имеют тип "входит в структуру" и служат для поиска устойчивых словосочетаний и обобщенных синтаксических правил.

Синтаксическая модель задается декларативно в виде структур синтаксических правил, погруженных в иерархию синтаксических классов.

Элементы структур синтаксических правил могут задаваться на разном уровне обобщения: от уровня словоформ до классов (частей речи). В качестве элементов этих структур могут выступать и другие структуры синтаксических правил, а также грамматические признаки типа рода, числа, лица, времени и т.д. Между элементами синтаксической модели задаются необходимые отношения различного типа: морфологические, геометрические, структурные, видовые и синтаксические. К первому типу относятся: «имеет род», «имеет число», «имеет падеж», «имеет время» и т.д. Второй тип включает: «ближайший справа», «находится слева», «следует за» и т.п. Структурные отношения включают: «имеет структуру», «входит в структуру», «является частью», «имеет часть» и т.п. Родовидовые отношения включают: «является родом», «является видом», «является элементом» и др. Синтаксическими отношениями являются отношения различного типа согласования, управления, примыкания и т.д.

Синтаксическая модель носит открытый характер, и поэтому нет никаких ограничений, как по созданию соответствующих структур правил, так и по вводу новых характеристик, необходимых для проведения синтаксического анализа. Если это необходимо, то в качестве элементов могут добавляться семантические характеристики со своим перечнем отношений.

Часть используемых отношений представляется в модели явно, и проверка заключается только в их наличии или отсутствии (например, для отношений «является видом»). Другая же часть отношений носит процедурный характер, т.е. чтобы установить существует ли заданное в синтаксическом правиле отношение между словами в предложении, необходимо выполнить некоторую процедуру. Примерами таких отношений являются геометрические и синтаксические отношения. С каждым именем такого отношения связана соответствующая присоединенная процедура. Например, если проверяется отношение "согласовано в роде" на фрагменте ЕЯ-предложения, то вызывается присоединенная процедура, которая проверяет признак "рода" у каждого слова этого фрагмента и при совпадении признака "рода" выдает положительный результат, иначе – отрицательный.

Список отношений также является открытым, и добавление нового отношения заключается только во введении нового имени в перечень отношений и/или возможно соответствующей процедуры проверки данного отношения.

Синтаксическая модель записывается на гиперграфовом языке представления знаний [3] и может быть представлена графически в виде некоторого раскрашенного ориентированного гиперграфа, фрагмент которого показан на рис. 1.

При переходе от одного ЕЯ к другому ЕЯ необходимо заменить словарь (и естественно морфологический анализатор), задать свод синтаксических правил для другого ЕЯ с соответствующим их заполнением и использовать свою систему классификации.

Д
ля синтаксического анализа разноязычного текста (в русских текстах довольно часто можно встретить английские вкрапления) достаточно объединить модели в соответствующей пропорции: русский словарь с английским словарем, а русский синтаксис с английским.

Такие переходы возможны за счет отделимости декларативного описания синтагматики от механизмов синтаксического анализа. Эта же отделимость позволяет свободно редактировать и пополнять используемую грамматику без изменений в механизме анализатора.
Рис. 1. Фрагмент синтаксической модели в виде гиперграфа

4. Интерпретационная модель
Интерпретационная модель (ИМ) задает интерпретацию слов, словосочетаний и фрагментов ЕЯ-предложения в понятия и фрагменты модели проблемной среды. Для задания ИМ используется "расширенная" система продукций Поспелова [4].

Под продукцией понимается выражение вида

(i); Q; P; A  B; N

Здесь i — имя продукции, с помощью которого данная продукция выделяется из множества продукций. В качестве имени могут выступать слова ЕЯ (словоформа, основа, лексема), знаки препинания, спецсимволы и спеццепочки, которые “вкрапливаются” в ЕЯ-тексты. Например, именами продукций могут быть "высота", "кочене", "аварийного", "?", "+", "." и т.д.

Элемент Q характеризует сферу применения продукции. Выделение таких сфер вполне соответствует разделению знаний в представлениях человека о реальной среде. Например, сферами могут быть области науки и техники или темы текстов: геометрия, тригонометрия, теория функций, космонавтика, вычислительная техника, ядерная физика, геология, медицина, семиотика и т.д.

Элемент P есть условие применимости ядра продукции. Обычно P представляет собой логическое выражение. Когда P принимает значение “истина”, ядро продукции активизируется. Если P ложно, то ядро продукции не может быть использовано. Используется для “автоактивизации” некоторых продукций, если имя продукции (т.е. слово ЕЯ) принадлежит к определенной части речи.

Основным элементом продукции является ее ядро: A B. Интерпретация ядра продукции может быть различной и зависит от того, что стоит слева и справа от знака секвенции . Обычное прочтение ядра продукции выглядит так: ЕСЛИ А, ТО В. Более сложные конструкции ядра допускают продукции "множественного" типа ЕСЛИ А1, ТО В1; ЕСЛИ А2, ТОВ2; ...;ЕСЛИ Аn, ТО Вn, ИНАЧЕ Вn+1. Могут существовать и другие интерпретации ядра продукции. В частном случае при n = 1 ядро продукции имеет вид: ЕСЛИ А1, ТО В1, ИНАЧЕ В2. Для каждого имени продукции i могут быть заданы свои “гнезда” продукций (т.е. несколько продукций под одним и тем же именем). Множество А1, А2, …, Аn, представляет собой имена структур синтаксической модели. Эти структуры проверяются на предложении с привязкой к слову i. Каждый элемент множества В1, В2, ..., Вn, Вn+1 представляет собой понятие или взаимосвязанную группу понятий (фрагмент) модели проблемной среды, соответствующих слову или словосочетанию ЕЯ-предложения, которые связаны с именем этой продукции i.

Элемент N описывает постусловия продукции. Постусловия актуализируются только в том случае, если ядро продукции реализовалось. Постусловия продукции описывают действия и процедуры, которые необходимо выполнить после реализации В. При "множественном" типе ядра ему может соответствовать упорядоченное множество постусловий.

Все части продукции, кроме ее ядра, являются факультативными.

Управление этой системой продукций осуществляется словами предложения (выбор очередной продукции определяется еще не проинтерпретированным словом предложения).

Сфера применения (тема) записывается на основе данных, представленных в словаре, а в процессе разбора предложения тема "вычисляется" по тематике всего документа (например, по ключевым словам, заданным в начале текста документа) или по предыдущим предложениям.

Условия применимости также черпаются из словаря, а при анализе слов предложения – по результатам процедуры лемматизации.

Фрагмент общей структуры интерпретационной модели представлен в таблице 1. Здесь СПJ – сфера применения (тема), <класс L> - грамматический класс слова, {Ai} – упорядоченное множество проверяемых синтаксических правил, где i – мощность множества, {Bi+1} – соответствующее множеству {Ai} множество понятий (или фрагментов) МПС.

В частном случае, если i = 0, то это ядро можно рассматривать как интерпретацию слова в определенное понятие (или связанную группу понятий) независимо ни от каких синтаксических проверок. Если же продукция представлена в виде A  , то данное слово интерпретируется в пустое понятие. Последний случай относится к структурным словам ЕЯ-текста (во многом совпадающим со служебными словами).

В продукциях ИМ задаются только имена структур (синтаксических правил), а сами они декларативно заданы в синтаксической модели.

Процесс интерпретации ЕЯ-предложения заключается в том, чтобы по анализируемым словам предложения выбрать и выполнить соответствующие продукционные правила, получив в результате фрагменты описания предложения в терминах понятий и отношений модели проблемной области.
Таблица 1.

Фрагмент общей структуры интерпретационной модели


i

Q

P

Ядро продукции A B

N

<слово 1>

<СП1>

<класс 1>

{Ai}  {Bi+1}

{PPi}




<СП2>

<класс 3>

{Ak}  {Bk+1}

{PPk}














<СПL>

<класс K>

{Ar}  {Br+1}

{PPr}

<слово k>

<СП3>

<класс 3>

{As}  {Bs+1}

{PPs}




<СП10>

<класс 12>

{Aj}  {Bj+1}

{PPj}





















<слово n>

<СП7>

<класс 5>

A  















Для простых задач (простые тексты и модели проблемных сред) ИМ упрощается. В этом случае ключевые слова переводятся в ключевые понятия, а все "пустые" слова никак не интерпретируются.

Интерпретационая модель совмещается с морфологическим словарем лингвистического анализатора исходя из общего лексикона системы. Если словарь задан в виде словаря основ, то достаточно к словарным статьям (имена у которых есть основы) "приплюсовать" соответствующие продукционные правила. Для декларативно заданного морфологического словаря такое совмещение просто и достаточно естественно.

5. Модель проблемной среды
Модель проблемной среды задается аналогично грамматической модели, где словарь понятий задан декларативно, а микро или макро ситуации описываются соответствующими семантическими структурами. Также используется иерархическая структура понятий и общие для синтаксиса и семантики базовые отношения типа "входит в структуру", "является видом" и т.п.

Семантические структуры определяют связную "сочетаемость" фрагментов, полученных после интерпретации. Проблемный анализ по схеме подобен синтаксическому анализу. И на этом этапе проверяется семантическая корректность проинтерпретированного ЕЯ-предложения. На этапе проблемного анализа также можно осуществлять выбор из альтернатив результата синтаксического анализа. Например, для предложения Если многоугольник является квадратом, то он является прямоугольником на этапе синтаксического анализа существует неопределенность для референциальной ссылки, выраженной местоимением "он" (многоугольник или квадрат). А на этапе проблемного анализа выбор достаточно очевиден.

Модель проблемной среды записывается также на гиперграфовом языке представления знаний и может быть представлена графически в виде некоторого раскрашенного ориентированного гиперграфа, фрагмент которого показан на рис. 2 (дополнительно пример МПО см. в [5]).

6. Заключение
Выбранная структура транслятора, языки представления лингвистических знаний, фрагментация моделей транслятора позволяет варьировать стратегиями для различных задач обработки ЕЯ.

Стандартная стратегия заключается в проведении полного синтаксического анализа, затем интерпретации и полного проблемного анализа.




Рис. 2. Фрагмент модели проблемной среды "Персональный компьютер".
Более эффективная стратегия может быть реализована следующей схемой. Слова и фрагменты ЕЯ-предложения сразу интерпретируются с помощью системы продукций. Исходя из сложности предложения, синтаксический разбор привлекается в той мере, в которой он необходим для разрешения различных синтаксических неопределенностей естественного языка. Если удачно закончен процесс интерпретации, то осуществляется переход к проблемному анализу, который выполняется всегда по полной программе. Если процесс интерпретации дает отрицательный результат, то в этом случае может быть несколько вариантов. Либо предложение неправильно, либо какая-то из моделей неполна или некорректна, либо предложение является сложным, эллиптичным и т.п., и в этом случае необходимо привлекать дополнительные средства анализа. Для сложных, эллиптических, анафорических и других типов предложений и текстов существует расширение лингвистического процессора и компонентов лингвистической модели без разрушения самой структуры транслятора.

Другая схема трансляции может реализовать так называемый «анализ через синтез», когда "зацепившись" за некоторое минимальное описание в модели предметной области, транслятор начинает "раскручивать" это описание, используя структурные связи в МПО. По расширениям данного описания, реализуя этап синтеза ЕЯ-текста, транслятор пытается найти в самом тексте "аналоги" синтезируемых предложений. Конечно, для реализации такой схемы необходимо преобразование . В этом случае не является обязательным последовательный поиск (предложение за предложением, как при анализе) аналогов синтезируемых предложений в тексте. Про такую схему можно сказать, что она "хаотично покрывает" входной текст, иногда даже дополняя его тем, что в нем было опущено.

Данный транслятор можно использовать (не нарушая схему), для упрощенных задач, редуцируя только модели. И более того, данную схему можно свести к методу ключевых слов (если это позволяет задача) только за счет сильной редукции моделей, что служит критерием правильности выбранного подхода (на основе известного принципа дополнительности).

7. Список литературы


  1. Интеллектуализация ЭВМ / Под ред. Ю. М. Смирнова. М.: Высшая Школа, 1989. 160 С.

  2. Хахалин Г.К. Лингвистический транслятор в семействе систем с обработкой ЕЯ-текстов (ретроспекция) // Труды VI национальной конференции по Искусственному Интеллекту РАН - КИИ-98. Пущино, 1998. Т. 1. С. 238-246.

  3. Хахалин Г.К. Использование гиперграфов в лингвистической трансляции // Труды Международного семинара "Диалог'99" по компьютерной лингвистике и ее приложениям. М., 1999. Т. 2. С. 315-320.

  4. Поспелов Д.А. Продукционные модели // Искусственный интеллект. Справочник в 3 кн. Кн. 2. Модели и методы. М.: Радио и связь, 1990. С. 49-56.

  5. Хахалин Г.К. О модели предметной области для лингвистического транслятора // Труды Международного семинара "Диалог'2002" по компьютерной лингвистике и ее приложениям. М., 2002. (печатается в данном сборнике).


Key words: linguistic translator, grammatical model, interpretation model, domain model, hypergraph, natural language, translation, dictionary, syntax rules, conceptual descriptions

THE MODELS OF THE LINGUISTIC TRANSLATOR / Gennady Konstantinovich Khakhalin (Moscow Automobile & Road Institute (State Technical University), 64 Leningradskiy prospekt, Moscow, 125829, Russia, khakhalin@got.mmtel.ru).

The Linguistic Translator is kept three models: grammatical model, interpretation model and domain model. The grammatical model and the domain model are presented in the manner of hypergraphs, but the interpretation model - in the manner of productions system. The organization of linguistic model allows to realize a translation of the simple full, complex and compound sentences, elliptical and anaphora sentences. It also allows a realization of scheme spectrum of translation depending on complexity of text and on decided problems of the text processing.

Работа опубликована в Трудах Международного семинара "Диалог'02" по компьютерной лингвистике и ее приложениям. Т. 2. Протвино. 2002, с. 506-513.

Добавить документ в свой блог или на сайт

Похожие:

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconУважаемые коллеги!
Маадо), Ижевский государственный технический университет имени М. Т. Калашникова (Ижгту) и Московский автомобильно-дорожный государственный...

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconМосковский Государственный Институт Электроники и Математики (Технический Университет)

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconИз истории симпозиума
Российская академия естественных наук, Московский государственный технический университет им. Н. Э. Баумана, институт радиоэлектроники...

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconРабочая программа Наименование дисциплины
Московский государственный институт электроники и математики (технический университет)

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconМетодические указания по лабораторной работе на тему «Векторная графика»
Московский государственный институт электроники и математики (технический университет)

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconThe International Academy of Sciences, Education, Industry & Arts – California
Московский государственный институт радиотехники, электроники и автоматики (Технический университет) – мирэа

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconКурсовая работа по дисциплине «Организация эвм» Тема: «Устройства ввода настоящего и будущего»
Московский Государственный Институт Электроники и Математики (Технический Университет)

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) icon«Московский физико-технический институт (государственный университет)» (мфти)
Рамзаев М.: Интернет-банкинг: медленно, но верно. Обзор рынка услуг в России, Европе и США. 2011. 11

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconМосковский энергетический институт (технический университет) институт электроэнергетики (иээ)

Московский Автомобильно-Дорожный Институт (Государственный Технический Университет) iconМосковский энергетический институт (технический университет) институт...


Учебный материал


При копировании материала укажите ссылку © 2013
контакты
5-bal.ru