<<
>>

Глава 1 МОДЕЛИ ДЕШИФРОВКИ

Первый тип исследовательских моделей, который будет нами рассмотрен, можно условно назвать моделями лингвистической дешифровки, так как, помимо своей основной теоретической функции (обосно­вания лингвистических понятий и утверждений), они в принципе могут иметь и некоторую прикладную — де- шифровочную — функцию.

Как мы помним, исходной информацией для моделей этого типа является текст, о котором заранее ничего не известно. Неизвестны ни язык (код), использованный для «шифровки» текста, ни генети­ческие связи этого языка с уже известными языками, ни переводы текста на известные языки, ни та область дейст­вительности, которая описывается текстом. Для нагляд­ности можно представить, что к нам в руки попал текст на марсианском языке, описывающий незнакомую нам марсианскую действительность и не имеющий никаких связей с текстами на известных нам языках. Помимо са­мого текста, мы имеем право использовать для его дешиф­ровки только наше умение отличать черные точки от белых (этому легко «научить» и электронную вычисли­тельную машину). Все остальные сведения, т. е. сведения об элементарных единицах текста (буквах или звуках, морфемах, словах, предложениях и, наконец, смыслах), классах элементарных единиц (гласных и согласных, лексических и грамматических морфемах, частях речи, типах предложений, семантических полях) и законах со­четания единиц различных классов (например, синтакси­ческих связях слов в предложении), должны быть совер­шенно автоматически получены из текста.

Можно представить себе последовательность алгорит­мов, в которой каждый алгоритм выполняет одну из наз­ванных выше задач. Входной информацией для первого алгоритма являются текст и сведения о черных и белых точках (умение отличить черное от белого), а на выходе он вырабатывает информацию об алфавите символов (напри­мер, букв), с помощью которого этот текст записан. Каж­дый последующий алгоритм, решая ту или иную задачу, получает на вход информацию, выработанную предыду­щим алгоритмом.

В частности, второй алгоритм находит в алфавите символов, который был обнаружен первым ал­горитмом, гласные и согласные, подклассы внутри гласных и согласных и т. д., пока не будет установлено чтение всех букв. Последующие алгоритмы, пользуясь этой информа­цией, находят слоги, а затем морфемы, слова, классы морфем и классы слов. Когда найдены классы слов, можно приступить к решению синтаксических задач, в частности установить границы предложений и обнаружить связи слов в предложении. Наконец, когда открыты все существен­ные черты грамматики, можно переходить к поиску смысла слов и предложений. Результатом работы алгоритмов должно быть такое представление о языке, которое доста­точно для того, чтобы перевести изученные таким образом тексты на какой-либо уже известный язык или сопоставить текстам изображенный в них кусок действительности.

Если эта программа, впервые научно поставленная в пионерских работах Б. В. Сухотина , , ока­жется реализуемой, то основные лингвистические поня­тия будут сведены к весьма простым понятиям черных и

белых точек, ряду содержательных гипотез и описываю­щим их математическим функциям. Даже если она нереа­лизуема, интересно выяснить, до какого уровня такого рода описание может быть успешно доведено.

Ниже мы излагаем наиболее простые алгоритмы Б. В. Сухотина, 3. Харриса и ряда других исследователей, которые можно отнести к числу дешифровочныхг. Укажем некоторые общие черты всех этих алгоритмов. Во-первых, в основе всех алгоритмов лежат простые и общие представления о языке, подтверждающиеся определенны­ми универсальными закономерностями, напри­мер: «буква есть устойчивое сочетание точек»; «морфема есть устойчивое сочетание фонем»; «словоформа есть устой- чиеоє сочетание морфем»; «в каждом естественном языке имеется минимум два уровня — уровень значащих еди­ниц (морфем, словоформ, конструкций) и уровень незна­чащих единиц (фонем)»; «в любом языке имеются лекси­ческие морфемы, причем распределение лексических мор­фем в тексте отличается от распределения грамматических морфем»; «синтаксическим различиям соответствуют се­мантические различия»; «слова, близкие по смыслу, стоят в тексте недалеко друг от друга» и т.

п. Во-вторых, во всех алгоритмах такого рода используется информация о дистрибуции элементов и их числовых па­раметрах2. В-третьих, задача обычно решается сле­дующим образом. Сначала определяется множество д о- пустимых решений, а затем в этом множестве с по­мощью так называемых функций выгодности находится наилучшее решение. Функциями выгод­ности называются числовые функции, которые в случае правильных (наилучших) решений принимают определен­ное (например, минимальное возможное или максимальное возможное) значение. Каждая функция выгодности фор­мализует некоторую содержательную гипотезу о возмож­ных свойствах искомого объекта. Впервые, правда, в очень нестрогой форме, функции выгодности были использованы

1 К обсуждаемому здесь вопросу имеют отношение работы Н Д. Андреева будет больше числа, стоящего в клетке NnNa, так как,

если в предложении встречается прилагательное в име­нительном падеже, в нем почти обязательно должно быть и существительное в именительном падеже, в то время как наличие существительного в винительном падеже не тре­бует существительного в именительном падеже, ср. Длин­ный состав медленно полз по равнине; Яркое солнце лениво подымалось над лесом и Прочитай эту книгу; Пшеницу побило градом; Его знобило.

Таблица 5 а b с d е

90 35 50 29
90 80 30 40
35 80 78 31 ...
50 30 78 45 ...
29 40 31 45 ...
... ...

Итак, на первом этапе решается задача нахожде­ния грамматики языка по текстовым данным: составлен­ная нами таблица содержит, в вероятностной форме, все правила связи словоформ в предложении.

Имея эту ве­роятностную грамматику, мы возвращаемся, на втором этапе работы алгоритма, к первому предложению текста, составляем полный граф этого предложения (рис. 6) и над каждым ребром графа пишем цифру, взятую из соответ­ствующей клетки таблицы (поскольку таблица симметрична относительно главной диагонали, безразлично, возьмем ли мы число из клетки XY или из клетки YX). Затем мы начинаем выкиды­вать из графа «лиш­ние» ребра, начиная с того ребра, которо­му соответствует ми- а нимальное число. На каждом следующем Ь

шаге снова выкиды­вается «минималь- с

ное» ребро, за исклю­чением тех случаев, когда это делает граф несвязным. Ребра выкидываются до тех е пор, пока граф не превратится в дере­во, которое и являет­ся искомым. Проил- люстр и ру ем п ри и ци~ пы работы алгоритма на следующем условном примере (табл. 5 и рис. 7).

Сначала, по первому основному условию, мы выкиды­ваем ребро ае, являющееся «минимальным» (29), а затем, по тому же правилу, ребра bd (30), се (31), ас (35), be (40)

в указанной здесь последовательности. На следующем шаге (рис. 7, 2) необходимо выкинуть ребро ad (50), а не de (45), хотя 50 больше 45, так как удаление ребра de изо­лирует вершину е и делает граф несвязным. Ребра, нари­сованные сплошной линией, и образуют искомое дерево предложения (см. рис. 7,2)

Аналогичным образом устанавливается дерево синтак­сических связей для всех предложений данного текста, и работа алгоритма заканчивается.

Информация о непосредственных синтаксических свя­зях словоформ, при условии что уже проведен морфологи­ческий анализ текста, позволяет получить весьма значи­тельную информацию о лексическом аспекте языка и углу­бить наше понимание его синтаксиса. И. А. Мельчук, например, указал для этих условий способ выделения так

1 2

Рис. 7.

называемых устойчивых словосочетаний

<< | >>
Источник: Ю. Д. АПРЕСЯН. ИДЕИ И МЕТОДЫ СОВРЕМЕННОЙ СТРУКТУРНОЙ ЛИНГВИСТИКИ (краткий очерк) ИЗДАТЕЛЬСТВО «ПРОСВЕЩЕНИЕ» Москва 1966. 1966

Еще по теме Глава 1 МОДЕЛИ ДЕШИФРОВКИ:

  1. Е.Ф. Борисов. Хрестоматия по экономической теории / Сост. Е.Ф. Борисов. - М.: Юристъ, 2000. - 536 с., 2000