БИНАРНЫЕ СИСТЕМЫ

Количество информации обычно измеряется в битах (этот термин происходит от англ. binary digit ‘двоичный знак’). Всякая единица с вероятностью появления у содержит один бит информации;

всякая единица с вероятностью у несет 2 бита информации, и так

далее.

Удобство такого измерения количества информации станет очевидным, если мы обратимся к практической задаче «кодирования» множества единиц (сначала предположим, что вероятности их появления равны) группами двоичных знаков. В предыдущем разделе мы видели, что каждый элемент множества из восьми единиц может быть реализован отдельной группой из трех двоичных знаков (см. § 2.3.8). Это определяется связью между числом 2 (основанием двоичной системы исчисления) и 8 (количеством единиц, которые требуется различать): 8=2³. В более общем виде, если N — это число единиц, которые следует различать, а т — это число позиций контраста в группах двоичных знаков, требуемых для их различения, то N=2^т. Связь между числом парадигматических контрастов на «высшем» уровне (N) и синтагматической длиной групп элементов «низшего» уровня (т), таким образом, логарифмическая: m=log₂ N. (Логарифм числа есть степень, в которую следует возвести основание числовой системы, чтобы получить данное число. Если N=x^m, тот= =log_x N ‘если N равняется х в степени т, то т равняется логарифму N по основанию х\ Напомним, что в десятичной арифметике лога-

рифм 10 равен 1, логарифм 100 равен 2, логарифм 1000 равен 3 и т. д., т. е. log₁₀10=l,log₁₀100=2, log₁₀1000=3 и т. д. Если бы теория информации основывалась на десятичной, а не на двоичной системе измерения, то было бы удобнее определять единицу информации

в терминах вероятности Читателю должно быть ясно, что приведенное здесь равенство N=x^m — это частный случай равенства N=p₁Xp₂Xpo, ..

., р_ту введенного в § 2.3.8. Равенство N=x^m справедливо, если в каждой позиции синтагматической группы в парадигматическом контрасте находится одно и то же число элементов.

Количество информации измеряется обычно в битах, просто потому, что многие механические системы для хранения и передачи информации действуют на основе бинарного принципа: это системы с двумя состояниями. Например, информацию можно закодировать на магнитной ленте (для обработки с помощью цифровой ЭВМ) как последовательность намагниченных и ненамагниченных позиций (или групп позиций): каждая позиция находится в одном из двух возможных состояний и может, таким образом, нести один бит информации. Кроме того, информацию можно передавать (как, например, в азбуке Морзе) в виде последовательности «импульсов», каждый из которых принимает одно из двух значений: короткий или длинный по продолжительности, положительный или отрицательный по электрическому заряду и т. п. Всякая система, использующая «алфавит», состоящий более чем из двух элементов, может быть перекодирована в бинарную систему у источника передачи и снова перекодирована в первоначальный «алфавит», когда сообщение получено по месту назначения. Это имеет место, например, при передаче сообщений по телеграфу. То, что информационное содержание должно измеряться с помощью логарифмов с основанием 2, а не логарифмов с каким-либо другим числовым основанием, есть следствие того факта, что инженеры связи обычно работают с системами с двумя состояниями. Что касается вопроса об уместности применения принципа двоичного «кодирования» именно при исследовании языка в нормальных условиях «передачи» от говорящего к слушающему, то он вызывает значительные разногласия среди лингвистов. Не подлежит сомнению, что многие наиболее важные фонологические, грамматические и семантические различия бинарны, как мы увидим в последующих главах; мы уже видели, что один из двух членов бинарной оппозиции может рассматриваться как положительный, или маркированный, а другой — как нейтральный, или немаркированный (см.

§ 2.3.7). Мы не будем вдаваться здесь в обсуждение вопроса, можно ли свести все лингвистические единицы к комплексам иерархически упорядоченных бинарных «выборов». Тот факт, что многие единицы (на всех уровнях языковой структуры) сводимы к ним, означает, что лингвисту следует приучиться мыслить в терминах бинарных систем. В то же время следует отдавать себе отчет в том, что фундаментальные идеи теории информации совершенно не зависят от частных предположений относительно бинарности.

Поскольку каждый двоичный знак несет только один бит информации, группа из т двоичных знаков может нести максимум т битов. До сих пор мы предполагали, что вероятности различаемых таким образом единиц высшего уровня равны. Теперь рассмотрим более интересный и более обычный случай, когда эти вероятности не равны. Для простоты возьмем множество ИЗ трех единиц, а, Ь И Су со

следующими вероятностями: /%=у, р_ь=-j-> Р_с⁼’Единица а

несет 1 бит, a b и с несут по 2 бита информации каждая. Их можно закодировать в двоичной системе реализации, как а : 00, b : 01 и с : 10 (оставив 11 незанятым). Но если бы знаки передавались в последовательности по некоторому каналу связи и передача и получение каждого знака занимали бы один и тот же отрезок времени, было бы неразумным принимать столь неэффективное условие кодирования. Ведь для а требовалась бы такая же мощность канала, как для b и для с_у хотя оно несло бы вдвое меньше информации. Более экономичным было бы закодировать а с помощью одного знака, скажем 1, и отличать & и с от а, закодировав их противоположным знаком—0—в первой позиции;Ьис тогда отличались бы друг от друга во второй позиции контраста (которая, конечно, пуста для а). Итак, а:1,Ь:00ив:01. Это второе соглашение более экономичным образом использует пропускную способность канала, так как оно увеличивает до предела количество информации, которое несет каждая группа в один или два знака. Поскольку на передачу а, которое встречается вдвое чаще, чем Ьис, тратится вдвое меньше времени, данное решение позволило бы в кратчайшее время передать наибольшее число сообщений (исходя из предположения, что эти сообщения достаточно длинны или достаточно многочисленны, чтобы отражать средние частоты появления).

В действительности эта простая система представляет собой теоретический идеал: каждая из трех единиц а, & и с несет целое число битов информации и реализуется в субстанции именно этим числом различий.

2.4.5. ИЗБЫТОЧНОСТЬ И ШУМ

Этот теоретический идеал никогда не достигается на практике. Прежде всего вероятности появления единиц обыкновенно находятся

.1111 1 между величинами ряда 1, у, у, у, -у, . . а не соответствуют им в точности. Например, вероятность появления отдельной единицы может быть равна у, поэтому она может передавать

log₂5— приблизительно 2,3 — бита информации. Но в субстанции не бывает различия, измеряемого числом 0,3; субстанциальные различия абсолютны в поясненном выше смысле (см. §2.2.10). Если же мы используем три знака для отождествления единицы с вероятностью появления в у, мы тем самым введем избыточность в суб-

станциальную реализацию. (Среднюю избыточность системы можно сделать сколь угодно малой; математическая теория связи занимается-главным образом этой задачей. Но нам здесь нет необходимости вдаваться в более специальные подробности.) Важным является то, что некоторая степень избыточности на самом деле желательна в любой системе связи. Причина состоит здесь в том, что, какая бы среда ни использовалась в целях передачи информации, она будет подвержена разнообразным непредсказуемым природным помехам, которые уничтожат или исказят часть сообщения и таким образом приведут к потере информации. Если бы система была свободна от избыточности, потеря информации была бы невосполнима. Инженеры связи обозначают случайные помехи в среде или канале связи термином шумы. Оптимальная система для отдельного канала такова, что в ней ровно столько избыточности, сколько требуется, чтобы получатель мог восстановить информацию, потерянную из-за шумов. Заметим, что термины «канал» и «шумы» следует толковать в самом общем смысле. Их применение не ограничивается акустическими системами и тем более системами, созданными инженерами (телефон, телевизор, телеграф и т.

п.). Искажения в почерке, получающиеся при письме в движущемся поезде, можно также причислить к «шумам»; сюда же относятся искажения, возникающие в речи при насморке, в состоянии опьянения, от рассеянности или ошибок памяти и т. п. (Опечатки — это одно из следствий воздействия шумов при «кодировании» письменного языка; читатель часто не замечает их, потому что избыточность, характерная для большей части письменных предложений, достаточна для того, чтобы нейтрализовать искажающее влияние случайных ошибок. Опечатки более существенны в цепочке знаков, любая комбинация которых a priori возможна. С этим на практике считаются бухгалтеры, которые умышленно вводят в свои книги избыточную информацию, требуя баланса сумм в разных колонках. Обычай ставить сумму к выплате на чеках и прописью и цифрами позволяет банкам обнаружить, если не исправить, многие ошибки, вызванные шумами того или иного рода.) Что же касается устной речи, то термин «шум» включает любой источник искажения или непонимания, относится ли он к недостаткам речевой деятельности говорящего и слушающего или к акустическим условиям физической среды, в которой производятся высказывания.

2.4.6.

<< | >>

↑

Источник: Джон Лайонз. ВВЕДЕНИЕ В ТЕОРЕТИЧЕСКУЮ ЛИНГВИСТИКУ. Перевод с английского языка под редакцией и с предисловием В. А. ЗВЕГИНЦЕВА. Москва «ПРОГРЕСС» - 1978. 1978

Еще по теме БИНАРНЫЕ СИСТЕМЫ:

- Диалектология - Иностранные языки - Лексикология. Фразеология. Лексикография - Методики обучения языкам - Общая лингвистика - Основы языкознания - Русский язык - Синтаксис - Словообразование и морфология - Стилистика и культура речи - Фонетика. Графика. Орфография -

- Антропология - Астрономия - Безопасность жизнедеятельности - Библиотечное дело - Биология - Военное дело - География - Зоология - История - Культурология - Литература - Математика - Медицина - Педагогика - Политология - Право России - Право України - Психология - Религоведение - СМИ и журналистика - Социология - Технические науки - Транспорт - Физика - Философия - Финансы - Экология - Экономика - Этнография и демография - Юриспруденция - Языкознание -