Applefans.ru все для Macbook, iPhone, iPad: программы, игры, приложения, обои, видео

Проверка орфографии в Mac OS X


Отправной точкой для этой истории стала вспышка негодования в ЖЖ-сообществе Ru_mac — один из тамошних посетителей обнаружил, что несложное русское слово «продавцы» в понятиях встроенной проверки орфографии Mac OS X следует писать с мягким знаком.

Вполне очевидное негодование немедленно аукнулось очевидным вопросом — а как, собственно, раз и навсегда избавиться от этого безобразия в замечательной операционной системе OS X Snow Leopard? По логике вещей правильный ответ напрашивался сам собой — по аналогии с пользовательской ~/Libraty/Spelling и отыскать в недрах системного каталога файл с русским словарем и сразу же внести в него требуемые коррективы. К сожалению, на поверку проблема оказалась на порядок сложнее, запутаннее и… интереснее:

— Была такая компания — Lernout & Hauspie Speech Products, — откровенничает Livejournal-юзер kyrie1965. — Владела всякими технологиями распознавания речи, перевода текста в речь, сопутствующими морфологическими базами и прочим в том же духе. Так вот, в лохматых девяностых эта компания занималась, помимо всего прочего, и русским языком. Занималась — это громко сказано: скорее всего, кучка индусов составила морфологическую базу русского языка на базе анализа большого корпуса русских текстов, которую затем не очень сильно откорректировал какой-то русскоязычный индус.

База получилась очень маленькая по объёму — намного меньше миллиона слов, что просто смешно по современным меркам, — причем ее можно было использовать и для проверки орфографии. Вот только ошибок в такой базе было просто неимоверное количество — порядка 15-20% от всех внесенных в нее слов. Для сравнения, в современных базах используется от одного до шести миллионов слов, а ошибки в них носят случайный характер, поскольку базы составляются вручную.

К чему это все? В конце девяностых огромное число компаний с удовольствием за сущие копейки лицензировали всякие технологии у L&H. Среди них были и Microsoft с Apple.

Шло время. Наступил 2007 год. Выходит новейшая операционная система Mac OS X 10.5, в которую — барабанная дробь! — Apple интегрирует в чистом виде русскоязычную базу от Lernout & Hauspie из ветхозаветных девяностых. Кто-то перекрестился, кто-то обрадовался поддержке русского языка, а Apple себе поставила галочку, что в системе присутствует полноценная проверка русской орфографии. Им неинтересно, что это не база, а кусок дерьма. Они, скорее всего, даже не в курсе этого. Они просто взяли то, что у них хранилось в запасах.

В 10.6 ситуация не изменилась. Всё перекочевало из 10.5. Вся база по-прежнему хранится в специальном бинарном бинарном формате, модифицировать который может только компания-производитель.

Так что единственный выход из этой ситуации — cocoAspell.

Комментарии (0)

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.