категории | RSS

  

Проблема поиска кириллицы в текстовых документах. Причины. 0

Общая информация

europeec
Tue, 06 May 2008 16:25:33 MSD
Общая информация6016

Данная статья создана для пользователей, столкнувшихся с проблемой невозможности кириллического поиска в текстовом документе. А так же с проблемой некорректного озвучивания текста программами, позволяющими его озвучить с применением голосовово синтеза.
---------
Если Вы столкнулись с данной проблемой, то это вовсе не значит, что приложение, в котором Вы пытаетесь применить поиск, не способно искать кириллический текст, будь то редактор, офис, программа для чтения книг, интернет-браузер, или файловый менеджер.
---------
Поиск не распространяется на слова, в которых кириллические символы заменены латинскими символами-двойниками. И при таком условии уже не будет важно, в какой формат или кодировку Вы переведете данный текст, и каким приложением Вы будете в нем искать. Традиционным способом поиск уже не будет возможен.
---------
Почти у каждого пользователя найдется ряд текстовых документов, содержащих от 95% русских слов с замененными символами.
Откуда берутся такие текстовые файлы? Такие текстовые файлы мы можем создавать сами. Что называется- взять и запороть нормальный текстовый документ. Это можно сделать во всеми любимом файловом менеджере X-plore двумя способами, причем сделать это незаметно для себя.
---------
Проведем несложный эксперимент.
Откроем в файловом менеджере X-plore какой-нибудь текстовый файл в режиме редактирования. Если текст в кодировке unicode, сменим кодировку на win-1251(уберем галочку с опции [сохранить в юникоде]). Если текст изначально был в кодировке win-1251, то не меняя кодировки, просто чуть подредактируем его, добавив или удалив хотя бы один символ. После чего выйдем, согласившись сохранить изменения. Мы получили, казалось бы, абсолютно нормальный текстовый документ, такой же, как и прежде, просто в другой кодировке, или с незначительно подредактированным содержанием.
Но нет, в итоге мы получили битый документ, утративший свойство искомости кириллического текста. В нем конечно же осталось очень небольшое колличество русских слов, которые можно будет найти поиском, но это будут те немногие слова, которые не содержат символов, имеющих своих двойников в латинице. Например такие, как слова [или] или [линии], они всегда будут искомыми, так как ни одну букву в них не возможно заменить на латинскую, не изменив эти слова визуально. Конечно же, найдутся и другие подобные неизменные русские слова, но на 95% и более текст будет состоять из слов с замененными символами. Например таких, как слово [peдaктop], - в нем есть только три буквы, которые не имеют двойников в латинице, остальные в нем заменены. И чтобы найти это слово через поиск, нужно будет искать нетрадиционным путем - вводить его с пятью латинскими символами. Что не только непрактично, но и просто неестественно.
---------
Часто в комментариях к какой-либо программе, работающей с текстом, приходилось видеть неодобрительные отзывы пользователей относительно функции поиска: Ну вот, типа, поиск русских слов всё так же здесь не работает. :(
---------
На самом же деле программы удачно ищут кириллический текст, если искомые слова не содержат замененных двойниками символов.
---------
Сейчас ниже я повторю предыдущий абзац, но это уже будет примером того, как текст может стать неискомым. Попробуйте в нем найти какое-либо слово при помощи поиска, и вы не сможете найти ни одного. А потом попробуйте ввести в поиск например слово [ищут], но с игриком вместо буквы [у], и Вы найдете это слово именно в ниже повторенном абзаце. smile
Внимание...
--- Ha caмoм жe дeлe пpoгpaммы yдaчнo ищyт киpилличecкий тeкcт, ecли иcкoмыe cлoвa нe coдepжaт зaмeнeнныx двoйникaми cимвoлoв. ---
---------
У многих найдутся текстовые документы с описанными выше свойствами, так как могут быть не только результатом изменения в программе X-plore, но и быть сохраненными со страницы интернета, или загруженными ввиде готовых файлов, и могут быть настолько большими, что вручную их переписать не представляется возможным, а поиск в них иногда может быть очень необходим.
---------
На сегодняшний день для обладателей аппаратов с операционной системой symbian 9 существует очень полезное приложение, которое, как оказалось, настроив специфически, можно успешно использовать для обратной замены латинских-символов двойников. Это приложение Translit от автора под ником bayanist. Выражаем ему благодарность. Программа находится на странице http://m.dimonvideo.ru/symbian/13018
---------
Краткое описание специфических настроек и использования программы в целях замены двойников на оригинальные кириллические символы (данные настройки не подойдут для применения программы по ее классическому назначению).
---
В разделе настроек мы видим три поля. Нам нужно изменить поле [перевод].
1. В верхнем поле листаем кириллические символы. Для каждой русской буквы, не имеющей двойника в латинице, назначаем в поле [перевод] любой символ, которого не может быть в нашем документе, например букву [а] с двумя точками наверху.
2. Листаем. Если для русской буквы существует двойник, то в поле [перевод] прописываем двойника !!!латиницей в соответствующем регистре. Двойники существуют для следующих (строчных и заглавных) русских букв: а, е, о, р, с, у, х, А, В, Е, К, М, Н, О, Р, С, Т, Х.
3. Выходим из настроек (настройки сохранятся автоматически),
после чего копируем текст документа в буфер обмена, вставляем в окно ввода программы, и нажимаем ABC-АБЦ (латиница-кириллица). Всё, двойники были заменены на оригинальные кириллические символы.
4. Копируем текст из окна ввода программы, сохраняем его в файл, и получаем документ с возможностью полноценного кириллического поиска.
---
Важно! При наличии в тексте предложений на английском (или каком-либо другом, написанном латиницей) желательно на время процедуры вырезать их из текста в том случае, если Вам необходимо сохранить и в них возможность поиска.
---------
Так же хотелось бы обратить внимание разработчика файловового менеджера X-plore на данную ошибку (а может не ошибку, но далеко не полезное свойство) программы при редактировании кириллического текста.
---------
Спасибо за внимание.


Статус программы: Бесплатная

Похожие файлы


- 0 штук
Здесь находятся
всего 0. За сутки здесь было 0 человек

Комментарии 10

сортировка:
#10   europeec    

Ну конечно же, EQ. Вопрос лишь в том, много ли осведомленных. Один, два... три? Когда я носился с этой проблемой по форумам интернета в надежде на помощь, то не заметил ни одного признака чьей-либо осведомленности.
---------
stepanich81, и код, и число бит, и не только е. Только сказка не об этом.smile

0 ответить

#10   EQ    

Статья будет полезна для неосведомлённых, но написана она слишком запутанно. Рекомендую переписать в более простой форме без повторений и доказательств того, что \Кириллический поиск замечательно работает практически во всех приложениях, работающих с кириллическим текстом, и располагающих функцией поиска\...

0 ответить

#10   i_BANDIT    

Кстати все реально.. В хплоре, в текстовом файле было слово *выше* поиск его никак не находил.. Заменил *е* русское на *e* английское все нашло аж бегом.. В начале как то не верилось....

0 ответить

#10   sawka6600    

слушай, а однако полезную вещь написал.... wink Век живи - век учись, как говорится. Испытаем при случае.

0 ответить



Вверх страницы Вниз страницы

Яндекс.Метрика