Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.10.07;
Скачать: CL | DM;

Вниз

А лгоритм поиска и замены.   Найти похожие ветки 

 
Tadeush ©   (2002-09-26 12:22) [0]

Господа подскажите алгоритм поиска и замены данных в строках
В одном текстовом файле присутствуют строки на английском языке и на русском но набранном аглицкими буквами. Причем хрен знает как. Надо что бы абракадабра переводилась а аглицкие слова нет. Пример:

SP payment end : Timeout(A101:0009)
Card(0000000000000000) taken
12345678.xxx 000004 PBRABPTAO <--(ОБРАБОТАННО)
JNa VAKMA RAINFR STATUS <--(ИМЯ ФАЙЛА РАЗМЕР СТАТУС)


 
Separator ©   (2002-09-26 12:31) [1]

В общем пишешь список всех англииских слов во всех вохможных формах, а потом анализируешь свой текст и проверяешь, если слово не входит в список, то значит это слово русское, вот его и транслируешь в нормальный вид.


 
Tadeush ©   (2002-09-26 12:34) [2]

До этого я додумался. Но словарь то ведь большой получится. А вдруг какие то изменения. То облом.


 
Separator ©   (2002-09-26 12:36) [3]

Ну тогда словарь русского языка (сто в принципе не меньше) в нужной транскрипции и потом сравнивай с ним и если совпадает, то это русское слово, вот его и транслируешь в нормальный вид.


 
Tadeush ©   (2002-09-26 12:40) [4]

Это понятно. Ну а вдруг добавилось новое сообщение в кривой кодировке? Оно ведь не переведется
Может что почитать есть?


 
Separator ©   (2002-09-26 12:44) [5]

Да никак ты это не сделаешь, весь текст должен быть в одной кодировке, а иниче делай распознование кодировок (мне кажется тут как-то это обсуждалось) и раскодирывай


 
Tadeush ©   (2002-09-26 12:46) [6]

В том то и дело что это не стандартная кодировка. Это что то связанное с 7 и 8 битными символами, а что это я не понимаю


 
TTCustomDelphiMaster ©   (2002-09-26 12:47) [7]

Tadeush ©

P - О
R - Р
A - А
и т.д.

Определите алгоритм перекодировки или составте таблицу перекодировки.


 
Tadeush ©   (2002-09-26 12:49) [8]

2 TTCustomDelphiMaster ©

Это понятно. А как что бы под перекодировку не попели английские слова то?


 
valleyman   (2002-09-26 12:58) [9]

Коды букв в английских словах и в абракадабрах совпадают или разные?


 
TTCustomDelphiMaster ©   (2002-09-26 13:06) [10]

Tadeush © (26.09.02 12:49)
Никак.

Вы раскажите про этот файл. Можете ли вы в строки на русском вставить слово, наприпер RUSSIANSTRING?


 
Tadeush ©   (2002-09-26 14:39) [11]

:)))))
Типа метки сделать. Тоже думал об этом.


 
Smithson ©   (2002-09-26 15:33) [12]

Можно сделать проще (но не быстрее).
Можно насильно определять принадлежность слова к определенному языку (я делал для русского). Делается так - берешь достаточно большой текст (как щас помню - 9600 и все-все-все) и подсчитываешь в нем число ПАР символов (АБ, АВ, АГ и тп). Составляешь массивчик ["а".."я","а".."я"] и пишешь в него подсчитаные пары. Одновременно считаешь количество символов в тексте. Получаешь массив частот ПАР символов и делитель к этому массиву. Теперь для любого текста выполняешь ту же процедуру и можешь сравшивать частоты ПАР для эталона и твоего текста (не забывая про делители). Если частоты совпадают - язык тоже.
Повторю еще раз - я делал для русского языка, но ничего не стоит сделать и для английского. Так ты сможешь без словаря выделять англовидные слова.



Страницы: 1 вся ветка

Текущий архив: 2002.10.07;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.013 c
6-21162
Deep
2002-08-04 03:45
2002.10.07
клиент - сервер & socket


14-21278
Бармен
2002-09-10 20:43
2002.10.07
А я тут в Ялте оттягиваюсь!!!!


4-21349
dumb
2002-08-19 16:37
2002.10.07
Как зарегистрировать COM объект кодом?


4-21342
Timur_2002
2002-08-19 13:30
2002.10.07
Как на WinAPI рисовать картинки через OwnerDraw во всплыв. меню?


14-21229
spROOT13
2002-09-09 19:24
2002.10.07
Кнут