Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2008.03.23;
Скачать: CL | DM;

Вниз

Список замен   Найти похожие ветки 

 
kiber-pilot ©   (2008-02-09 20:42) [0]

Есть словарь известных слов, есть слово с очепяткой. Как лучше, и быстрее подобрать слово из словаря, которым можно заменить неправильное слово. Опечатка может заключаться в том, что пропущена, добавленя или неправильна написано какая-нибудь буква.


 
Игорь Шевченко ©   (2008-02-09 20:44) [1]

Если в слове ХЛЕБ сделать четыре ошибки, получится ПИВО


 
Zeqfreed ©   (2008-02-09 20:45) [2]

http://www.norvig.com/spell-correct.html


 
Игорь Шевченко ©   (2008-02-09 21:03) [3]

Zeqfreed ©   (09.02.08 20:45) [2]

Тогда уж так:

http://gmdidro.googlepages.com/Ru_HowtoWriteaSpellingCorrector.html

Спасибо, интересная статья


 
Zeqfreed ©   (2008-02-09 21:16) [4]

> Игорь Шевченко ©   (09.02.08 21:03) [3]

Ну, кому-то в оригинале приятней читать.
Пожалуйста :)


 
TUser ©   (2008-02-09 21:32) [5]

См. про алгоритм Shift-And. Его можно модифицировать под твою задачу. Описано, например, в книге Гасфилда "Название забыл, но что-то про анализ биологических последовательностей". В принципе есть алгоритмы типа Левенталя для такого рода дел, но если речь идет о коротких последовательностях (словах), то Shift-And-подобные должны выигрывать по скорости.


 
Правильный_Вася   (2008-02-09 21:51) [6]

а опечатка в однобуквенном предлоге этими алгоритмами берется?


 
TUser ©   (2008-02-09 21:58) [7]

легко

алгоритм выдает некое число, которое характеризует "похожесть" слов

такую функцию можно определить рядом способов

но всегда - будет число

далее мы смоьтрим на порог. если число больше/меньше порога - го гуд. или не гуд.

выбирай требуемый порог - и будет опознавание ошибок в предлогах


 
Dmitry S ©   (2008-02-09 22:14) [8]


> алгоритм выдает некое число, которое характеризует "похожесть"
> слов

Так легко и выдает?



Страницы: 1 вся ветка

Текущий архив: 2008.03.23;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.015 c
15-1202831718
No_Dead
2008-02-12 18:55
2008.03.23
Что я потеряю?


15-1202557459
Kolan
2008-02-09 14:44
2008.03.23
Где взять Pascal Script?


15-1202490531
@!!ex
2008-02-08 20:08
2008.03.23
Проверка орфографии в OpenOffice


15-1202569817
korstin
2008-02-09 18:10
2008.03.23
Нынче заказчики пошли )))


3-1193751735
thely
2007-10-30 16:42
2008.03.23
Изменение БД?