Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2008.03.23;
Скачать: CL | DM;

Вниз

Список замен   Найти похожие ветки 

 
kiber-pilot ©   (2008-02-09 20:42) [0]

Есть словарь известных слов, есть слово с очепяткой. Как лучше, и быстрее подобрать слово из словаря, которым можно заменить неправильное слово. Опечатка может заключаться в том, что пропущена, добавленя или неправильна написано какая-нибудь буква.


 
Игорь Шевченко ©   (2008-02-09 20:44) [1]

Если в слове ХЛЕБ сделать четыре ошибки, получится ПИВО


 
Zeqfreed ©   (2008-02-09 20:45) [2]

http://www.norvig.com/spell-correct.html


 
Игорь Шевченко ©   (2008-02-09 21:03) [3]

Zeqfreed ©   (09.02.08 20:45) [2]

Тогда уж так:

http://gmdidro.googlepages.com/Ru_HowtoWriteaSpellingCorrector.html

Спасибо, интересная статья


 
Zeqfreed ©   (2008-02-09 21:16) [4]

> Игорь Шевченко ©   (09.02.08 21:03) [3]

Ну, кому-то в оригинале приятней читать.
Пожалуйста :)


 
TUser ©   (2008-02-09 21:32) [5]

См. про алгоритм Shift-And. Его можно модифицировать под твою задачу. Описано, например, в книге Гасфилда "Название забыл, но что-то про анализ биологических последовательностей". В принципе есть алгоритмы типа Левенталя для такого рода дел, но если речь идет о коротких последовательностях (словах), то Shift-And-подобные должны выигрывать по скорости.


 
Правильный_Вася   (2008-02-09 21:51) [6]

а опечатка в однобуквенном предлоге этими алгоритмами берется?


 
TUser ©   (2008-02-09 21:58) [7]

легко

алгоритм выдает некое число, которое характеризует "похожесть" слов

такую функцию можно определить рядом способов

но всегда - будет число

далее мы смоьтрим на порог. если число больше/меньше порога - го гуд. или не гуд.

выбирай требуемый порог - и будет опознавание ошибок в предлогах


 
Dmitry S ©   (2008-02-09 22:14) [8]


> алгоритм выдает некое число, которое характеризует "похожесть"
> слов

Так легко и выдает?



Страницы: 1 вся ветка

Текущий архив: 2008.03.23;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.012 c
10-1144060743
Vir
2006-04-03 14:39
2008.03.23
TWebBrowser root


15-1202576844
TUser
2008-02-09 20:07
2008.03.23
Майкрософт и свобода прессы


2-1204109129
Ковалев
2008-02-27 13:45
2008.03.23
Change


2-1203619274
Антон
2008-02-21 21:41
2008.03.23
выгрузка dll из пямяти


15-1202736092
clickmaker
2008-02-11 16:21
2008.03.23
IContextMenu и AV