Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.12.12;
Скачать: CL | DM;

Вниз

Организация поиска по документам в БД   Найти похожие ветки 

 
DmitrichJ   (2009-08-03 23:17) [0]

Уважаемые, мастера. Мы меня не раз выручали и спустя долгое время созрел вопрос, который спешу Вам задать.

Расскажите о вариантах хранения и поиска по тексту крупных документах с минимальным форматированием (жирный, курсив, ссылка на др. документ).
Другими словами например есть у нас налоговый кодекс. В каком формате лучше его хранить в БД (а может и не в БД) и каким образом организовывать поиск в тексте по вхождению? Как обрабатывать ссылки в этом тексте?

Спасибо.


 
DmitrichJ   (2009-08-03 23:19) [1]

простите за опечатку "Мы меня ...", конечно же, "Вы"=))


 
turbouser ©   (2009-08-03 23:30) [2]


> DmitrichJ   (03.08.09 23:17)  

Мало информации, что бы можно было дать какой-то ответ. Одни вопросы.
Конкретнее.


 
DmitrichJ   (2009-08-03 23:42) [3]

Текстовый документ. Например налоговый кодекс. В программе должен иметь минимальное форматирование. Например жирный текст заголовков и статей. Так же должен иметь ссылки (в любом виде), чтобы при просмотре можно было определить куда данная ссылка ссылается (но это другой вопрос). Мне интересно как лучше хранить множество подобных документов и как организовывать контекстный поиск. Хотя бы простейший "Статья 4. Нормативные правовые акты Правительства Российской Федерации" если бы текст был не форматирован и хранился в БД простейшим текстом, то не было проблем воспользоваться "лайком", но из-за форматирования сложнее. Кто-нибудь сталкивался?


 
turbouser ©   (2009-08-04 00:12) [4]


> DmitrichJ   (03.08.09 23:42) [3]

Мда. Мало что прояснилось.
FullText search - первое что приходит в голову. Это по поиску.
Далее:
1) СУБД?
2) В каком виде документы хранятся-то?
3) Форматирование - это на клиентской части.
Ну, не будем о грустном :) и так, далее:
4) Нужен поиск по Форматам? Оо (Можно, конечно, и такое сделать..)
5) В идеале (ну, не то что бы уж совсем, но :) ) - сделать по подобию htmlhelp


 
DmitrichJ   (2009-08-04 00:38) [5]

видимо неправильно выразился... в общем 1,2- это вопрос. Т.е. спрашиваю как лучше сделать.
3-да.
4. Нужно чтобы клиенту отображалось типа:
Статья 1. ыфпфп
фукпфукфукп
Статья 2. шлепшепш.
пншпншпнш

как лучьше хранить? В rtf или html формате, а может вообще в другом? Это тоже вопрос.

раз мы храним форматирование, то как лучше делать поиск? к примеру если html, то текст храниться Статья 1..... ыфпфп. А клиент будет искать "Статья 1..." к примеру...

4. как?


 
turbouser ©   (2009-08-04 01:21) [6]


> DmitrichJ   (04.08.09 00:38) [5]


> 1,2- это вопрос. Т.е. спрашиваю как лучше сделать.

1) - денег есть? много?
2) можно просто текстом.. можно rtf.. можно xml... всяко можно... :(
3)-
4) -это зависит от того, в каком формате хранить.
5) - (если я правильно понял) - ведет к изучению энтой технологии.


 
turbouser ©   (2009-08-04 01:24) [7]

При нужде - я бы и на FB все сделал... Эх.. Жаль счас на мсскл основная работа... Такое г...


 
DmitrichJ   (2009-08-04 01:34) [8]


> Жаль счас на мсскл основная работа... Такое г...

и не говори


> 1) - денег есть? много?

в наше-то время? и много?


 
turbouser ©   (2009-08-04 01:51) [9]


> DmitrichJ   (04.08.09 01:34) [8]


> в наше-то время? и много?

Ну.. есть и бесплатное... зависит от предполагаемых объемов.


 
MsGuns ©   (2009-08-04 10:55) [10]

>turbouser ©   (04.08.09 01:24) [7]
>Эх.. Жаль счас на мсскл основная работа... Такое г...

Это обычное впечатление при переходе с ИБ на МССКЛ. Однако через некоторое время оно сильно меняется :)


 
Ega23 ©   (2009-08-04 11:14) [11]


> При нужде - я бы и на FB все сделал... Эх.. Жаль счас на
> мсскл основная работа... Такое г...


Это IB/FB - г..но ужасное. На MSSQL данная задача решается часовым вдумчивым читанием хелпа и наведением FTS на данное поле (я с абсолютного нуля в FTS за день разобрался).


 
StriderMan   (2009-08-04 12:52) [12]


> Это IB/FB - г..но ужасное

зато маленькое и бесплатное :D


 
Ega23 ©   (2009-08-04 13:27) [13]


> зато маленькое и бесплатное :D


Это единственные его достоинства.
Кстати, в природе MSSQL Express Edition есть. Тоже бесплатное.


 
Anatoly Podgoretsky ©   (2009-08-04 13:34) [14]

> Ega23  (04.08.2009 13:27:13)  [13]

Маленькое что, размер дистрибутива и место на диске, да лучше бы побольше было бы, побогаче.


 
StriderMan ©   (2009-08-04 13:54) [15]


> Кстати, в природе MSSQL Express Edition есть. Тоже бесплатное.

в курсе. но уже не маленькое


> Это единственные его достоинства.

Ну как же, еще в (почти-)ежегодные конференции в Москве с вкусными бутербродами :D


> Маленькое что, размер дистрибутива и место на диске, да лучше бы побольше было бы, побогаче.

место, оно самое. Ну и FB Embedded, для своих задач весьма удобен.


 
Игорь Шевченко ©   (2009-08-04 15:52) [16]


> В каком формате лучше его хранить в БД (а может и не в БД)
> и каким образом организовывать поиск в тексте по вхождению?
>  Как обрабатывать ссылки в этом тексте?


хранить в виде chm, использовать стандартный поиск. И никакой базы не надо :)


 
StriderMan ©   (2009-08-04 17:07) [17]

Сейчас правда FB Embed в сегменте встраиваемых СУБД сильно подвинут SQLite. И вообще проект firebird скорее мертв чем жив, очень медленно развивается.


 
Павел Калугин ©   (2009-08-06 10:26) [18]

Ну не знаю, я бы индекс слов по тексту построил и по нему искал.



Страницы: 1 вся ветка

Текущий архив: 2010.12.12;
Скачать: CL | DM;

Наверх




Память: 0.51 MB
Время: 0.011 c
2-1284656353
Первокурсница
2010-09-16 20:59
2010.12.12
Модификация записей в Access с помощью Delphi


2-1285060567
бумбум
2010-09-21 13:16
2010.12.12
Как перехватить события когда форма на переднем плане?


15-1283137842
Ewans
2010-08-30 07:10
2010.12.12
Создание полноценного чата на Flash


15-1283776650
12
2010-09-06 16:37
2010.12.12
Что-то не понимаю tDateTime и Variant, раньше работало или путаю?


3-1239312888
Кевларвестов Семен
2009-04-10 01:34
2010.12.12
Не удается выполнить хранимую процедуру Firebird.