Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Базы";
Текущий архив: 2010.12.12;
Скачать: [xml.tar.bz2];

Вниз

Организация поиска по документам в БД   Найти похожие ветки 

 
DmitrichJ   (2009-08-03 23:17) [0]

Уважаемые, мастера. Мы меня не раз выручали и спустя долгое время созрел вопрос, который спешу Вам задать.

Расскажите о вариантах хранения и поиска по тексту крупных документах с минимальным форматированием (жирный, курсив, ссылка на др. документ).
Другими словами например есть у нас налоговый кодекс. В каком формате лучше его хранить в БД (а может и не в БД) и каким образом организовывать поиск в тексте по вхождению? Как обрабатывать ссылки в этом тексте?

Спасибо.


 
DmitrichJ   (2009-08-03 23:19) [1]

простите за опечатку "Мы меня ...", конечно же, "Вы"=))


 
turbouser ©   (2009-08-03 23:30) [2]


> DmitrichJ   (03.08.09 23:17)  

Мало информации, что бы можно было дать какой-то ответ. Одни вопросы.
Конкретнее.


 
DmitrichJ   (2009-08-03 23:42) [3]

Текстовый документ. Например налоговый кодекс. В программе должен иметь минимальное форматирование. Например жирный текст заголовков и статей. Так же должен иметь ссылки (в любом виде), чтобы при просмотре можно было определить куда данная ссылка ссылается (но это другой вопрос). Мне интересно как лучше хранить множество подобных документов и как организовывать контекстный поиск. Хотя бы простейший "Статья 4. Нормативные правовые акты Правительства Российской Федерации" если бы текст был не форматирован и хранился в БД простейшим текстом, то не было проблем воспользоваться "лайком", но из-за форматирования сложнее. Кто-нибудь сталкивался?


 
turbouser ©   (2009-08-04 00:12) [4]


> DmitrichJ   (03.08.09 23:42) [3]

Мда. Мало что прояснилось.
FullText search - первое что приходит в голову. Это по поиску.
Далее:
1) СУБД?
2) В каком виде документы хранятся-то?
3) Форматирование - это на клиентской части.
Ну, не будем о грустном :) и так, далее:
4) Нужен поиск по Форматам? Оо (Можно, конечно, и такое сделать..)
5) В идеале (ну, не то что бы уж совсем, но :) ) - сделать по подобию htmlhelp


 
DmitrichJ   (2009-08-04 00:38) [5]

видимо неправильно выразился... в общем 1,2- это вопрос. Т.е. спрашиваю как лучше сделать.
3-да.
4. Нужно чтобы клиенту отображалось типа:
Статья 1. ыфпфп
фукпфукфукп
Статья 2. шлепшепш.
пншпншпнш

как лучьше хранить? В rtf или html формате, а может вообще в другом? Это тоже вопрос.

раз мы храним форматирование, то как лучше делать поиск? к примеру если html, то текст храниться Статья 1..... ыфпфп. А клиент будет искать "Статья 1..." к примеру...

4. как?


 
turbouser ©   (2009-08-04 01:21) [6]


> DmitrichJ   (04.08.09 00:38) [5]


> 1,2- это вопрос. Т.е. спрашиваю как лучше сделать.

1) - денег есть? много?
2) можно просто текстом.. можно rtf.. можно xml... всяко можно... :(
3)-
4) -это зависит от того, в каком формате хранить.
5) - (если я правильно понял) - ведет к изучению энтой технологии.


 
turbouser ©   (2009-08-04 01:24) [7]

При нужде - я бы и на FB все сделал... Эх.. Жаль счас на мсскл основная работа... Такое г...


 
DmitrichJ   (2009-08-04 01:34) [8]


> Жаль счас на мсскл основная работа... Такое г...

и не говори


> 1) - денег есть? много?

в наше-то время? и много?


 
turbouser ©   (2009-08-04 01:51) [9]


> DmitrichJ   (04.08.09 01:34) [8]


> в наше-то время? и много?

Ну.. есть и бесплатное... зависит от предполагаемых объемов.


 
MsGuns ©   (2009-08-04 10:55) [10]

>turbouser ©   (04.08.09 01:24) [7]
>Эх.. Жаль счас на мсскл основная работа... Такое г...

Это обычное впечатление при переходе с ИБ на МССКЛ. Однако через некоторое время оно сильно меняется :)


 
Ega23 ©   (2009-08-04 11:14) [11]


> При нужде - я бы и на FB все сделал... Эх.. Жаль счас на
> мсскл основная работа... Такое г...


Это IB/FB - г..но ужасное. На MSSQL данная задача решается часовым вдумчивым читанием хелпа и наведением FTS на данное поле (я с абсолютного нуля в FTS за день разобрался).


 
StriderMan   (2009-08-04 12:52) [12]


> Это IB/FB - г..но ужасное

зато маленькое и бесплатное :D


 
Ega23 ©   (2009-08-04 13:27) [13]


> зато маленькое и бесплатное :D


Это единственные его достоинства.
Кстати, в природе MSSQL Express Edition есть. Тоже бесплатное.


 
Anatoly Podgoretsky ©   (2009-08-04 13:34) [14]

> Ega23  (04.08.2009 13:27:13)  [13]

Маленькое что, размер дистрибутива и место на диске, да лучше бы побольше было бы, побогаче.


 
StriderMan ©   (2009-08-04 13:54) [15]


> Кстати, в природе MSSQL Express Edition есть. Тоже бесплатное.

в курсе. но уже не маленькое


> Это единственные его достоинства.

Ну как же, еще в (почти-)ежегодные конференции в Москве с вкусными бутербродами :D


> Маленькое что, размер дистрибутива и место на диске, да лучше бы побольше было бы, побогаче.

место, оно самое. Ну и FB Embedded, для своих задач весьма удобен.


 
Игорь Шевченко ©   (2009-08-04 15:52) [16]


> В каком формате лучше его хранить в БД (а может и не в БД)
> и каким образом организовывать поиск в тексте по вхождению?
>  Как обрабатывать ссылки в этом тексте?


хранить в виде chm, использовать стандартный поиск. И никакой базы не надо :)


 
StriderMan ©   (2009-08-04 17:07) [17]

Сейчас правда FB Embed в сегменте встраиваемых СУБД сильно подвинут SQLite. И вообще проект firebird скорее мертв чем жив, очень медленно развивается.


 
Павел Калугин ©   (2009-08-06 10:26) [18]

Ну не знаю, я бы индекс слов по тексту построил и по нему искал.



Страницы: 1 вся ветка

Форум: "Базы";
Текущий архив: 2010.12.12;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.49 MB
Время: 0.003 c
15-1283718575
Юрий
2010-09-06 00:29
2010.12.12
С днем рождения ! 6 сентября 2010 понедельник


11-1226496136
Лотос
2008-11-12 16:22
2010.12.12
При использовании NewStrList() создаётся не пустой список


15-1283514271
tesseract
2010-09-03 15:44
2010.12.12
www магазинчики


2-1284966047
istok
2010-09-20 11:00
2010.12.12
узнать время начала сессии пользователя..


2-1285040260
Серёга
2010-09-21 07:37
2010.12.12
В сети или не в сети, вот в чём вопрос!





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский