Показать полную графическую версию : Можно-ли собрать оптом инфу о статусе товаров с и-нет магазина?
hellrised
07-09-2010, 12:22
Я в этом деле ничего не понимаю, и возможно спрошу\скажу глупость, но я попробую.
Есть и-нет магазин. Есть необходимость раз-два в неделю проверить наличие \ остутсвие 200 - 300 наименований товара. В идеале вывести результат в таблицу.
Насколько это вообще реально? Насколько трудоемко, и, как следствие, насколько дорого заказать такую вещь?
Предполагаю, что все-таки зависит еще и от того самого и-нет магазина, но пока вопрос такой, какой есть, без конкретики.
Спасибо.
Если разметка и адреса всех страниц схожие, то реализовать сбор информации достаточно просто (адреса, например, имеют номера от 1.html до 300.html или что-то в этом духе). Кодируется, думаю, за час (плюсуем сюда время на формирование красивого отчёта, обновления по расписанию, создание интерфейса и т.п.)
Если надо на странице каталога выискивать ссылки и по ним скачивать страницы, то это сложнее, но незначительно. Опять же, "ровная" разметка значительно упрощает процедуру.
Да, ещё: если владелец сайта установил ограничения на загрузку страниц (например, не больше 10 штук в секунду или что-то в этом духе), то надо будет ещё предусматривать интервалы между запросами. Проф, может, это быстро сделает, а новичку придётся повозиться.
hellrised
07-09-2010, 12:42
вообще надо не совсем сбор информации. есть код товара. этот код берется из таблицы (ее несложно сделать вручную - час/ два моего времени), ищется на сайте, определяется его наличие по соответствующей надписи (этот момент меня смущает больше всего), и ставится в таблице соответсвующая этому товару запись - есть он или отсутствует.
вообще скорость сканирования совсем не критична, критично делать это вручную.
Регекспы подразумевают постоянство хтмл-кода. Удобнее сделать API для получения данных в удобном формате (XML,JSON и т.д.)
hellrised
07-09-2010, 12:55
Регекспы - тут не пропущен пробел или точка?А то я нервничаю при виде этого слова. :)
Регексп - регулярное выражение (много букв). Парсинг хтмл-кода идет в основном за счет них (preg_match и т.д.).
Регексп (http://ru.wikipedia.org/wiki/Регексп)
Sham, думаю, речь идёт о разборе чужого интернет-магазина, т.ч. API вряд ли получится сделать. Или о своём всё-таки? Нет данных.
есть код товара. этот код берется из таблицы, ищется на сайте, определяется его наличие по соответствующей надписи, и ставится в таблице соответсвующая этому товару запись - есть он или отсутствует. »
Каким образом он ищется? Поисковым движком или подставляется куда-нибудь в адресную строку типа id=8387?
Найти конкретное слово в тексте - очень просто, если оно единственное на странице. Смущать не должно :)
А я в первую очередь подумал о простой функции поиска - без регулярных выражений.
hellrised
07-09-2010, 13:15
магазин чужой.
Адреса страниц типа - http://www.адрес_магазина /код_товара_типа_AB123C /название_товара_с_подчеркиваниями_вместо_пробелов. html
если уж делать исходную таблицу кодов интересующих товаров, то вместе с его кодом можно воткнуть и адрес страницы.
Видимо поиск товара ни к чему, если его адрес известен. Остается автоматом найти метку "товар в наличии" или ее отсутствие. (в коде страницы даже мне не составило труда его найти вручную)
Ну что ж, если все ссылки будут, то вообще всё просто. А если страницы открываются даже по запросу http://www.адрес_магазина /код_товара_типа_AB123C / (без дальнейшей части), то и ссылки не нужны - кода хватит.
Вопрос решён?:)
hellrised
07-09-2010, 13:38
с коротким адресом не выходит.
Вопрос решен :) т.е. ясно, что реально и не сложно.
Как следствие ответ на вопрос породил еще вопрос - где взять?
я хоть и учился на что-то смежное, но учился плохо, да и не работал по специальности близкой. Сам вряд-ли справлюсь...
Напишите подробное техническое задание (что есть, что хотим получить в итоге, как должно выглядеть, может даже на каком языке должно быть написано, если это принципиально и т.п.), оставьте на форуме - может кто и поможет :)
Хотя я не уверен, что размещение прямой ссылки на интернет-магазин - это хорошая мысль.
hellrised
07-09-2010, 14:53
потому и не выдал адрес сайта.
Мне хоть что надо? скрипт? прога? еще может чего?
тут прямо размещать? или во флейме сходить?
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.
Available in ZeroNet 1osznRoVratMCN3bFoFpR2pSV5c9z6sTC