0

Стоит задача пройтись по ссылкам сайта

http://www.zone-h.org/archive

открывать ссылки вида http://www.zone-h.org/mirror/id/22714269

и копировать поле с IP адрессом в единый текстовый файл.

Как посоветуете реализовать на Питоне? Какие посоветуете библиотеки/примеры использовать? Спасибо за советы.

3
  • Чем родной питоновский html.parser не устроил?
    – user6550
    23 июл 2014 в 8:49
  • Эмъ... это только для меня для получения IP надо было капчу вводить? Или вы на питоне хотите это обойти? Т.е. вы предлагаете нам помочь вам написать робот, который легко может быть превращен в спам-робот? UPD: открыл повторно - уже без капчи, открыл в "режиме инкогнито" - без капчи. А первый раз - с капчей было. Странно все это )
    – BOPOH
    23 июл 2014 в 9:33
  • У меня никаких каптч не спрашивает.
    – KoVadim
    23 июл 2014 в 9:35

1 ответ 1

1

С содержимым сайта очень удобно работать используя Grab, а Browser из mechanize позволяет почувствовать себя настоящим браузером :) кстати, grab тоже умеет обрабатывать редиректы, куки, выбирать случайный юзерагент из своего списка или пользовательского, а также прокси и все необходимое...

Эта статья мне когда-то очень помогла - позволяет быстро вникнуть в то, как нужно парсить, что для этого использовать (стоит взглянуть на дату публикации) и все в этом духе.

Ваш ответ

By clicking “Отправить ответ”, you agree to our terms of service and acknowledge you have read our privacy policy.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками или задайте свой вопрос.