Справочные материалы для вакансии: Парсер

Главная

Информация излагается подробно, чтобы были ответы на максимальное количество стандартных вопросов. Пожалуйста, читайте внимательно, экономьте свое и чужое время!

Требуется: парсер сайтов на постоянное сотрудничество (регулярная основа). 1-2 человека. Не FullTime!

1. Основные задачи

1.1. Парсить контент с сайтов.

2. Требования

2.1. Четкое понимание и знание регулярных выражений.

2.2. Знания HTML верстки (структура DOM объектов), но верстать ничего не требуется.

2.3. Обязательное умение работать в программе Content Downloader.

Только после первоначального, удачного сотрудничества, может быть предложена альтернатива, то этот вопрос обсуждается индивидуально. BAS, Python и прочие возможные автоматизаторы могут рассматриваться как альтернатива. Ключевой момент, чтобы любой другой человек, мог изменить проект.

Из практики, Content Downloader остается основной программой для работы, из-за специфики.

2.4. Исправлять свои ошибки (баги) без требования оплаты.

Касается только ошибок (багов), а не доработок.

2.5. Быть на связи.

Иметь возможность ответить на запрос (вопрос) в течение 24 часов с момента отправки сообщения. Коммуникация через Skype не реже 1 раза в сутки. Без Skype, кандидаты рассматриваются в последнюю очередь.

Другие каналы связи могут быть использованы после успешного первичного сотрудничества и достижения приемлемых результатов работы.

Да, Skype важен. Из-за одного парсера, всю работу группы людей перестраивать никто не будет.

2.6. Готовность в начале сотрудничества переделывать работу, чтобы добиться требуемого результата (качества).

2.7. Аккуратный человек.

Именно внимательность к деталям будут основным критерием оценки работы человека.

3. Цена вопроса, вознаграждение

3.1. Обсуждается с каждыми индивидуально.

  • Настройка проекта = цена №1.
  • Настройки проекта + парсинг на собственных ресурсах = цена №2.
  • Настройки проекта + парсинг на ресурсах заказчика = цена №3.
  • Настройка проекта + парсинг на ресурсах заказчика + заливка результата в соответствующее место = цена №4.
  • и так далее.

3.2. Выплаты производятся не чаще 1 раза в неделю.

3.3. Оплата по факту выполненных работ. Без какой-либо предоплаты.

3.4. Почасовая оплата НЕ РАССМАТРИВАЕТСЯ, оплата только за результат.

4. Объем работы

Настроить в проекте границы по ниже описанным параметрам и отправить парсится.

4.1. category_title

Категория (заголовок категории). К какой категории относится страница. Иногда можно брать названия из параметров разметки OpenGraph.

Уровень сложности: легко.

Параметр: обязательный.

Категория (заголовок категории). К какой категори относится страница
Категория (заголовок категории). К какой категори относится страница

4.2. page_title

Заголовок страницы. В основном, данные берутся из тега <title>. Если <title> нет, то берутся альтернативные варианты <h1>, разметка OpenGraph и так далее.

В заголовках убираются всякие окончания, типа:

  • | название сайта (домен)
  • - категория
  • и так далее.

Уровень сложности: легко.

Параметр: обязательный.

Заголовок страницы
Заголовок страницы

4.3. page_h1

Заголовок страницы.

Как правило, такая же граница, что и title за редким исключением, о котором сообщается индивидуально по проекту.

Уровень сложности: легко.

Параметр: не обязательный, но желательный.

4.4. page_keywords

Ключевые слова для страницы. Данные берутся из тега <meta name="keywords">.

Уровень сложности: легко.

Параметр: не обязательный, но желательный.

Ключевые слова
Ключевые слова

4.5. page_description

Краткое описание для страницы. Данные берутся из тега <meta name="description">.

Уровень сложности: легко.

Параметр: не обязательный, но желательный.

Краткое описание
Краткое описание

4.6. page_image

Картинка по умолчанию для страницы (статьи).

В основном берется из разметки OpenGraph или первая картинка на странице.

Уровень сложности: легко.

Параметр: настоятельно рекомендуется, чтобы этот параметр присутствовал, но допускается его отсутствие.

4.7. page_content

Содержание страницы вместе с тегами.

Уровень сложности: трудно.

Параметр: обязательный.

Минимальный размер: 500 символов, чаще минимум 1000 символов.

Максимальный размер: 15 000 символов.

Все остальные действия (куда, что посылать) прописано в шаблоне, в том числе и список разрешенных тегов. Остальные будут запрещены.

В контент сайтов не должны входить:

- рекламные вставки;

- рейтинг страницы;

- количество просмотров;

- социальные кнопки;

- отзывы;

- комментарии;

- блоки «Рекомендуется».

и так далее. То есть любые блоки, которые не несут полезной информации по отношению к статье.

5. Дополнительная информация (примечания)

5.1. Рассматриваются как мужчины, так и женщины.

5.2. Человек может и не знать всех тонкостей, но если является аккуратным и может находить компромиссы в беседе, то это отличный кандидат, так как всем премудростям онлайн работы прилагается обучение.

5.3. Если человек будет заниматься другими работами не в ущерб качеству и скорости изготовления контента, то никаких претензий не будет.

5.4. Шарашкины конторы не принимаются, нужен именно человек.

5.5. Первоначально, требуется поместить заявку на вакансию на weblancer.net.

Если заявка будет интересной, и видно, что человек внимательно прочитал условия, то через приватные сообщения будет обращение.

5.6. Прямые переписки, минуя оформление заявок на weblancer.net будут игнорироваться.

5.7. Текущая потребность порядка 50 сайтов в месяц (минимум). В очереди на парсинг стоит порядка 1000 сайтов.

5.8. Многое из того, что описано в этом документе, уже учтено и прописано в шаблоне программы Content Downloader.

5.9. Работа удаленная.

5.10. Default шаблон парсинга для программы Content Downloader.

7. Ответы на вопросы

7.1. Где брать список сайтов?

Список сайтов предоставляется индивидуально.

7.2. Надо будет заниматься поиском сайтов для парсинга?

Нет. Самостоятельно поиском сайтов для парсинга заниматься не требуется. Но если впоследствии будет желание, можно провести обучение и делегировать это занятие парсеру. Естественно, эта работа будет оплачиваться отдельно.

7.3. Что делать если границы настроить невозможно?

Если границы при парсинге трудно настраиваются, то:

1. В первую очередь сообщить об этом в письменной форме (через мессенджер).

2. Проводится совместный, более детальный анализ сайта по настройке границ для парсинга контента.

3. Если границы действительно нельзя настроить, так как надо, то будет выдан другой проект. А этот вычеркнут

В 95% случаев (предыдущего опыта) невозможность настройки границ связано со слабой квалификацией.

К сожалению, не сразу получается определить корректность верстки того или иного сайта.

7.4. На сколько сложно новичку?

Вся сложная работа уже сделана. Потребуется только хорошее знание регулярных выражений и небольшой опыт с программой ContentDownloader.

7.5. У меня нестандартный вопрос, куда обратиться?

Связь доступна практически каждый день. Обращаться с четким вопросом можно в любой момент (днем и ночью).