1. Сегодня стартовали новогоднюю распродажу наших курсов! Подробности можно узнать в тут.
    Скрыть объявление

A-Parser 1.2 - продвинутый парсер поисковых систем, Whois, DMOZ, Alexa, и еще 85+ сервисов

Тема в разделе "Открытый форум - все-все-все", создана пользователем A-Parser Support, 21 май 2020.

  1. A-Parser - многопоточный парсер поисковых систем, сервисов оценки сайтов, ключевых слов, контента(текст, ссылки, произвольные данные) и других различных сервисов(youtube, картинки, переводчик...), всего A-Parser содержит более 85 парсеров

    0.gif

    A-Parser полностью решает рутинные задачи по получению, обработки и систематизации данных, необходимых для работы в следующих областях:
    • SEO-оптимизация сайтов и Web-аналитика
      • Сбор баз ссылок для XRumer, A-Poster, AllSubmitter, ZennoPoster...
      • Оценка сайтов и доменов по множеству параметров
      • Мониторинг позиции любых сайтов в поисковых системах
      • Сбор контента(текст, картинки, ролики) для генерации сайтов(дорвеев)
      • Отслеживание обратных ссылок
      • Сбор произвольной информации с любых сайтов(например телефоны/e-mails, сообщения с форумов, объявления...)
      • Сбор и оценка ключевых слов
      • Сбор списка обратных ссылок
      • И многое другое
    • Web-безопасность
      • Сбор и фильтрация баз ссылок по признакам
      • Определение CMS сайтов
      • Формирование произвольных GET, POST запросов с одновременной фильтрацией ответа
    • Сетевое администрирование
      • Работа с DNS службой - резолвинг доменов в IP адреса
      • Работа с Whois - дата регистрации и окончания регистрации доменов, name-cервера

    A-Parser обладает следующими преимуществами:
    • Колоссальная производительность
      • Многопоточность - парсер способен распараллеливать сетевые операции до 5000-10000 потоков в зависимости от конфигурации компьютера и решаемой задачи
      • Продуманная внутренняя архитектура, в которую заложена производительность и расширяемость
      • Множественные оптимизации сложных операций
      • Парсер не требователен к ресурсам, может работать как на компьютере, так и на VDS или сервере, на операционных системах Windows, Linux или FreeBSD
    • Промышленные масштабы
      • Парсер разрабатывался с учетом работы с неограниченным размером данных
      • Способен обрабатывать сотни миллионов и миллиардов запросов
      • Размеры файлов запросов и результатов ничем не ограничены и могут достигать терабайтных значений
    • Автономность
      • A-Parser рассчитан на бесперебойную и беспрерывную работу без участия пользователя
      • Очередь заданий позволяет нагрузить парсер работой на недели и месяцы вперед
      • Одновременное выполнение нескольких разных задач для скорейшего получения результатов
    • Поддержка более 85 парсеров
      • Парсеры поисковых систем: [​IMG] Google, [​IMG] Yandex, [​IMG] AOL, [​IMG] Bing, [​IMG] Baidu, [​IMG] DuckDuckGo, [​IMG] QIP, [​IMG] Yahoo, [​IMG] YouTube
      • Парсеры подсказок поисковых систем: [​IMG] Google, [​IMG] Yandex, [​IMG] Bing, [​IMG] Yahoo
      • Парсеры и анализ ключевых слов: кейворды и частотность по [​IMG] Yandex.WordStat, в т.ч. по датам и регионам; частотность по [​IMG] Yandex.Direct; [​IMG] Google Trends
      • Регистрация аккаунтов: [​IMG] Yandex
      • Парсеры параметров сайтов и доменов: позиции в поисковых системах Google, Yandex, QIP; TrustRank, Compromised, SafeBrowsing, LangDetect, LangDetect через Bing, тИЦ, Whois, DNS, CMS, Ahrefs, Alexa, Category, DMOZ, Linkpad, MajesticSEO, OpenSiteExplorer, SEMrush
      • Парсеры различных сервисов: Bing Translator, Google Images, Bing Images, Google Maps, Yandex.Direct, AntiGate
      • Парсеры контента: TextExtractor, LinkExtractor, BackLink, HTTP парсер для создания произвольных парсеров
    • Создание собственных парсеров
      • Использование регулярных выражений
      • Поддержка многостраничного парсинга
      • Проверка контента и наличия следующей страницы
    • Мощные инструменты для формирования запросов и результатов
      • Конструктор запросов и результатов - позволяет видоизменять данные(поиск и замена, выделение домена из ссылки, преобразования по регулярным выражениям...)
      • Подстановки для запросов: из файла; перебор слов, символов и цифр
      • Фильтрация результатов - по вхождению подстроки, равенству, больше\меньше
      • Уникализация результатов - по строке, по домену, по главному домену(A-Parser знает все домены верхнего уровня, в т.ч. такие как co.uk, msk.ru)
      • Мощный шаблонизатор результатов на основе Template Toolkit - позволяет выводить результаты в любом удобном виде(текстом, csv, html, xml, произвольный формат)
    • Гибкость настроек
      • В парсере используется система пресетов - для каждого парсера можно создать множество предустановленных настроек для различных ситуаций
      • Настроить можно все - никаких рамок и ограничений
      • Экспорт и импорт настроек позволяет легко обмениваться опытом с другими пользователями
    • Сетевые возможности
      • Поддержка HTTP/1.1 и HTTPS
      • Поддержка HTTP и SOCKS5 прокси, в т.ч. с авторизацией
      • Полностью асинхронная работа с сетью, в т.ч. с DNS
    • API
      • Возможность интегрировать и управлять парсером из своих программ и скриптов
      • Полная автоматизация бизнес-процессов
      • Клиенты для PHP, Perl и Python
    • Постоянные улучшения и исправления
      • Разработка парсера началась в 2011 году, а первый релиз вышел зимой 2012 года
      • С тех пор было выпущено более 70 новых версий, включающих множество улучшений и исправлений
      • A-Parser не останавливается в развитии, идет активная разработка, будет реализовано множество новых функций, в т.ч. по запросам от пользователей
    • Техническая поддержка
      • Мы прилагаем все усилия по поддержке пользователей и ответам на все возникающие вопросы
      • Создана подробная документация по A-Parser'у, открыт форум для пользователей
      • Специалист технической поддержки готов ответить любым удобным способом: ICQ, Skype, Jabber, GoogleTalk, e-mail и через форму онлайн связи на сайте
      • Разработчики A-Parser'а готовы ответить на любые сложные и технические вопросы, также открыты к обсуждению улучшений и дополнений для парсера

    Более подробно ознакомится с возможностями парсера можно в полноценной документации

    A-Parser предоставляется в трех версиях, сравнительная таблица и стоимость лицензий:

    1.png

    Мы принимаем к оплате в автоматическом режиме все популярные платежные системы, такие как WebMoney, BitCoin, PayPal, Visa, MasterCard, Paxum, Яндекс.Деньги, QIWI, PerfectMoney, банковские переводы, терминалы оплаты и многое другое.
    Для приобретения лицензии необходимо зарегистрироваться на сайте http://a-parser.com и перейти на страницу оплаты.
    Если у вас возникли вопросы - обращайтесь по любым контактам в техническую поддержку

    Контакты:

    [​IMG]
     
  2. 1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах

    [​IMG]

    Мы завершили переход на NodeJS в качестве основного движка для парсеров и представляем новую стабильную версию 1.2.912 с поддержкой NodeJS 14.2.0. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога npmjs в A-Parser'е

    Также в данное обновление включены изменения по работе с ReCaptcha2 в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом RuCaptcha, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, XEvil и CapMonster.

    Помимо этого было произведено множество оптимизаций в ядре A-Parser'а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер [​IMG] Rank::CMS был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил.

    Улучшения
    • NodeJS обновлен до v14.2.0, v8 до 8.1
    • Добавлена поддержка параметра data-s в рекаптчах для [​IMG] SE::Google, также добавлена опция ReCaptcha2 pass proxy
    • Увеличен лимит потоков до 10000 для OS Windows
    • Значительно улучшена производительность при большом числе активных прокси и/или заданий, полностью переписан стек по работе с прокси, оптимизирована работа с большими списками
    • Добавлен новый парсер Rank::KeysSo
    • Полностью переписаны на JS [​IMG] SE::Yahoo::Suggest, [​IMG] Rank::Alexa::API и [​IMG] Rank::Archive
    • Улучшена производительность при использовании регулярных выражений, а также улучшена совместимость
    • В [​IMG] SE::Google::KeywordPlanner добавлено автоматическое получение токена
    • В [​IMG] SE::Bing добавлена возможность парсить ссылки на кэшированные страницы, а также добавлена возможность парсить мобильную выдачу
    • В парсере [​IMG] Util::ReCaptcha2 при выборе провайдера Capmonster или Xevil теперь необязательно указывать Provider url
    • В [​IMG] SE::Google::Trends добавлена возможность указывать произвольный диапазон дат
    • В [​IMG] Rank::CMS добавлен выбор движка регулярок и поддержка собственного файла с признаками
    • В [​IMG] SE::Yandex::ByImage добавлена опция Don't scrape if no other sizes, которая позволяет отключить сбор результатов, если искомой картинки нет в других размерах
    • [NodeJS] Добавлена защита от бесконечных циклов и долгих регулярок
    • [NodeJS] Исправлена работа this.cookies.getAll()
    • [JS парсеры] Добавлена опция follow_meta_refresh для this.request
    • [JS парсеры] Добавлена опция bypass_cloudflare для this.request
    • [JS парсеры] Underscore заменен на Lodash
    • [JS парсеры] В логе добавлена пометка при вызове других парсеров
    • [JS парсеры] Использование предыдущего прокси после запроса к другому парсеру
    • [JS парсеры] Добавлен метод destroy()
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлен баг, из-за которого игнорировался выбранный проксичекер
    • Исправлена работа функций Decode HTML entities и Extract domain в Конструкторе результатов
    • Исправлена проблема с определением кодировки
    • Исправлена ошибка использования $tools.query
    • Исправлен баг в Rank::MajesticSEO при котором использовались все попытки при отсутствии результатов
    • Исправлена работа http2
    • Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt
    • Исправлено разгадывание каптч в SE::Yandex::Register и Check::RosKomNadzor
    • Исправлена разница в запросах, отправляемых через Net::HTTP и JS
    • Исправлен баг в SE::Yahoo
    • Исправлены ошибки в Rank::CMS при выборе приложения без категории
    • [NodeJS] Исправлен подсчет времени исполнения кода парсера
    • [JS парсеры] При пустом body не передавался заголовок content-length при post запросе
    • [JS парсеры] Исправлена работа CloudFlare bypass
    • [JS парсеры] Исправлена работа с сессиями
    • [JS парсеры] Исправлена работа с overrides для this.parser.request
    • [JS парсеры] Исправлена ошибка определения кодировки в JS парсерах

    [​IMG]
     
  3. Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросов
    Представляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов.
    Парсер Ahrefs::BrokenLink
    Ahrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию.
    [​IMG]
    Парсер builtwith.com
    Этот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id.
    [​IMG]
    Определение коммерциализации запроса
    Способ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи.
    [​IMG]
    Кроме этого:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.
    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.
    Все сборники рецептов
    [​IMG]
     
  4. Видео урок: где смотреть переменные, скрытые переменные и какой результат они выводят (примеры)
    В этом видео рассмотрели где смотреть переменные, какие бывают скрытые переменные и какой результат они выводят на примерах.



    Содержание видео:
    00:20 - 1. Где смотреть какие у парсера есть переменные?
    1:16 - 2. Какие бывают скрытые переменные ($query.*, $root и т.п.)?
    1:22 - переменная root
    2:08 - переменная root объект
    3:14 - переменная query.orig
    4:04 - переменная query.first
    5:24 - переменная query.lvl
    5:50 - переменная query.prev
    6:20 - переменная query.num
    Все возможные методы TT для работы с обьектами
    Форматирование запросов (шаблоны)
    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
    [​IMG]
     
  5. 1.2.948 - новые парсеры SecurityTrails IP и Domain, поддержка доменных прокси, множество исправлений

    [​IMG]

    Улучшения
    • Добавлен парсер [​IMG] Rank::MOZ.
      Собираемые данные: вся информация, содержащаяся на странице.
    • Добавлены парсеры [​IMG] SecurityTrails:: Domain и [​IMG] SecurityTrails::IP.
      Для работы парсеров необходимо указать пресет [​IMG] Util::ReCaptcha2.
      • [​IMG] SecurityTrails::IP
        В качестве запроса следует указывать ipv4 адрес.
        Собирает домены по IP и информацию о них.
      • [​IMG] SecurityTrails:: Domain
        В качестве запроса следует указывать домен, например a-parser.com.
        Собираемые данные:
        • Данные по DNS
        • Список технологий, используемых на сайте (движки и проч.)
        • Список открытых портов
        • Alexa rank
        • Страна
        • Хостер
        • Даты начала и окончания регистрации
        • Whois статус
        • Регистратор
        • Список исторических данных по DNS
        • Список субдоменов
    • Добавлена возможность отключать валидацию TLS сертификатов.
    • Добавлена поддержка доменных прокси.
    Исправления в связи с изменениями в выдаче
    • Исправлен парсинг новостей в [​IMG] SE::Google.
    • Исправлен [​IMG] Social::Instagram::profile.
    • Исправления в [​IMG] SE::Yandex:
      • исправлен парсинг турбо ссылок;
      • исправлен парсинг новостных сниппетов.
    • Исправления в [​IMG] SE::Google, [​IMG] SE::Baidu, [​IMG] SE::Yandex:: Direct, [​IMG] Shop::Yandex::Market.
    • Исправления в [​IMG] SE::Yahoo - ошибка в выборе стран, у которых одинаковый домен, восстановлен парсинг сниппетов.
    Исправления
    • Исправлена ошибка в алгоритме автовыбора домена в [​IMG] SE::Yandex.
    • Исправлена работа [​IMG] Rank::MajesticSEO, [​IMG] SE::Bing::Translator.
    • Исправлена ошибка, если файл config.txt был сохранен в кодировке utf-8 с BOM (парсер некорректно читал файл).
    • Решена проблема с переопределениями опций в парсере [​IMG] HTML::LinkExtractor.
    • NodeJS: новые установленные модули теперь доступны до перезагрузки A-Parser'a.
    • Исправлено падение парсера при вызове метода getProxies.

      [​IMG]
     
  6. Сборник статей #12: скорость работы парсеров, debug режим и работа с куками

    В 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками.

    Скорость и принцип работы парсеров
    В этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга.
    [​IMG]

    Использование Debug режима
    В этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные.
    [​IMG]

    Работа с куками и заголовками на примере соглашения с правилами сайта auto.ru
    А в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer.
    [​IMG]


    Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :)) - отписывайтесь здесь.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники статей

    [​IMG]
     
  7. Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string

    В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера



    1. Где и как можно посмотреть результаты парсинга?
    2. Как подключить прокси с авторизацией?
    3. Extra query string, что это такое и как применять эту опцию?
    В уроке рассмотрено:
    • Просмотр результатов парсинга 3-мя способами:
      • Способ первый. "Из очереди заданий, если задание на паузе".
      • Способ второй. "Из очереди заданий, если задание завершено".
      • Способ третий. "Забираем результат из папки results".
    • Подключение прокси с авторизацией.
    • Примеры использования опции Extra query string.
    Полезные ссылки:
    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

    [​IMG]
     
  8. Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF

    43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.

    Аукцион доменов REG.RU
    Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.
    [​IMG]

    Определение категорий сайта
    Парсер, собирающий категории сайтов из MegaIndex.
    [​IMG]

    Парсинг PDF
    Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.
    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники рецептов

    [​IMG]
     
  9. Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by
    44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.
    Парсер Cloudflare Radar
    Парсер для сбора категорий сайтов из Cloudflare Radar
    [​IMG]
    Rozetka - получение данных по API
    Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.
    [​IMG]
    Парсинг объявлений kufar.by
    Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.
    [​IMG]
    А также, обновлены следующие ресурсы:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.
    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.
    Все сборники рецептов
    [​IMG]
     

Поделиться этой страницей