Параметры

Parent Previous Next

X-Parser-Light

Автоматический парсер контента


Параметры парсера


Описание:

Вкладка Параметры предназначена для установки основных параметров парсера. Как и кейворды, параметры могут быть сохранены и загружены, не зависимо от других вкладок. Ниже приведен внешний вид владки. Еще ниже оисаны все параметры, задаваемые на данной вкладке.


Внешний вид вкладки параметров:


На вклаладке Параметры расплагаюются две группы настроек - это Параметры парсера и Параметры сохранения контента. Ниже приведен полный перечень всех параметрок этих двух групп:


    Параметры парсера:

    1. Название парсера - служит для идентификации комплекта настроек, а так же служит именем файла, если Вы весь контент сохраняете в один файл.
    2. Поисковик - выбор поисковой системы, через которую будет осуществляться поиск релевантного контента. Перечень поисковиков задается в Настройках поисковых систем.
    3. Необходимое количество контента (kb/key) - Задает объем контента в килобайтах, которое Вы хотите получить по каждому кейворду. Если указать 0, то параметр будет игнорироваться и парсер получит весь возможный контент. Имейте в виду, что максимальное количество контента зависит от допустимого количества ссылок в выдаче ПС (как правило не больше 100 страниц по 10-100 ссылок нга странице) и количества статей в выдаче, удовлетворяющих заданным настройкам.
    4. Количество потоков - задает количество потоков, которое будет выделено системой для осуществления сбора контента. Прямопропорционально влияет на скорость парсинга, т.е. чем больше - тем быстрее и наоборот. Но это не значит, что указав 10000 потоков Вы получите скорость в 100 раз большую чем при 10 потоках, так как возрастает и нагрузка на систему. Для получения оптимальной скорости используйте диапазон начиная от количества ядер процессора и заканчивая количеством ссылок в выдаче, которое Вы выберите в нвастройках. Большее количество потоков в любом случае не будет задействовано. Например, если Вы указали парсеру брать 50 ссылок из выдачи ПС и ядер у Вас, к примеру - четыре, то можете использовать диапазон от 4 до 50 потоков. Опытным путем можете подобрать оптимальное значение в данном диапазоне.
    5. Сколько статей получить (шт/кей) - задает количество статей, которое Вы хотите получить по каждому кейворду. Как и в случае с количеством контента, если указать 0, то параметр будет игнорирован.  Максимальное количество статей зависит от допустимого количества ссылок в выдаче ПС (как правило не больше 100 страниц по 10-100 ссылок нга странице) и количества статей в выдаче, удовлетворяющих заданным настройкам.
    6. Мин. длинна статьи (кол-во символов) - задает минимальную длинну статьи в количестве символов. Задав в данном параметре значение равное 300, Вы получите только статьи длиннее 300 символов. Имейте в виду, что при низких значениях данного параметра Вы рискуете получить много разного "мусора".
    7. Таймауты обращения к ПС (сек) - задает паузы в секундах между обращениями к поисковику. Актуально для снижения частоты выдачи каптчи поисковиком. Содержит 2 значения:

Если предположить, что реальный пользователь страницы выдачи может листать достаточно быстро, а на ввод нового кейворда нужно немного больше времени, то имеет смысл устанавливать данные интервалы соответствующим образом, напрмер 3 и 6 сек. соответственно.

    1. Количество ссылок в выдаче ПС - задает количество ссылок на странице выдачи ПС.
    2. Форматирование контента - задает один из следующих вариантов форматирования контента:
    1. Алгоритм фильтрации статей - задает один из следующих алгоритмов фильтрации статей:
    1. Список стоп-констукций в URL - задает список URL, каждый с новой строки, с которых парсер не будет парсить контент. Можно задавать части URL, полные URL или регулярные выражения.


    Параметры сохранения контента:

    1. Формат обработанного текста - задает один из форматов, настраиваемых в Настройках форматов вывода, в котором будет сохранен конечный контент.
    2. Параметры проверки контента - задает один из двух возможных режимов:
    1. Если файл уже существует - позволяет указать что какое из нижеперечисленных действий предпринять, если файл уже существует:
    1. Если файл уже существует - позволяет указать что какое из нижеперечисленных действий предпринять, если файл уже существует:
    1. Формат сохранения контента - в данном параметре можно указать как Вы хотите сохранять контент:
    1. Формат названий файлов - указывает, можно ли использовать кирилицу в названиях файлов:
    1. Путь к сохраняемому контенту - задает путь к папке, в которую будут сохранен контент. Имейте в виду, что конечный контент будет находиться именно в этой папке. Если в Параметрах проверки контента будет выбран пункт Использовать менеджер контента для ручной проверки контента перед сохранением то в указанной папке будет так же создана временная категория с названием Temp_Content в которой будут сохранены промежуточные результаты парсинга. Обратите внимание, что файлы из папки  Temp_Content не являются текстовыми и открываются только в X-Parser-Light.


Как сохранить или загрузить параметры:

Чтобы сохранить настройки парсера в файл воспользуйтесь одним из следующих вариантов:

  1. В подменю Файл главного меню нажмите на элемент с именем Сохранить настройки. Если Вы не открывали настройки, а заполнили все поля вручную, то Вам будет предложено задать имя нового файла. Если же настройки были сохранены ранее или открыты, то список будет сохранен в тот же файл, который был ренее сохранен или открыт. Если нужно сохранить файл под новым именем, воспользуйтесь подменю Сохранить как...
  2. В меню быстрого запуска нажмите на иконку дискеты , убедитесь что открыта именно вкладка Параметры, так как действие вызываемое данной кнопкой зависят от выбранной вкладки. Если Вы находитесь на другой вкладке, то можете нажать на стерлку рядом с иконкой дискеты и выбрать пункт Сохранить настройки в выпавшем меню.

Created with the Personal Edition of HelpNDoc: Full featured EPub generator