Парсеры контента + софт для вебмастеров
    663-847-900

Penguin - Система обработки баз ключевых слов

Добавлена 31-января 2016

PenguinPenguin – это бесплатная программа, служащая для обработки текстовых файлов больших размеров (до терабайта). Под обработкой подразумевается возможность осуществления выборок по ряду условий, фильтрация этих выборок от любого мусора, сортировка, перемешивание, удаление явных и неявных дублей строк, поиск дубликатов строк, осуществление поиска, замены и т.п.

Penguin позволяет свободно открывать текстовые файлы любых размеров и просматривать их содержимое, что позволяет удобно и быстро настраивать параметры фильтров для качественной очистки содержимого файлов или выборок от всех нежелательных элементов.

Penguin абсолютно бесплатен и может использоваться без каких либо ограничений. В дополнение он имеет расширенную верию, которая имеет дополнительный функционал, который будет расширяться с новыми обновлениями. Так же Вы можете заказывать совершенно бесплатно любые дополнения функционала под себя. Стоимость расширенной версии составляет всего 10$. При покупке расширенной версии Вы так же получаете дополнительные бонусы, на сегодняшинй день – это скидка в 50% на покупку X-Parser Light.

Области применения Penguin:

  • Основной, но далеко не единственной, областью применения Penguin является подбор ключевых слов из текстовых баз (файлов), подобных Базе Пастухова, которые можно найти в свободном доступе в сети.
  • Так же он будет полезен, если возникает необходимость извлечь нужные данные из любого списка или файла, или очистить его от ненужных элементов.
  • Вполне возможно применение Penguin для очистки отпарсенного контента от дублей и любого мусора, что бывает необходимо при подготовке текстов под доргены.

Интерфейс программы Penguin

Программа состоит всего из одной формы, скриншот которой Вы можете увидеть ниже. Все элементы имеют всплывающие подсказки, особо важные элементы формы имеют подробное описание их возможностей. Назначение каждой кнопки Вы увидите, просто наведя на них указатель мыши. Интерфейс прост и интуитивно понятен, так что думаю проблем с Пингвином у Вас не должно возникнуть.

Penguin - Система обработки баз ключевых слов

Краткий видеообзор возможностей Penguin

Какие задачи может решать Penguin:

  • Открывать и просматривать контент больших текстовых файлов (1-2000Gb).
  • Производить выборки по ряду условий из текстовых файлов любых размеров со скоростью порядка 1 гигабайта в минуту.
  • Производить фильтрацию строк или кейвордов по включениям. Т.е. задав в качестве включения слово "Скачать" Вы получите все строки, которые содержат данное слово. Возможно задавать несколько включений одновременно, можно использовать регулярные выражения.
  • Производить фильтрацию строк или кейвордов по исключениям. Т.е. задав в качестве включения слово "Бесплатно" Вы получите все строки, которые не содержат данное слово. Возможно задавать несколько включений одновременно, можно использовать регулярные выражения.
  • Производить фильтрацию фильтрации строк или кейвордов по дублям слов (в расширенной версии).
  • Фильтровать строки по длине.
  • Фильтровать строки по количество слов.
  • Удалять явные дубли.
  • Удалять неявные дубли (в расширенной версии).
  • Находить дубли. Актуально, если нужно найти пересечения в нескольких списках любых строк или кейвордов (в расширенной версии).
  • Производить поиск нужных элементов каждой строки с помощью регулярных выражений. Например можно с легкостью из списка с данными клиентов извлечь список телефонов, задав 1 условие.
  • Производить поиск-замену, как с регулярными выражениями, так и без, в текстовых файлах неограниченных размеров.
  • Производить обработку одновременно нескольких файлов.
  • Производить выборку по разным включениям, сохраняя результаты в разные файлы, получая отдельные выборки по каждому условию за 1 проход (в расширенной версии).
  • Сохранять все настройки для повторного выполнения однотипных обработок.

Благодаря визуализации контента позволяет удобно и быстро настраивать фильтры посредством сочетаний клавиш и контекстного меню. Например выделив слово в открытом файле и нажав Ctrl+W слово будет добавлено во включения, Ctrl+Q – в исключения. Все сочетания клавиш дублируют возможности контекстного меню, которое можно вызвать, кликнув на выделении правой кнопкой мыши.

Я (автор) нередко применяю Penguin для таких задачь: копирую какой-либо список со страницы любого сайта, например прокси или домены, в Penguin со всем мусором, который  попал при копировании в буфер обмена, настраиваю фильтры за десять секунд и, запустив обработку, получаю список нужных мне результаов. Если речь идет о необходимости просто скопировать список на 1 странице, то более удобного варианта просто нет.

Комментариев: 24
bro

увеличте пожалуйста до 5 гб лимит при чеке дублей

Ответить

Через некоторое время добавлю, пока не удалось разработать алгоритм, который бы позволял это делать быстро и без нагрузки на память. При удалении дублей нужно сравнить все элементы списка друг с другом, на больших объемах это проблематично сделать. Но над этим работа идет. Сам я делаю так: произвожу выборку по нужным условиям, потом уже удаляю дубли. Получается намного быстрее, чем заранее фильтровать исходный файл от дублей. Возможно, такое решение Вам так же подойдет.

Ответить

Админ

Prosto

Здравствуйте! Программа очень удобная в работе, всем рекомендую попробовать laughing
У меня появилось 2 вопроса:
- если с помощью функции "Добавить файл с кейвордами в список обработки" добавить сразу несколько разных баз, то поиск нужных включений будет осуществляться сразу и одновременно по всем добавленным базам или только по той, которая отображается в данный момент в окне Предосмотров результатов обработки?
- если в окне Список слов исключений выбрать Строка содержит цифры\латиницу и т.д., то удалятся ключи, целиком состоящие из цифр\латиницы и т.д., или ключи, содержащие в своем составе цифры\латиницу и т.д.?
Заранее спасибо за ответ и, конечно, за программу!

Ответить

не понятно как сохранить или показать найдены слова, если нажать кнопку остановить не дожидаясь окончания работы программы, а то 10гб долго ждать, а 15 тыс найденных вариантов за минуту мне бы хватило

Ответить

Отвечаю на поставленные вопросы:

 

Prosto:

1. Программа обрабатывает сразу все файлы, добавленные в список обработки, окно отображения контента файла служит только для визуализации содержимого файла. То какой файл отображается на обработку ни как не влияет. 

2. Если в исключениях задать шаблон "Строка содержит цифры", то будут удалены все строки содержащие цифры. Учитывайте, что это просто регулярные выражения, которые Вы можете менять на свой лад. Например если шаблон в программе выглядит так [0-9]+ и указывает удалялть строки содержащие цифры, то если задать такой шаблон: ^[0-9]+$, то будут удаляться строки которые состоят только из цифр. Почитайте про регулярные выражения, там все достаточно просто. Потренироваться с настройкой регулярок лучше всего используя поиск. Т.е. пробуете задать регулярку в поиске ищите, если то что надо нашлось - значит регулярное выражение корректное. Так можно достаточно быстро понять их суть.

 

user, Данную возможность я не делал, добавлю в ближайшем обновлении возможность сохранять результаты при остановке процесса. Это действительно было бы удобно.

 

Ответить

Админ

bro

admin,
я чекаю не кеи а домены. их уникальных 200 000 000.

памяти у меня 64

Ответить

А происхождение базы ключевых какое? Какова давность?

Ответить
efs

admin,
добавьте лимит выборки. т.е. кроме лимитов на кол-во слов/символов, чтобы еще можно было указать лимит найденных строк.
из ответов выше стало понятно, что можно по очереди открывать файлы ключей и они все будут добавлены в список обработки, это мягко говоря не наявно, добавьте возможность сразу выбрать несколько файлов для обработки 

Ответить

Простое пожелание - чтобы прога учитывала пробелы в конце слова в списке слов-включений и исключений.
Например мне нужно сделать выборку по слову "мост", без всяких "мосты", "моста" и т.д., а оно обрезает пробел последний.  

Ответить

Дмитрий, база данных на 10 миллионов ключей взята для примера из паблика, можно таких на торрентах разной давности нарыть. Я находил до 50-ти гиг.

efs, идеи хорошие, учту. Обновы надеюсь скоро сделать, пока занимаюсь парсером.

Reset, делается просто: добавляете вместо пробела [ ]+ в конец или в начало вашей строки во включениях или исключениях. Покурите регулярки - там все просто, так же можете мне написать в аську помогу разобраться с ними.

Ответить

Админ

efs

поймал забавный баз. делаю выборку из ~150кк, останавливают выборку на 2-3к найденых ключей (отображаются в окне программы) сохраняю в файл. в файл сохраняется только одна строка, при этом в окне программы все остальные найденные ключи пропадают и показывает только первую строку. v 3.7

Ответить
efs

еще небольшой баг. при открытии файла в кодировке UTF-8, программа показывает вдвое большее кол-во строк чем есть на самом деле.

Ответить

Количество строк определяется примерно в любой кодировке, так как файл не считывается полностью и количество строк считается на основании усредненной длины строки рассчитанной по первым нескольким тысячам строк. После перовй выборки количество строк уже показывается точное, так как все строки были пройдены и посчитаны. При открытии файла выводится приблизительное значение, которое может имть большую погрешность. Но программа ведь не для подсчета строк в файле сделана, думаю тратить на открытие файла времени как на выборку ради подсчета точного количества строк не разумно.

Ответить

Админ

Мне нужно было сделать выборку из 80000 строк по критериям в 600 строк, каждую в отдельный файл.
Прога думала 2 часа, сделала первые 10 ключей :(
это так и задумано что 10 штук всего выбирается или я иного загрузил? 

Ответить

Смотри, суть такова: чем больше условий, тем больше операций проделывается с каждой строкой из 80000, т.е. если мы делаем выборку по 1 условию то это скажем выполниться за минуту, если по 600, то умножай это время на 600. т.е. 10 часов. В целом я лично не представляю что за 600 условий могут быть. Я обхожусь от силы 1-10 условиями чтобы все что надо отфильтровать. Если есть возможность - отфильтруй сначала список по основным условиям, а потом уже, когда он явно уменьшится - фильтруй остальными условиями. Напиши в аську, посмотрим как лучше твою задачу решить.

Ответить

Админ

Ай молодца,
заменило вхождение 5.000.000 вхождений в строк   в файле 150 Мб меньше чем за минуту !

Ответить

Можно ли добавить еще функцию сохранения файлов в несколько частей?

Ответить

Да, на днях будут обновления пингвина плановые, а в следующих можно будет добавить разбивку больших файлов на части. Делить удобнее как: по количество кеев или по весу получаемых файлов?

Ответить

Админ

admin,
Лучше и так и так. Программа понравилась. Файл на 59 млн. ключей открывается моментально. Фильтрация по минус-словам идет уверенно, без зависаний. Другие программы не справлялись с большими объемами, но Пингвин справился на ура.

Ответить

Можно сделать кнопку чтобы удалялись все ключи без регистрозависимости?

А то очень неудобно: сначала все ключи в нижний регистр в другой программе переводишь, и только потом удаляешь все что нужно.

Это к ключам с городами относится и к разным названиям.

 

PS

Хорошая программа. Работает очень быстро. Не жалею что купил полную версию. Спасибо!

Ответить

Столкнулся с проблемой. Установил программу на двух компьютерах v5.3. На одном работает нормально, а на другом при запуске выдаёт ошибку "Penguin 1.0 - обнаружена ошибка. Приложение будет закрыто. Приносим извинения за неудобства." На обоих компьютерах Windows XP SP3.

Ответить
<!--[if gte mso 9]>

Софт хороший. Но можно ли увеличить скорость работы на больших списках минус-слов? Например, по моей тематике выдает около 5млн. ключевых слов, а мой файл стоп-слов состоит из 5к различных минус-слов + регулярки. Сейчас приходится разбивать работу, но хотелось бы все за раз делать.

 

Ответить
efs

добавьте возможность добавлять ключи не только указанием файла, но и указанием директории, содержащей файлы с ключами

Ответить

Сергей, регистрозависимость добавлю.

Alex, напишите в аську - разберемся с Вашей проблемой, если у кого-то что-то подобное прослеживается тоже пишите.

Нагибатор, на больших объемах ускорить трудно, он в целом фактически на пределе возможностей работает. Если условий очень много, то и операций много и нужно время на их выполнение. Так же напишите в аську, дайте мне Ваши данные, тогда я смогу их протестировать и оптимизировать работу под такие объемы.

efs, Вы можете открыть папку выделить все файлы и добавить их всем списком.

Ответить

Админ

Оставить комментарий
Ваше Имя:
Ваш E-Mail:
Код:
Введите код:

Купить X-Parser Light в складчину Купить X-Parser Light Скачать X-Parser Light Информация для диллеров
Новости
14-августа 2016 X-Parser-Light обновлен до версии 1.9.9

Внимание!  Были выпущены новые обновления X-Parsr Light. Парсер обновлен до версии 1.9.9...

4-августа 2016 Penguin обновлен до версии 6.0

Внимание!  Вышло обновление Penguin до версии 6.0.  Внесены следующие изменения: Иправлена ошибка, возникшая...

19-июля 2016 Penguin обновлен до версии 5.9

Внимание!  Вышло обновление Penguin до версии 5.9.  Внесены следующие изменения: Исправлена ошибка в...

9-июня 2016 X-Parser-Light обновлен до версии 1.9.1

Внимание!  Были выпущены новые обновления X-Parsr Light. Парсер обновлен до версии 1.9.1...

30-мая 2016 X-Parser-Light обновлен до версии 1.8.7

Внимание!  Были выпущены новые обновления X-Parsr Light. Парсер обновлен до версии 1.8.7...

21-апреля 2016 Penguin обновлен до версии 5.7

Внимание!  Вышло обновление Penguin до версии 5.7.  Внесены следующие изменения: Добавлена возможность создавать...

4-марта 2016 X-Parser-Light обновлен до версии 1.8.4

Внимание!  Были выпущены новые обновления X-Parsr Light. Парсер обновлен до версии 1.8.4...

3-февраля 2016 Penguin обновлен до версии 5.3

Внимание!  Вышло обновление Penguin до версии 5.3.  Внесены следующие изменения: Добавлена возможность подключать...

18-декабря 2015 X-Parser-Light обновлен до версии 1.8.1

Внимание!  Были выпущены новые обновления X-Parsr Light. Парсер обновлен до версии 1.8.1...

21-ноября 2015 X-Parser-Light обновлен до версии 1.7.8

Внимание!  Были выпущены новые обновления X-Parsr Light. Парсер обновлен до версии 1.7.8...

Скидка 40%

Акция! До 7 сентября 2014 года Вы можете приобрести X-Parser Light, а так же расширенную версию Penguin со скидкой 40%! До конца акции - 3 дня!

X-Parser: 1716 руб. (2860 руб.)

Penguin: 300 руб. (500 руб.)

Узнать подробнее об акции