Обзор граббинг продуктов.
Осуществляется RSS-граббинг и HTML-граббинг. В версии за 100$ есть синонимайзинг, т.е. новость не только грабится с картинками, но текст уникализируется с помощью базы синонимов, которую можно редактировать. Но есть впечатление, что с прошлого, т.е. 2009 года проект не поддерживается.
FDE Grabber. Официальный сайт программы, где можно
FDE Grabber - это не модуль, а отдельная система, которая устанавливается рядом с вашей CMS.Граббер работает с такими движками (CMS, публикует в них полученные новости), как: DLE (Data Life Engine), Strawberry, 2z-project, NG, Wordpress, Joomla, E107, Drupal, Danneo, TYPO3, NetCat, Slaed, FDE. Платный. Стоимость одной лицензии составляет $77.7
Вообще, очень много граббингов для Например, RSS GRABBER Официальный сайт программы, где можно С синонимайзером. И что интересно с переводчиком, т.е. можно грабить иностранные новости и автоматически переводить. Платный 45WMZ.
Напомню, что модуль предназначен для импорта информации с сайтов, в случаях, когда на них нет стандартной возможности для этого (например, через RSS). Предположим вам нужно разместить у себя на сайте некое расписание. На сайте-источнике нет возможности его получить (нет RSS, нет информеров и т.п.). Вот тут-то вам и поможет этот модуль Content Grabber.
Граббинг осуществляется по тегам. Т.е. помечаете первый тег и последний. В рамках этого тега все грабится. Но контент в базу данных пока не сохраняется. Это серьезный минус.
Content hunter. Модуль, который позволяет брать материалы с других сайтов. Правила граббинга составляются на основе регулярных выражений. Поэтом для успешного применения данного модуля желательны познания в теории регулярных выражений.
латно.
Feed Gator. Сегодня этот проект не поддерживается. Бесплатный. Официальный сайт программы, где можно
Устанавливается, если устанавливается коряво, что неслучайно для Joomla! 1.5 он не предусмотрен. Обновления компонента прекращены в 2007 последняя версия Feed Gator 0.5beta2. Поэтому в Joomla! 1.5 работает, только в режим совместимости (Legacy Mode).
Устанавливается криво, т.к. настроен на кодировку 1251 кракозябры, все файлы надо было переправить в UTF-8. У нас выложенная переправленная версия. На официальном сайте версия с кракозябрами.
JC JoomRSS. Официальный сайт программы, где можно (сайт «Joomla! – начало» не гарантирует совместимость, работоспособность и бесплатность расширения, скаченного с данного сайта).
Доступная обновленная версия платного компонента JC JoomRSS 2.0-BETA, мощного инструмента, дающего возможность получать информацию из RSS лент, а затем преобразовывать в отдельные материалы Joomla!. Такая возможно представлена для любой новостной RSS-ленты. Один RSS-канал может использоваться для нескольких разделов/категорий. Платный компонент, стоимость на 6 месяцев - $20.00, на ггод $35.00.
Настройка удивительно проста. На вкладке Cron Configuration нажимаем кнопку включит Cron. (не забудьте, файл Вашего шаблона должен иметь права 777, чтобы код Cron смог изменить файл шаблона). Работает не со всеми шаблонам. Поэтому предварительно шаблон надо проверить. Шаблон может не грузиться.
На вкладке Add RSS URL добавляем ленту. И все.
OpenGrabber. Это отечественная разработка. Официальный сайт программы, где можно
OpenGrabber – это открытая система импорта новостей, распространяемая под лицензией GPL. OpenGrabber – это не компонент и не модуль какой-либо CMS – это автономная система скриптов написанная на PHP. Поэтому как его устанавливать не понятно, необходимы знания РНР. Инструкций никаких нет. Пробуйте, может у Вас получится. Пишите автору на официальном сайте.
NewsGrabber. Старый еще для Joomla! 1.0. Разработчик: Mironoff Denis. Платный 800 руб. Обсуждение и где можно . Из-за своей древности мной не тестировался.
NewsGrabber ST. Граббер хороший, но сложен в настройках. Скрипт собирает новостной или прочий контент в два этапа. На первом этапе обрабатываются заголовки новостей. Заголовки можно получать как из RSS/ATOM, так и с обычных HTML страниц. Далее, по ссылке на новость, скрипт получает полный текст публикации. Все полученные новости размещаются в соответствующих разделах и категориях сайта. Возможна настройка полностью автоматического обновления содержимого и обновление с предварительной модерацией полученного контента.
ArticleGenerator. Платный. Официальный сайт программы, где можно
Раньше был бесплатный.
Настраивается и работает легко, но он вставляет ссылки на сайт разработчика. Эту проблему тоже можно решить, но зачем тратить время, когда есть отличные бесплатные компоненты без всяких проблем.
JuliaRssToArticle. Простота не всегда гениальность. Официальный сайт программы, где можно
Недостатки
Будем надеяться, что проект будет развиваться. Все хорошо, но нет, фильтрации по словам, нельзя загрузить вручную.
4rss. Официальный сайт программы, где можно
Простенький рабочий минимум настроек есть. Но именно минимум. Нет внутреннего крона, придется включать внешний крон на хостинге.
Romb RSS. Специальный компонент граббинга для Joomla! Romb RSS. Бесплатный. Официальный сайт программы, где можно
Тестировался, полностью рабочий и легко настраиваемый. Настройка
Компоненты -> Romb RSS Aggregator -> Создать:
1) Указываете url rss источника (группы или фида romb.ru).
2) Выбираете Категорию.
3) Выбираете оставлять или нет ссылку на источник, если оставлять, то:
4) Активная ссылка или пассивная (просто текст http://www.сайт.ru/ или ссылка
5) Текст перед ссылкой, например: <br><br>Ссылка:
Теперь можно поставить на крон сбор новостей.
Romb. Есть еще система
Бесплатно
var $log_path = 'z:\\home\\ifinter-test\\www\\logs';
var $tmp_path = 'z:\\home\\ifinter-test\\www\\tmp\\';
Ообратите внимания на полный путь к папкам tmp и logs или на диск на котором у вас стоит локальный сервер.
HTML-граббинг + RSS -граббинг
Самый известный NewsGrabberJC. Официальный сайт программы, где можно Программа платная от 35 до 100 долларов. Лицензия только на 5 компьютеров.Осуществляется RSS-граббинг и HTML-граббинг. В версии за 100$ есть синонимайзинг, т.е. новость не только грабится с картинками, но текст уникализируется с помощью базы синонимов, которую можно редактировать. Но есть впечатление, что с прошлого, т.е. 2009 года проект не поддерживается.
FDE Grabber. Официальный сайт программы, где можно
FDE Grabber - это не модуль, а отдельная система, которая устанавливается рядом с вашей CMS.Граббер работает с такими движками (CMS, публикует в них полученные новости), как: DLE (Data Life Engine), Strawberry, 2z-project, NG, Wordpress, Joomla, E107, Drupal, Danneo, TYPO3, NetCat, Slaed, FDE. Платный. Стоимость одной лицензии составляет $77.7
Вообще, очень много граббингов для Например, RSS GRABBER Официальный сайт программы, где можно С синонимайзером. И что интересно с переводчиком, т.е. можно грабить иностранные новости и автоматически переводить. Платный 45WMZ.
HTML-граббинг
Отечественный продукт Content Grabber. Официальный сайт программы, где можноНапомню, что модуль предназначен для импорта информации с сайтов, в случаях, когда на них нет стандартной возможности для этого (например, через RSS). Предположим вам нужно разместить у себя на сайте некое расписание. На сайте-источнике нет возможности его получить (нет RSS, нет информеров и т.п.). Вот тут-то вам и поможет этот модуль Content Grabber.
Граббинг осуществляется по тегам. Т.е. помечаете первый тег и последний. В рамках этого тега все грабится. Но контент в базу данных пока не сохраняется. Это серьезный минус.
Content hunter. Модуль, который позволяет брать материалы с других сайтов. Правила граббинга составляются на основе регулярных выражений. Поэтом для успешного применения данного модуля желательны познания в теории регулярных выражений.
латно.
RSS -граббинг
RSS Граббинг- полное или частичное копирование новостей чужой новостной ленты в вашу новостную ленту.Feed Gator. Сегодня этот проект не поддерживается. Бесплатный. Официальный сайт программы, где можно
Устанавливается, если устанавливается коряво, что неслучайно для Joomla! 1.5 он не предусмотрен. Обновления компонента прекращены в 2007 последняя версия Feed Gator 0.5beta2. Поэтому в Joomla! 1.5 работает, только в режим совместимости (Legacy Mode).
Устанавливается криво, т.к. настроен на кодировку 1251 кракозябры, все файлы надо было переправить в UTF-8. У нас выложенная переправленная версия. На официальном сайте версия с кракозябрами.
Проблемы с кодировкой текста лечатся так
Файло: administrator\components\com_feedgator\etc\magpie\rss_fetch.inc
Заменяем это:
if ( !defined('MAGPIE_OUTPUT_ENCODING') ) {
define('MAGPIE_OUTPUT_ENCODING', ' ISO-8859-1');
}
if ( !defined('MAGPIE_INPUT_ENCODING') ) {
define('MAGPIE_INPUT_ENCODING', 'null');
}
if ( !defined('MAGPIE_DETECT_ENCODING') ) {
define('MAGPIE_DETECT_ENCODING', true);
}
на это:
if ( !defined('MAGPIE_OUTPUT_ENCODING') ) {
define('MAGPIE_OUTPUT_ENCODING', 'windows-1251');
}
if ( !defined('MAGPIE_INPUT_ENCODING') ) {
define('MAGPIE_INPUT_ENCODING', 'windows-1251');
}
if ( !defined('MAGPIE_DETECT_ENCODING') ) {
define('MAGPIE_DETECT_ENCODING', false);
}
Файло: administrator\components\com_feedgator\etc\magpie\rss_parse.inc
Заменяем это:
function MagpieRSS ($source, $output_encoding='ISO-8859-1',
$input_encoding=null, $detect_encoding=true)
на это:
function MagpieRSS ($source, $output_encoding='windows-1251',
$input_encoding=null, $detect_encoding=false)
Заменяем это:
if ( !defined('MAGPIE_OUTPUT_ENCODING') ) {
define('MAGPIE_OUTPUT_ENCODING', ' ISO-8859-1');
}
if ( !defined('MAGPIE_INPUT_ENCODING') ) {
define('MAGPIE_INPUT_ENCODING', 'null');
}
if ( !defined('MAGPIE_DETECT_ENCODING') ) {
define('MAGPIE_DETECT_ENCODING', true);
}
на это:
if ( !defined('MAGPIE_OUTPUT_ENCODING') ) {
define('MAGPIE_OUTPUT_ENCODING', 'windows-1251');
}
if ( !defined('MAGPIE_INPUT_ENCODING') ) {
define('MAGPIE_INPUT_ENCODING', 'windows-1251');
}
if ( !defined('MAGPIE_DETECT_ENCODING') ) {
define('MAGPIE_DETECT_ENCODING', false);
}
Файло: administrator\components\com_feedgator\etc\magpie\rss_parse.inc
Заменяем это:
function MagpieRSS ($source, $output_encoding='ISO-8859-1',
$input_encoding=null, $detect_encoding=true)
на это:
function MagpieRSS ($source, $output_encoding='windows-1251',
$input_encoding=null, $detect_encoding=false)
Проблемы с кодировкой заголовка лечатся так
Установив Feed Gator столкнулся с UTF-8 в названии новости. И нашёл рение проблемы. Говорю сразу решение грубое, но действненное. Для исправления заголовка принудительно перекодируем его из юникода в 1251 перед занесением в базу. Для этого в файле admin.feedgator.php находим строку
$query = "INSERT INTO #__content (`title`, `title_alias`, `introtext`, `fulltext`, `state`, `sectionid`, `mask`, `catid`, `created`, `created_by`, `created_by_alias`, `checked_out`, `publish_up`, `publish_down`, `attribs`, `version`, `ordering`, `metakey`, `access` )";
и прямо перед ней вставляем следующую
$title = iconv('UTF-8','WINDOWS-1251',$title);
$query = "INSERT INTO #__content (`title`, `title_alias`, `introtext`, `fulltext`, `state`, `sectionid`, `mask`, `catid`, `created`, `created_by`, `created_by_alias`, `checked_out`, `publish_up`, `publish_down`, `attribs`, `version`, `ordering`, `metakey`, `access` )";
и прямо перед ней вставляем следующую
$title = iconv('UTF-8','WINDOWS-1251',$title);
У меня он не пошел. Время дорого, я не стал углубляться, у дргуих вроде идет, после кучи исправлений.
Доступная обновленная версия платного компонента JC JoomRSS 2.0-BETA, мощного инструмента, дающего возможность получать информацию из RSS лент, а затем преобразовывать в отдельные материалы Joomla!. Такая возможно представлена для любой новостной RSS-ленты. Один RSS-канал может использоваться для нескольких разделов/категорий. Платный компонент, стоимость на 6 месяцев - $20.00, на ггод $35.00.
Настройка удивительно проста. На вкладке Cron Configuration нажимаем кнопку включит Cron. (не забудьте, файл Вашего шаблона должен иметь права 777, чтобы код Cron смог изменить файл шаблона). Работает не со всеми шаблонам. Поэтому предварительно шаблон надо проверить. Шаблон может не грузиться.
На вкладке Add RSS URL добавляем ленту. И все.
OpenGrabber. Это отечественная разработка. Официальный сайт программы, где можно
OpenGrabber – это открытая система импорта новостей, распространяемая под лицензией GPL. OpenGrabber – это не компонент и не модуль какой-либо CMS – это автономная система скриптов написанная на PHP. Поэтому как его устанавливать не понятно, необходимы знания РНР. Инструкций никаких нет. Пробуйте, может у Вас получится. Пишите автору на официальном сайте.
NewsGrabber. Старый еще для Joomla! 1.0. Разработчик: Mironoff Denis. Платный 800 руб. Обсуждение и где можно . Из-за своей древности мной не тестировался.
NewsGrabber ST. Граббер хороший, но сложен в настройках. Скрипт собирает новостной или прочий контент в два этапа. На первом этапе обрабатываются заголовки новостей. Заголовки можно получать как из RSS/ATOM, так и с обычных HTML страниц. Далее, по ссылке на новость, скрипт получает полный текст публикации. Все полученные новости размещаются в соответствующих разделах и категориях сайта. Возможна настройка полностью автоматического обновления содержимого и обновление с предварительной модерацией полученного контента.
ArticleGenerator. Платный. Официальный сайт программы, где можно
Раньше был бесплатный.
Настраивается и работает легко, но он вставляет ссылки на сайт разработчика. Эту проблему тоже можно решить, но зачем тратить время, когда есть отличные бесплатные компоненты без всяких проблем.
JuliaRssToArticle. Простота не всегда гениальность. Официальный сайт программы, где можно
Недостатки
- Не работает отбор статей по кириллическим символам.
- Нет автоматического крона, как собственно нет, практически ни у одной аналогичной программы
- Нет возможности регулировать количество скаченных статей.
Будем надеяться, что проект будет развиваться. Все хорошо, но нет, фильтрации по словам, нельзя загрузить вручную.
4rss. Официальный сайт программы, где можно
Простенький рабочий минимум настроек есть. Но именно минимум. Нет внутреннего крона, придется включать внешний крон на хостинге.
Romb RSS. Специальный компонент граббинга для Joomla! Romb RSS. Бесплатный. Официальный сайт программы, где можно
Тестировался, полностью рабочий и легко настраиваемый. Настройка
Компоненты -> Romb RSS Aggregator -> Создать:
1) Указываете url rss источника (группы или фида romb.ru).
2) Выбираете Категорию.
3) Выбираете оставлять или нет ссылку на источник, если оставлять, то:
4) Активная ссылка или пассивная (просто текст http://www.сайт.ru/ или ссылка
5) Текст перед ссылкой, например: <br><br>Ссылка:
Теперь можно поставить на крон сбор новостей.
Теперь можно поставить на крон сбор новостей, я поставил следующим образом:
(Для системы FreeBSD под правами root с помощью secure shell)
(Для системы FreeBSD под правами root с помощью secure shell)
Создать файл, например, в директории /home/www/ pars.sh с содержимым
- #!/bin/sh
- fetch -T 999
Сменить права на файл для запуска:
- chmod 777 /home/www/pars.sh
И прописать в кроне автозапуск:
- ee /etc/crontab
Добавить строку для обновления раз в 1 часа 40 минут:
- 40 */1 * * * root /home/www/pars.sh
Перезагрузить крон:
- killall -HUP crontab
Он-лайн грабберы
Можно решать проблему граббинга иначе. Есть сайт NewsGrabber, на котором выложены специальные . Но все они привязаны к определенным новостным лентам, плюс, еще необходимо показывать рекламу сайта этих скриптов.Romb. Есть еще система
Бесплатно
- Парсинг полного текста новости. Берет список заголовков и ссылок на новость. Скачивает новости по ссылкам.
- Вам не нужно настраивать у себя скрипты, устанавливать модули PHP, нагружать сервер процессами парсинга. Все будет сделано нашими серверами. Все доработки системы одновременно доступны всем пользователям!
- Для каждой ленты-источника можно написать список тегов, от которых будет очищена новость. Все остальные теги исчезнут, останется только текст.
- Группируйте ленты-источники. У каждой группы свой RSS с новостями из всех лент.
- В теге link - ссылка на основной источник новости. В теге description - полная новость в html формате.
- Фильтрация по ключевым словам. Например берете автоновости с нескольких лент, группируете. В группе указываете ключевые слова "шины" и т.д., получаете новости авто шин.
- Автоматический парсинг по расписанию, админка рерайтера, закачка картинок. Для каждой ленты нужно выставить период парсинга (10 мин. - 24 ч.). На периоде парсинга строится ценообразование (от 0.04$/24ч. до 0.25$/24ч.).
Ленты RSS
Лент RSS много. например, на данный момент доступны грабберы для этих ресурсов:var $log_path = 'z:\\home\\ifinter-test\\www\\logs';
var $tmp_path = 'z:\\home\\ifinter-test\\www\\tmp\\';
Ообратите внимания на полный путь к папкам tmp и logs или на диск на котором у вас стоит локальный сервер.

так какой из них лучший?