Текст не найден. Почему? Плагин wpgrabber

Вот к примеру донорская страница http://www.simferopol.info/news/681574/ Вот кусок кода в котором полный текст и картинка.

 <div class="news_img">
                                                <img width="1000" src="http://img-fotki.yandex.ru/get/131107/267681572.17c/0_351224_881f1e05_orig" class="news_item_photo">
                  <meta property="og:image" content="http://img-fotki.yandex.ru/get/131107/267681572.17c/0_351224_881f1e05_orig.jpg"/>                    </div>
                            <div class="clear"></div>
            <br/>
                            <div class="news_item_text">
               <p>Председатель Государственного Совета  Республики Крым Владимир Константинов в преддверии празднования Дня  строителя поздравил работников и ветеранов отрасли с их профессиональным  праздником.<br/> <br/> По словам главы крымского парламента, профессия строителя во все времена была и остается самой почетной и востребованной.</p>
<p>&laquo;Работа по преобразованию Крыма находится в  активной фазе. Республика строится, и отрасль восстанавливает утраченные  в период экономического кризиса 2008 года позиции. Уверен, на ближайшие  пять лет перспективы хорошие, и став локомотивом республиканской  экономики, строительство в Крыму еще долгие годы будет демонстрировать  уверенные темпы роста&raquo;, &ndash; отметил глава законодательной власти  республики. <br/> <br/> Владимир Константинов пожелал всем присутствующим реализации намеченных  планов и новых достижений на выбранном пути, а также вручил заслуженные  награды.</p>            </div>
<div class="sn_title">Похожие новости</div>

 

Вот мои настройки и сообщение о том что текст не найден.
Прошу слезно объяснить, почему так происходит? На одних сайтах делая примерно тоже-самое все работает, а на других не работает. Логику не пойму.

Объясните хоть кто-то, что я не правильно делаю?

Потому что... неверные настройки ))

1. Не указана кодировка. Должна быть windows-1251
2. Проблема в шаблоне ссылок. Обратите внимание на разницу, например, для этой ссылки _http://www.simferopol.info/news/681624/ и _http://www.simferopol.info/news/681624 - т.е. первая со слешем в конце вторая нет. На данном сайте не настроен 301 редирект страниц без слеша в конце на страницы со слешем. По второй ссылке, соответственно, и не будет найден контент, т.к. это уже будет страница категории /news/ Чтобы избегать подобных проблем слеш в шаблоне ссылок всегда нужно экранировать, т.к. в регулярных выражениях он является разделителем (http://php.net/manual/ru/regexp.referen ... miters.php).

не знал что слеш нужно экранировать, у вас у обоих в примерах часть регулярки \/S{6}, чем отличается заглавная S от s? Хотя мой пример тоже работает

[\s\S] (все пробельные и непробельные символы, включая символ новой строки)

Огромное человеческое спасибо! малый опыт настройки лент сказывается, из-за такой мелочи застопорился.)

Когда писал свой ответ, ваш еще не прошел модерацию ) Я обычно тоже использую d, w или их комбинацию. Слеш экранировать не панацея, но так правильнее ;)

Это верно замечено правильнее использовать их, но комбинации к примеру:

([\w\d]) и ([\w])

практически приведут к одному и тому же ответу, а вот подобные:

([\w]) и ([\w\D])

дают абсолютно другой эффект.

В WPGrabber немного по другому, если вы не экранируете слэш, то это не приведет к фатальной ошибке и максимум выдаст предупреждение, а вот неэкранированный обратный слэш (иногда встречается в исходном коде и не путайте со служебными символами которые нужно экранировать всегда) может привести к неработоспособности всего выражения.

guest
Закрыть меню

Предложить новую тему