Вот к примеру донорская страница http://www.simferopol.info/news/681574/ Вот кусок кода в котором полный текст и картинка.
<div class="news_img">
<img width="1000" src="http://img-fotki.yandex.ru/get/131107/267681572.17c/0_351224_881f1e05_orig" class="news_item_photo">
<meta property="og:image" content="http://img-fotki.yandex.ru/get/131107/267681572.17c/0_351224_881f1e05_orig.jpg"/> </div>
<div class="clear"></div>
<br/>
<div class="news_item_text">
<p>Председатель Государственного Совета Республики Крым Владимир Константинов в преддверии празднования Дня строителя поздравил работников и ветеранов отрасли с их профессиональным праздником.<br/> <br/> По словам главы крымского парламента, профессия строителя во все времена была и остается самой почетной и востребованной.</p>
<p>«Работа по преобразованию Крыма находится в активной фазе. Республика строится, и отрасль восстанавливает утраченные в период экономического кризиса 2008 года позиции. Уверен, на ближайшие пять лет перспективы хорошие, и став локомотивом республиканской экономики, строительство в Крыму еще долгие годы будет демонстрировать уверенные темпы роста», – отметил глава законодательной власти республики. <br/> <br/> Владимир Константинов пожелал всем присутствующим реализации намеченных планов и новых достижений на выбранном пути, а также вручил заслуженные награды.</p> </div>
<div class="sn_title">Похожие новости</div>
Вот мои настройки и сообщение о том что текст не найден.
Прошу слезно объяснить, почему так происходит? На одних сайтах делая примерно тоже-самое все работает, а на других не работает. Логику не пойму.Объясните хоть кто-то, что я не правильно делаю?
Потому что... неверные настройки ))
1. Не указана кодировка. Должна быть windows-1251
2. Проблема в шаблоне ссылок. Обратите внимание на разницу, например, для этой ссылки _http://www.simferopol.info/news/681624/ и _http://www.simferopol.info/news/681624 - т.е. первая со слешем в конце вторая нет. На данном сайте не настроен 301 редирект страниц без слеша в конце на страницы со слешем. По второй ссылке, соответственно, и не будет найден контент, т.к. это уже будет страница категории /news/ Чтобы избегать подобных проблем слеш в шаблоне ссылок всегда нужно экранировать, т.к. в регулярных выражениях он является разделителем (http://php.net/manual/ru/regexp.referen ... miters.php).
не знал что слеш нужно экранировать, у вас у обоих в примерах часть регулярки \/S{6}, чем отличается заглавная S от s? Хотя мой пример тоже работает
[\s\S] (все пробельные и непробельные символы, включая символ новой строки)
Огромное человеческое спасибо! малый опыт настройки лент сказывается, из-за такой мелочи застопорился.)
Когда писал свой ответ, ваш еще не прошел модерацию ) Я обычно тоже использую d, w или их комбинацию. Слеш экранировать не панацея, но так правильнее
Это верно замечено правильнее использовать их, но комбинации к примеру:
([\w\d]) и ([\w])
практически приведут к одному и тому же ответу, а вот подобные:
([\w]) и ([\w\D])
дают абсолютно другой эффект.
В WPGrabber немного по другому, если вы не экранируете слэш, то это не приведет к фатальной ошибке и максимум выдаст предупреждение, а вот неэкранированный обратный слэш (иногда встречается в исходном коде и не путайте со служебными символами которые нужно экранировать всегда) может привести к неработоспособности всего выражения.