Как удалить непроиндексированные Яндексом страницы из Sape?

@ 25 октября 2007 г. 12:20:39 / прочтений: 4078
категории: Программинг и Учебинг, Сайтострой
теги: , , , ,
музыка: Big Black Boots - Истины, IAM - Ne rien faire (Karl)
После того как я уменьшил количество внешних ссылок, я подал запрос на переиндексацию своих сайтов для пересчета ВС в Сапе. Но на одном из сайтов некоторые страницы вылетели из индекса :( И причем не мало!
Возникла проблема: Как удалить же эти непроиндексированные страницы без высоких затрат?! Опять же решение оказалось не очень сложным :) В этом мне снова помог PHP.
Я долго сокрушался по поводу того, что в Сапе нет нормального способа выделения по определенным параметрам, но потом увидел поле, для ввода УРЛ страниц для пометки:)
Вот и все! - подумал я. Проблема будет решена.
Так вот. Что нужно делать:
0) Убедитесь, что у вас есть хостинг с php и включенным allow_url_fopen. (Где брать такой хостинг? см. ниже)
1) Создаем папку для работы на веб-сервере. И дальше работаем в ней.
2) Экспортируем страницы в TXT (на странице, где расположен список страниц).
3) Создаем текстовый файл, например 1.txt, и копируем ссылки из только что экспортированного в наш новый файл.
4) Создаем файл index.php с таким вот содержанием:
<pre> <a href="http://5an.kz">San</a>'s Yandex Checker <?php set_time_limit(0); $filename="1.txt"; // Имя файла с ссылками $email='test@test.ru'; // Email, на который будет отправлен результат $sleeptime=0; // Задержка между запросами в яндекс $ans=''; $f=file($filename); for($i=0;$i<sizeof($f);$i++){ $t=str_replace('http://','',trim($f[$i])); if($t[strlen($t)-1]=='/') $t=substr($t,0,strlen($t)-1); $t='url="'.$t.'"'; $f2=implode(file('http://www.yandex.ru/yandsearch?text='.$t),''); if(strpos($f2,' — <b>0</b><br>')>0) {echo $f[$i]; $ans.=$f[$i];} elseif(strpos($f2,'captcha.yandex.net')>0){ $ans.='Робот (( '.$f[$i]; echo "ROBOT :( ".$f[$i]; break; } flush(); sleep($sleeptime); } if(@mail($email,'ya checker',$ans)) echo "Mail Sent"; ?>
Заменяем значения некоторых переменных($mail, $sleeptime, $filename). Слиптайм желательно поставить побольше.
5) Запускаем скрипт и ждем результата.
6) Список непроиндексированных страниц будет отображен в браузере, а также отправлен на email :) Если появится сообщение " Робот :(", тогда удаляем все проверенные страницы из текстового файла. Сохраняем результат. Ждем какое-то время или используем другой сервер. И переходим к п.1)
7) Копируем полученный список и вставляем в форму "Введите УРЛы страниц". Нажимаем "Проставить галочки!"
8) Выбираем "Удалить страницы до переиндексации" и нажимаем "ОК".
9) Заходим в FAQ и делаем запрос на перемодерацию.

Вот и все :) Все просто.

Теперь про хостинг для скрипта. Можно использовать такие, где предоставляют бесплатный тестовый период, к примеру 10 дней на 1gb.ua или какой-нибудь буржуйский с необрезанным php :) Например 100WebSpace.

-
Говорим спасибо firun'у за скан книги Bruce Eckel - Thinking in Java (4th edition). Качайте на здоровье :)
-
Оказывается Шенгенская зона скоро расширится!! А точнее, до Нового Года! Кипр, Чехия, Эстония, Венгрия, Латвия, Литва, Мальта, Польша, Словакия и Словения - вот они новички!
-

phot_12.jpg


Меня вчера убила картинка, найденная у Апача. Это типа логотип к Бибигону... гону...
-
Оказывается наши Казахстанские водительские права международного образца :) И с ними можно ездить по России. Еще бы машина была %)
-
Подпишитесь на обновления: новости, комментарии

Комментарии:



Игорянча @ 22 июля 2008 г. 02:36:29
Ага, автор блога просто молодец! Пишите еще!


Хелло

Подпишись на обновления!

Получать обновления на e-mail: