robots.txt для DataLife Engine

Календарь

robots.txt для DataLife Engine
+31

Уверен, все сталкиваются с проблемой дублирования контента на сайте. Первым делом ставят 301 редирект с www домена на без www или наоборот. В DataLife Engine проблема дублирования контента одним 301 редиректом не решается. Давайте представим правильную иерархию страниц сайта на DataLife Engine в индексе поисковой системе, это:
- главная страница;
- категории;
- новости;
- статические страницы.

С главной страницей и статическими страницами все ясно, а вот с категориями и новостями возникают проблемы. Если у Вас новый сайт, то проблем особых у Вас быть не должно, т.к. в новых версиях вид ЧПУ немного потерпел изменений, но те, кто еще помнит времена, к примеру, когда ЧПУ категорий было вида /category/main/ меня поймет. С новостями (контентом) тоже все ясно. Контент повторяется в календаре, каталоге (/catalog/), закладках (/favorites/), последних новостях (/lastnews/), новых новостях (/newposts/), облаке тегов (/tags/), в профилях пользователей (/user/) и на страницах сайта вида /page/ с разным уровнем вложенности. И это только с ЧПУ, но этот же наш контент доступен по другим адресам и без использования ЧПУ, а еще есть куча технических страниц, о существовании которых поисковой системе знать необязательно.

Ниже я предлагаю Вам мой вариант robots.txt для DataLife Engine, в котором учтены все выше описанные мною замечания:

User-agent: *
Disallow: /backup/
Disallow: /catalog/
Disallow: /engine/
Disallow: /favorites/
Disallow: /language/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /static/
Disallow: /tags/
Disallow: /templates/
Disallow: /uploads/
Disallow: /user/
Disallow: /addnews.html
Disallow: /admin.php
Disallow: /autobackup.php
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /*do=
Disallow: /*page/
Host: example.com
Sitemap: http://example.com/sitemap.xml

Источник: http://timoshenko.livejournal.com/tag/datalife%20engine#post-timoshenko-2655

Просмотров 10396 Категория: Хаки и советы

Комментарии
ВКонтакте

22 августа 2011 13:00

ICQ: {icq}

ИМХО, не совсем понимаю зачем запрещать выделение текста на таких сайтах как этот, выже народ отпугиваете этим, вот сейчас например я хотел скопировать себе код файла из статьи, и что ? Как мне прикажете его забрать ? Ctrl+U как-то времени нет ковырять ))) Мне кажется убирать вам надо защиту эту )

KPOHOC
- Публикаций: 0

22 августа 2011 23:47

ICQ: {icq}

KPOHOC,
Этот скрипт вообще и предназначается чтобы отпугивать народ вроде копипастеров. Это конечно не панацея, поэтому удалил.

dle-joomla
- Публикаций: 982

2 февраля 2012 18:39

ICQ: {icq}

наблюдаю различие вашего примера Роботс с примером с источника где вы взяли "скилет" почему так?)

qwas
- Публикаций: 0

2 февраля 2012 20:59

ICQ: {icq}

Поначалу у меня был этот робот.тхт, со временем претерпел изменения,
потому что оказалось, что яндексу нужно отдельные правила указывать.
У меня сейчас такой:

User-agent: *
Disallow: /*print
Disallow: /backup/
Disallow: /engine/
...................
Disallow: /index.php?do=addnews
Disallow: /index.php?subaction=newposts

User-agent: Yandex
Disallow:
Host: dle-joomla.ru

А в новом движке DLE 9.5, там в роботе уже другие немного директивы, по идее правильный робот, если вы ставите новый движок, берете робот с движка и дополняете
правилом для яндекса, директивой хост, и можно еще указать Sitemap(но думаю это не обязательно). Должно получиться где-то так:

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
...................
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm

User-agent: Yandex
Disallow:
Host: example.com
Sitemap: http://example.com/sitemap.xml

dle-joomla
- Публикаций: 982