Уверен, все сталкиваются с проблемой дублирования контента на сайте. Первым делом ставят 301 редирект с www домена на без www или наоборот. В DataLife Engine проблема дублирования контента одним 301 редиректом не решается. Давайте представим правильную иерархию страниц сайта на DataLife Engine в индексе поисковой системе, это:
- главная страница;
- категории;
- новости;
- статические страницы.
С главной страницей и статическими страницами все ясно, а вот с категориями и новостями возникают проблемы. Если у Вас новый сайт, то проблем особых у Вас быть не должно, т.к. в новых версиях вид ЧПУ немного потерпел изменений, но те, кто еще помнит времена, к примеру, когда ЧПУ категорий было вида /category/main/ меня поймет. С новостями (контентом) тоже все ясно. Контент повторяется в календаре, каталоге (/catalog/), закладках (/favorites/), последних новостях (/lastnews/), новых новостях (/newposts/), облаке тегов (/tags/), в профилях пользователей (/user/) и на страницах сайта вида /page/ с разным уровнем вложенности. И это только с ЧПУ, но этот же наш контент доступен по другим адресам и без использования ЧПУ, а еще есть куча технических страниц, о существовании которых поисковой системе знать необязательно.
Ниже я предлагаю Вам мой вариант robots.txt для DataLife Engine, в котором учтены все выше описанные мною замечания:
User-agent: *
Disallow: /backup/
Disallow: /catalog/
Disallow: /engine/
Disallow: /favorites/
Disallow: /language/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /static/
Disallow: /tags/
Disallow: /templates/
Disallow: /uploads/
Disallow: /user/
Disallow: /addnews.html
Disallow: /admin.php
Disallow: /autobackup.php
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /*do=
Disallow: /*page/
Host: example.com
Sitemap: http://example.com/sitemap.xml
Источник: http://timoshenko.livejournal.com/tag/datalife%20engine#post-timoshenko-2655