Навигация

 
 

Календарь

«    Март 2024    »
ПнВтСрЧтПтСбВс
 123
45678910
11121314151617
18192021222324
25262728293031
 

robots.txt для DataLife Engine
+31

robots.txt для DataLife Engine

Уверен, все сталкиваются с проблемой дублирования контента на сайте. Первым делом ставят 301 редирект с www домена на без www или наоборот. В DataLife Engine проблема дублирования контента одним 301 редиректом не решается. Давайте представим правильную иерархию страниц сайта на DataLife Engine в индексе поисковой системе, это:
- главная страница;
- категории;
- новости;
- статические страницы.

С главной страницей и статическими страницами все ясно, а вот с категориями и новостями возникают проблемы. Если у Вас новый сайт, то проблем особых у Вас быть не должно, т.к. в новых версиях вид ЧПУ немного потерпел изменений, но те, кто еще помнит времена, к примеру, когда ЧПУ категорий было вида /category/main/ меня поймет. С новостями (контентом) тоже все ясно. Контент повторяется в календаре, каталоге (/catalog/), закладках (/favorites/), последних новостях (/lastnews/), новых новостях (/newposts/), облаке тегов (/tags/), в профилях пользователей (/user/) и на страницах сайта вида /page/ с разным уровнем вложенности. И это только с ЧПУ, но этот же наш контент доступен по другим адресам и без использования ЧПУ, а еще есть куча технических страниц, о существовании которых поисковой системе знать необязательно.

Ниже я предлагаю Вам мой вариант robots.txt для DataLife Engine, в котором учтены все выше описанные мною замечания:

User-agent: *
Disallow: /backup/
Disallow: /catalog/
Disallow: /engine/
Disallow: /favorites/
Disallow: /language/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /static/
Disallow: /tags/
Disallow: /templates/
Disallow: /uploads/
Disallow: /user/
Disallow: /addnews.html
Disallow: /admin.php
Disallow: /autobackup.php
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /*do=
Disallow: /*page/
Host: example.com
Sitemap: http://example.com/sitemap.xml

Источник: http://timoshenko.livejournal.com/tag/datalife%20engine#post-timoshenko-2655

  • Комментарии
  • ВКонтакте

  • 22 августа 2011 13:00
  • ICQ: {icq}
  • ИМХО, не совсем понимаю зачем запрещать выделение текста на таких сайтах как этот, выже народ отпугиваете этим, вот сейчас например я хотел скопировать себе код файла из статьи, и что ? Как мне прикажете его забрать ? Ctrl+U как-то времени нет ковырять ))) Мне кажется убирать вам надо защиту эту )
    • KPOHOC

      • Публикаций: 0
  • 22 августа 2011 23:47
  • ICQ: {icq}
  • KPOHOC,
    Этот скрипт вообще и предназначается чтобы отпугивать народ вроде копипастеров. Это конечно не панацея, поэтому удалил.
  • 2 февраля 2012 18:39
  • ICQ: {icq}
  • наблюдаю различие вашего примера Роботс с примером с источника где вы взяли "скилет" почему так?)
    • qwas

      • Публикаций: 0
  • 2 февраля 2012 20:59
  • ICQ: {icq}
  • Поначалу у меня был этот робот.тхт, со временем претерпел изменения,
    потому что оказалось, что яндексу нужно отдельные правила указывать.
    У меня сейчас такой:

    User-agent: *
    Disallow: /*print
    Disallow: /backup/
    Disallow: /engine/
    ...................
    Disallow: /index.php?do=addnews
    Disallow: /index.php?subaction=newposts

    User-agent: Yandex
    Disallow:
    Host: dle-joomla.ru

    А в новом движке DLE 9.5, там в роботе уже другие немного директивы, по идее правильный робот, если вы ставите новый движок, берете робот с движка и дополняете
    правилом для яндекса, директивой хост, и можно еще указать Sitemap(но думаю это не обязательно). Должно получиться где-то так:

    User-agent: *
    Disallow: /engine/go.php
    Disallow: /engine/download.php
    ...................
    Disallow: /*do=register
    Disallow: /*do=lostpassword
    Disallow: /*do=addnews
    Disallow: /*do=stats
    Disallow: /*do=pm

    User-agent: Yandex
    Disallow:
    Host: example.com
    Sitemap: http://example.com/sitemap.xml