Настройка robots.txt в CMS Joomla. Стандартный файл robots.txt.dist в Joomla_3.9.24 выглядит так:
# If the Joomla site is installed within a folder
# eg www.example.com/joomla/ then the robots.txt file
# MUST be moved to the site root
# eg www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to all of the
# paths.
# eg the Disallow rule for the /administrator/ folder MUST
# be changed to read
# Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# https://www.robotstxt.org/orig.html
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Для того чтобы он работал его нужно переименовать в robots.txt и отредактировать. Например добавить такие строки:
Disallow: /index.php* # запрет индексации всех URL адресов, начинающихся с index.php
Disallow: /index2.php*
Disallow: /index.php
Disallow: /index2.php
Disallow: /configuration.php
Disallow: /htaccess.txt
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Clean-param: searchword /
Находится он должен в каталоге: Ваш_сайт\robots.txt
Файл предназначен для поисковых роботов:
Яндекса - Yandex
Гугла - Googlebot
и других.
Для ускорения индексации Вашего сайта поисковыми роботами этот файл можно редактировать. В файле robots.txt можно указать для робота, где искать sitemap.xml.
Например: Sitemap: http:// Ваш_сайт /sitemap.xml.
Посмотреть и проверить файл robots.txt своего или чужого сайта можно на Яндексе: https://webmaster.yandex.ru/tools/robotstxt