google Robots.txt生成工具

2009-06-09 00:00:00 mydomain

    Google在网站管理员中心 (Google Webmaster Tools) 发布了一个新的工具-Robots.txt生成工具(Robots.txt Generator)。Google发布此工具的目录是让网站管理员可以方便地生成规范的Robots.txt文件。
    Robots.txt生成工具并不是一个新的工具,通过搜索引擎找到很多类似的工具,但是这是第一个由搜索引擎提供的官方工具。
    Google Robots.txt生成工具可以控制的爬虫有:
    Googlebot
    Googlebot-Mobile
    Googlebot-Image
    Mediapartners-Google
    Adsbot-Google
    对于其他搜索引擎的爬虫则需要用户手工输入爬虫的名字。
    使用此工具需要先登录Google Webmaster Tools,通过访问在“控制台 > 工具”菜单里的“生成robots.txt”即可以使用此功能,此工具的截图如下:




    具体的使用操作如下:
    生成 robots.txt 文件
    使用 Google 帐户登录 Google 网站管理员工具
    在左侧列中,点击 工具,并点击生成 robots.txt
    选择您的默认漫游器访问权限 我们建议您允许所有漫游器,并通过以下步骤排除您不希望访问您网站的特定漫游器。 这将有助于防止您的网站发生意外拦截关键抓取工具的问题
    指定任何附加规则。 例如,将 Googlebot 拦截于您的网站的全部文件及目录之外:
    在操作列表中,选择 Disallow
    在漫游器列表中,点击 Googlebot
    在文件或目录对话框中,输入 /。 要指定一项以上条目,请在每一行后点击 ENTER,并在新的一行中输入新的条目
    单击添加。 robots.txt 文件代码将自动生成。
    保存 robots.txt 文件,方法是下载文件或将内容复制到文本文件并保存为 robots.txt。 将文件保存到您网站的顶级目录下
    关于 robots.txt 生成器
    robots.txt 文件使您能够指定您希望阻止其在您网站上抓取文件的漫游器(也被称为"bots"或"抓取工具")。许多网站管理员不喜欢手动创建 robots.txt 文件。 网站管理员工具 robots.txt 生成器使您能够轻松创建 robots.txt 文件,您可以在 robots.txt 文件中指定您不希望抓取您网站的任何漫游器,并允许或拦截对您服务器上特定文件及目录的访问。 例如,您可以:
    阻止网络抓取工具访问您网站上的文件或目录
    阻止网络抓取工具访问您的整个网站
    阻止特定的抓取工具访问您的网站
    值得注意的是,robots.txt 文件中规定的规则为要求而非强制性命令。 Googlebot 及所有的著名漫游器将遵守 robots.txt 文件中的指示。 但是,一些无赖漫游器 - 例如违禁漫游器、抄袭漫游器及其他不良漫游器 - 可能不遵守此文件。因此,我们建议您在服务器的受保护密码目录下保存机密信息。 同时,不同的漫游器对 robots.txt 文件的解译可能不同,并且并非所有漫游器都支持文件中的每个指令。 尽管我们已尽最大努力创建适用于所有漫游器的 robots.txt 文件,但我们不能保证这些文件的解译效果。
    当您使用 robots.txt 生成器创建文件后,可以下载文件并将其保存于您服务器的顶级目录下。
    要检查 robots.txt 文件是否正常,请使用网站管理员工具中的 robots.txt 分析工具。