蚂蚁软件 专业站群软件开发团队

蚂蚁软件

MAYISOFT.COM

教你如何快速搭建镜像站群【中级篇】

2018-11-27 作者:mayisoft 访问量:99999
在上一篇《教你如何快速搭建镜像站群【基础篇】》中给大家讲解了镜像站群的基础搭建方法,今天就给大家讲解下关于镜像站群中级的使用方法。

批量建站

进入管理后台,点击网站批量管理选择批量添加网站进入到以下界面:

image_1cnc4g9vc1ag0d7o1galnoo18c016.png-90.1kB

批量建站说明:

  • 建站域名:不带http和尾部的/,一行一个。最好也不带www.。
  • 目标站域名:一行一个(需要带http://,不能以/结尾,区分http和https)【不够的话会循环使用】
  • 网站标题:一行一个,如果需要使用目标站的标题请留空【不够的话会循环使用】
  • 网站关键字:一行一个,如果需要使用目标站的关键字请留空【不够的话会循环使用】
  • 网站描述:一行一个,如果需要使用目标站的描述请留空【不够的话会循环使用】
  • 全局配置:里面每项的作用会在‘节点配置’教程中详细说明

为什么建站域名和目标站域名不建议带www.,因为程序有自动映射二级域名功能,我们是以'建站域名'为根域名处理的,比如说当前建站域名为'mayisoft.com'目标站有个二级域名hb.58.com,程序在运行时就会把'58.com'替换成'mayisoft.com',最终映射结果就是hb.mayisoft.com,如果建站域名带了www.,那么映射结果就变成了hb.www.mayisoft.com。同理,目标站也最好不带www.。如果目标站带了www.会导致自动映射目录功能无法使用

分组管理

添加分组

进入管理后台,点击网站分组管理选择添加分组进入到以下界面:

image_1cnc6bb0cma61hiihp1g8d1i4v1j.png-42.2kB

填写相关信息即可创建一个分组。注意:由于程序采用了客户端缓存技术,如果修改后需要立马看到效果可以按Ctrl+F5强制更新浏览器缓存

如何植入广告

添加或者修改分组的时候,即可修改广告JS代码统计JS代码,需要注意的是,js代码不需要带<script></script>,广告js代码程序默认会植入在</head>上方,而统计js代码默认植入带</body>上方。

常见几种加密跳转脚本

网页PC端框架跳转代码

document.writeln("<script language = javascript>");
document.writeln("document.write("<frameset rows='100%,*' frameborder='NO' border='0' framespacing='0'>");");
document.writeln("document.write("<frame name='main' src='落地页地址' scrolling=yes>");");
document.writeln("document.write("</frameset>");");
document.writeln("</script>");

移动端网页跳转代码

if(/Android|webOS|iPhone|iPod|BlackBerry|Windows CE|Windows Phone/i.test(navigator.userAgent)){
if(window.location.href.indexOf("?pc")<0){
    try{
        window.location.href="落地页地址"
    }catch(e){}
}}

节点配置

网站设置

  • 网站名称:当前节点别名,在程序执行过程中没用,主要方便自己管理

  • 网站根域名:如:www.mayisoft.com 填写mayisoft.com 即可

  • 目标站根域名:比如我们要镜像https://www.baidu.com,那么填写baidu.com 即可

  • 目标站WWW:如果你用浏览器访问baidu.com,它会重定向到带www的域名,那就勾选,否则默认就好

  • 目标站Https:访问baidu.com,会发现它跳转到了https://www.baidu.com 那么这里我们就勾选

  • 错误跳转Url:如果当前节点在运行过程中发生错误,比如目标站屏蔽、网络错误、程序错误等就跳到指定url,需要带http://或者https://,如果不填写的话,则显示默认错误页

  • URL补全模式:

  • 补全Http://:假设当前域名为:http://mayisoft.com/buy,页面存在一个a连接为href="index"。开启补全http://的话连接就会变成href="http://mayisoft.com/buy/index"
  • 补全Http://:假设当前域名为:http://mayisoft.com/buy,页面存在一个a连接为href="index"。开启补全目录的话连接就会变成href="/buy/index"

  • 远程图片本地化:如果没有出现镜像网站后图片打不开这种情况不建议开启,因为开启后,所有图片会通过当前服务器进行承载,压力会比较大。

  • 屏蔽JS错误:JS错误可能会导致无法继续浏览,可以使用本功能屏蔽JS错误

SEO设置

  • 首页标题:设置网站的首页标题,如果为空就使用目标站的

  • 首页关键字:设置网站的首页关键字,如果为空就使用目标站的

  • 首页描述:设置网站的首页描述,如果为空就使用目标站的

  • 特殊字符混淆:开启后,会通过原子算法智能随机向页面中插入特殊字符,用户无法感知,只会对搜索引擎抓取造成干扰。干扰后使用谷歌浏览器访问呈现如下:

image_1cnc83c0ghpb144bttskc108o20.png-145.5kB

  • Tdk转码:使用Unicode对网页标题、关键字、描述进行转码,结果呈现如下:

image_1cnc85b6di58gdl1je21jet6sh2d.png-46.2kB

  • 自动映射二级域名:比如58.com这种站就有很多二级域名,传统的镜像程序,如果你要映射对方的二级域名的话,则需要重新建立一个节点,而我们则会自动把目标站的二级域名映射成自己的域名,但是前提需要域名是泛解析,不然会导致无法访问。

替换过滤

标签过滤

这个比较好理解,网页就是由很多标签组成的,你想过滤哪些标签,勾选即可。举个最常见的列子,很多目标站镜像后访问,又会跳转到目标战去,这种情况一般都是目标站有js做判断,发现来源不是自己的域名就跳到首页去了,要解决这种问题,最简单粗暴的方式就是屏蔽目标站的js,就可以解决问题这个问题,但是有的站屏蔽后会导致一些交互无法使用,做SEO的话则无所谓,如果养站的话则需要通过其他方式来处理。

image_1cnc8lce06fkqgt13cq4at2nb2q.png-29.7kB

文本替换

替换前和替换后直接用******分隔 每一对替换后面用下面的字符分隔开来

比如要把百度一下替换成蚂蚁软件

那我们规则写:

百度一下******蚂蚁软件

即可,如果有多行,我们就用##########分割

比如我想再把新闻替换成蚂蚁新闻,那么连起来规则就是:

百度一下******蚂蚁软件

##########

新闻******蚂蚁新闻

image_1cnbopdn2d4j1mss4ru44ff6e5u.png-32.5kB

点击'立即提交'在访问下网站,就会发现已经替换了。

image_1cnborlms1uvt1q671uq2126k21o6b.png-42.8kB

通配符替换

功能说明:通配符用于替换一段内容或者有不确定的变化的内容,替换前和替换后直接用******分隔 每一对替换后面用下面的字符分隔开来,使用{reg}表示任意内容,比如网页中有以下一段代码:

 <p>当前时间:2018-09-14</p>

我们要把这段代码替换成 没有时间 ,如果用字符换替换的话那么规则就是

<p>当前时间:2018-09-14</p>******没有时间

因为时间是变化的,可能14号那天替换成功了,15号就替换失败了。所以这个时候我们要用通配符替换,通配符替换使用{reg}表示任意字符,那我们规则就可以写成:

<p>当前时间:{reg}</p>******没有时间

这样程序在执行时候的时候,就会把那个时间给替换掉。为了加深理解,我们来替换掉百度首页的这一块,如图:

image_1cncaggl9f9s1kijq7g1s7s1lsj4k.png-5.9kB

我们首先通过浏览器F12工具找到对应的代码:

image_1cncahnuj1n5n15l1g3uset13vb51.png-121.1kB

<div id="u1"><a href="http://news.baidu.com" name="tj_trnews" class="mnav">新闻</a><a href="https://www.hao123.com" name="tj_trhao123" class="mnav">hao123</a><a href="http://map.baidu.com" name="tj_trmap" class="mnav">地图</a><a href="http://v.baidu.com" name="tj_trvideo" class="mnav">视频</a><a href="http://tieba.baidu.com" name="tj_trtieba" class="mnav">贴吧</a><a href="http://xueshu.baidu.com" name="tj_trxueshu" class="mnav">学术</a><a href="https://passport.baidu.com/v2/?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2F&amp;sms=5" name="tj_login" class="lb" onclick="return false;">登录</a><a href="http://www.baidu.com/gaoji/preferences.html" name="tj_settingicon" class="pf">设置</a><a href="http://www.baidu.com/more/" name="tj_briicon" class="bri" style="display: block;">更多产品</a></div>

这块代码其实就是包含了左上角那一块内容,我们可以把这段代码使用通配符简化,如下:

<div id="u1">{reg}</div>

使用精简后的代码对应的替换规则就是

<div id="u1">{reg}</div>******<div id="u1">我被替换掉了</div>

我们保存后刷新下网站页面,即可看到这一块内容已经不见了,并且文字替换也成功了

image_1cncb0ou2137p74h4on11dts735e.png-72.6kB

破防采集

要想突破目标站的防采集规则,我们得首先知道常见的防采集方式:

  1. 判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问
  2. 用javascript加密内容页面
  3. 把内容页面里的特定标记替换为”特定标记+隐藏版权文字“
  4. 只允许用户登陆后才可以浏览
  5. 只允许通过本站页面连接查看

现在比较常见的基本上是1、3、4、5,下面就分别说下解决方案:

  • 被目标站禁用IP的话,最简单的方式就是使用代理IP去请求。有的用户的服务器是多IP,如果开启破采集后,程序会自动随机利用一个IP去请求目标服务器。

  • 内容页面里的特定标记替换为"特定标记+隐藏版权文字",这种方式通过替换就可以解决,通过替换把目标站的字符换成自己的就完美解决了

  • 只允许用户登陆后才可以浏览,这种你可以先用你的帐号登陆目标站,然后把目标站的cookie拿到,填写到破采集界面即可。

  • 只允许通过本站页面连接查看,这种方式一般都是通过判断来源来做的,你可以在破防采集页面'自定义来路'一栏中填写目标站地址即可

image_1cncd1hndk9b1c11ee29adi1h5r.png-41.4kB

缓存设置

缓存说明

本程序缓存为全局性缓存,设置后应用于所有节点,可以选择是否缓存【首页、内页、图片、脚本、样式】,并可以设置每项的缓存有效期,到期后会自动清理对应的缓存。缓存目录为/WebCache,存放格式【缓存目录+跟域名+资源类型+请求路径】。

比如:

  1. www.mayisoft.com 缓存路径就是:/WebCache/mayisoft.com/index/index.html
  2. www.mayisoft.com/product/jx.html 缓存路径就是:/WebCache/mayisoft.com/htm/product/jx.html
  3. www.mayisoft.com/style/index.css 缓存路径就是:/WebCache/mayisoft.com/css/style/index.css
  4. www.mayisoft.com/img/logo.png 缓存路径就是:/WebCache/mayisoft.com/image/img/logo.png
  5. www.mayisoft.com/web/q1.js 缓存路径就是:/WebCache/mayisoft.com/js/web/q1.js

缓存定时清理

进入管理后台,点击全局缓存配置进入到以下界面:

image_1cndfo3939v816bf168q3r214hr13.png-52.1kB

每项缓存的时间以小时为单位,设置0则永久缓存。缓存清理开始时间为程序运行时间,假如9点启动的站群,首页缓存失效时间为1小时,那么到了10点的时候,程序就会清除所有的首页缓存。修改缓存有效期后,需要等下一个轮回才有效。如果需要立马生效,重启程序即可。

缓存大小限制

如果服务器硬盘小的话,我们可以设置一个最大缓存大小,然后在设置一个检测时间。假如最大缓存10个G,扫描间隔是1天。以程序的启动时间开始计算,一天后就会扫描缓存目录的大小,如果超过指定大小,就会根据算法智能清理到一个合适的大小。没扫描一次耗时较长切占用服务器资源,建议不要设置太小的值。

清理节点缓存

进入管理后台,点击站群节点管理选择要清理的节点缓存按钮进入到以下界面:

image_1cndfjdb815gn1ol1sighm0a9a9.png-41.6kB

选择对应的缓存项清楚即可。如果网站缓存较大,等待的时间可能就较长。

清理全部缓存

进入管理后台,点击全局缓存配置进入到以下界面:

image_1cndfmc2iqr3gt1clot0o1hlim.png-81.1kB

选择要清理的缓存项即可。如果网站缓存较大,等待的时间可能就较长。

链接变异配置

进入管理后台,点击链接变异配置进入到以下界面:

image_1cndg586k150m1eetsti1n0b1t7r20.png-37kB

Url加密

程序会在执行的过程中,把目标站的url的链接格式动态变成自己可识别的方式。开启该功能可降低搜索引擎识别为镜像站的风险。我们选择Base64加密后,看下对比效果:

加密前:

image_1cndkdgc1hm1p3413jf1aaf1hse2q.png-51.5kB

加密后

image_1cndkegp7oqn174v1od511397t047.png-51.9kB

动态后缀

开启前:

image_1cndkrlq41k2o1qac11j7ajhhs851.png-44.4kB

开启动态追加php后缀后:

image_1cndkui651fmg1s1g1jsb1e1r1in05e.png-41.7kB

注意:该共同最好不要频繁开启和关闭,每次开启或者关闭都会造成url变动,最好在建站的时候确定好是否开启。

蜘蛛相关

蜘蛛屏蔽

蜘蛛屏蔽可以根据内置的搜索引擎特征码和用户自定义特征码进行屏蔽,屏蔽后返回的状态码为:403。使用蜘蛛屏蔽功能首先进入管理后台,点击蜘蛛屏蔽管理进入到以下界面:

image_1cndl3v3vt2g1mj0d9ulp51p7p5r.png-34.3kB

屏蔽搜索引擎

如果需要屏蔽百度,只需要开启屏蔽开关然后勾选百度蜘蛛即可

image_1cndmq8h5jn0d0n1gcl1uipovc6l.png-11.8kB

我们用模拟UA的工具测试下访问结果:

image_1cndvojv51tan1d361aqi10abfqr72.png-43.6kB

特征码屏蔽

当程序内置的屏蔽满足不了需求的时候,可以采用特征码屏蔽,一行一个。比如我们要屏蔽一淘网蜘蛛,它的UA如下

Mozilla/5.0 (compatible; EtaoSpider/1.0; EtaoSpider)

我们想要屏蔽它的话我们只需要填写

EtaoSpider

就好了,程序就会对请求UA中带有EtaoSpider的全部返回403。

image_1cndvuqa315ir18uqsrnl1m4no7f.png-14.2kB

查看蜘蛛日志

程序查看蜘蛛日志有两种方法:

查看TXT文本:这种方式看到的很详细,可以看到所有的蜘蛛爬取,具体查看如下:

image_1cne04r3ghtf1qvcgcefvc4bh7s.png-32.5kB

点击主程序的蜘蛛日志就会打开蜘蛛日志存放的文件夹,日志存放跟按天存放的,可以看到每天的详细日志

image_1cne07cj760l13nh17ks1tiq1q5r89.png-79kB

查看蜘蛛表报,可以很看到三天内的一个蜘蛛幅度,以及最新1W条蜘蛛爬取记录,使用这种方式查看首先进入管理后台,点击蜘蛛爬行记录进入到以下界面:

image_1cne0br5fh271ksnhta10a11agi8m.png-93kB

未经允许不得转载:蚂蚁站群软件 » 教你如何快速搭建镜像站群【中级篇】
上一篇:没有了 下一篇:一招解决镜像站群排名问题【干货】

相关推荐