提示:几个数据源网站都是作了防采集的,所以是好有这方面经验的个人或工作室联系。采集破防,这个很重要。
工具的组合功能说明:给每个渠道要取的内容个数一个设置参数,及开关,比如我们给参数设置的数量是2
以关键词A为例到百度知道搜索,在首页前面2条结果作为要取的内容,并进这2条具体页面,各取第一条回答作为内容
这样百度就取了2条数据,
分别为1的标题,1标题下的第一个回答,2的标题和2标题下的回答 然后以
百度标题1
百度标题1对应第一个回答内容
百度标题2
百度标题2对应第一个回答内容
360标题1
360标题1对应第一个回答内容
360标题2
360标题2对应第一个回答内容
搜狗标题1
搜狗标题1对应第一个回答内容
搜狗标题2
搜狗标题2对应第一个回答内容
进行组装,以上即为一篇文章的内容,而文章的标题就是用来搜索的关键词A 发布到目标网站
360和搜狗同理。
发布:直接调用入库站的php接口post数据形式
采集关键词:在软件根目录里keywords文件夹下,以classid.txt形式存放
采集去重:放在软件本地目录下面记录一个classid和关键词的文件里,从栏目文件读一个词后先在记录去重那里面去找下用过,如果用过就重新取另一个词,没用过则进入采集流程
每个栏目单日采集量:再给一个参数,就是 每个栏目更新好多条进入下个栏目更新(读下个文件面的数据)
小标题修饰:另外一个小细节就是组装的时候,给“小标题”加个标签 小标题 样式我自己去文件里面写
代理使用:阿布云动态版http隧道
雇主
发起雇佣
威客
同意合作
雇主
托管赏金
威客
在线工作
雇主
验收付款