火车头采集器的术语介绍
发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。) 发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。方式一:Web在线发布到网站 这种发布方式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。方式二:保存为本地文件 这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。方式三:导入到自定义数据库 这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,采集器支持连接Mysql、Access、Oracle、MSsql数据库。方式四:保存为本地Sql文件(Insert语句) 这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。 采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。
火车头采集怎么设置采集网址规则啊?
“我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊...如果没有数字的网址怎么采集呢!如某个网址是list_50.html ...上图 才... ”
----------------------------
有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化就无法访问列表页的第一页。
我不知道在火车头里面怎样解决这个问题的。在熊猫采集里面是可以忽略这个问题的,只需要鼠标选择列表页中指向下一页的链接,就能翻页访问。因为熊猫使用的是机器训练的采集设置方式。不需要用户手工设置这些。
少数没有下一页的列表页中,遇到这种情况,可以使用参数列表方式解决。你可以在火车采集器里面找找是否有“参数列表”的翻页方式。
有些采集软件中,可以直接同时输入多个列表页地址。这样也就不必去设置翻页参数,也很简单。熊猫中不支持这种方式,不知道火车采集器是否支持。如果支持,你可以直接输入多个列表页地址,换行区分即可。
什么是cms系统
CMS系统指的是内容管理系统。CMS可以理解为CMS帮你把一个网站的程序部分的事全做完了;你要做的只是一个网站里面美工的部份。只要搞几个静态网页模板,一个门户级的网站就出来了。扩展资料:四要素1.你要选择的CMS编码类型,是PHP的,还是.NET开发的,数据库是ACCESS的,还是Mssql的,或者Mysql。选择不同编码的CMS系统意味着你要选择不同类型的虚拟主机,也就是说你选择的虚拟主机必须要支持你想要使用的CMS系统,最好的情况是你能够有足够的预算自由的选择虚拟主机2.明确自己的建站需求,如果是建立门户类型的网站,就需要程序能够实现自定义模型,能够让你自定义频道的功能与字段。如果你想建立视频网站,就需要一个视频管理系统的CMS,如果你想建立软件下载站,那么就要有软件下载功能的CMS。并不是功能越多的CMS越适合你,如同杀鸡用宰牛的刀,到头来被复杂的设置和庞大的系统弄得晕头转向,最好的CMS就是适合你的需求,能够让你的网站通过最少的设置和最简单的步骤稳定的建立起来,这才是最终目的。3.最好CMS要程序和模板分离。网站的风格非常的重要,网站的风格就如同人的衣裳,给人一个好的印象就要有漂亮的包装,因此如果对网站代码设计懂得比较多,可以完全脱离开程序,自己制作好看的网站模板,如果懂得少一点,最好有在线设计风格系统,也可以在线设计文字的颜色,网站的背景等等。再有就是看看你选择的CMS厂商有没有出一些优质的模板,事实证明,只有开发商的模板能够真正保证低错误率,让网站完美的运行。4.程序要有最好的SEO效果。做站不能不知道SEO,SEO就是搜索引擎优化。参考资料:百度百科-cms系统