A. 33 款可用来抓数据的开源爬虫软件工具
以下是33款可用来抓数据的开源爬虫软件工具:
Java爬虫: Arachnid:基于Java的Web spider框架,包含HTML解析器。 crawlzilla:自由软件,支持建立搜索引擎,支持多种文件格式分析,中文分词提高搜索精准度。 ExCrawler:采用数据库存储网页信息的Java网页爬虫。 Heritrix:具有良好的可扩展性的Java开源网络爬虫。 heyDr:基于Java的轻量级多线程垂直检索爬虫框架。 ItSucks:支持下载模板和正则表达式定义下载规则的Java web spider,带GUI界面。 jcrawl:小巧性能优良的web爬虫,支持多种文件类型抓取。 JSpider:用Java实现的WebSpider,支持自定义配置文件。 Leopdo:包括全文和分类垂直搜索,以及分词系统的Java web搜索和爬虫。 MetaSeeker:提供网页抓取、信息提取、数据抽取功能的网页内容抓取、格式化、数据集成工具。
Python爬虫: QuickRecon:信息收集工具,用于查找子域名、电子邮件地址等。 PyRailgun:支持JavaScript渲染页面的简单易用的抓取工具。 Scrapy:基于Twisted的异步处理框架,可实现方便的爬虫系统。
C++爬虫: hispider:快速高性能爬虫,支持多线程分布式下载。
其他语言爬虫: Larbin:扩展抓取页面url的开源网络爬虫,为搜索引擎提供数据。 Methabot:速度优化的高可配置web爬虫。 NWebCrawler:C#开发的支持可配置的网络爬虫程序。 Sinawler:针对微博数据的爬虫程序,支持用户基本信息、微博数据抓取。 spidernet:支持文本资源获取的多线程web爬虫。 Web Crawler mart:集成Lucene支持的Web爬虫框架。 网络矿工:基于.Net平台的网站数据采集软件。 OpenWebSpider:开源多线程Web Spider和搜索引擎。 PhpDig:PHP开发的Web爬虫和搜索引擎。 ThinkUp:采集社交网络数据的媒体视角引擎。 微购:基于ThinkPHP框架开发的社会化购物系统。 Ebot:使用ErLang语言开发的可伸缩分布式网页爬虫。 Spidr:Ruby网页爬虫库,支持整个网站抓取。
请注意,在使用这些开源爬虫软件时,请确保合法使用并尊重版权。