国内有没有数据爬取方面的公司?

论坛 期权论坛 期权     
匿名用户1024   2021-5-17 11:32   5928   5
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
有关回应  16级独孤 | 2021-5-17 11:32:40 发帖IP地址来自
1)、diffbot,官网:https://www.diffbot.com/,这是被腾讯资本加持的一家人工智能公司,通过人工智能技术,让“机器”识别网页内容,抓取关键内容,并输出软件可以直接识别的结构化数据,并且该公司号称自己拥有业界最大的知识图谱,怪不得它能被腾讯看上,敢情是披上了人工智能的外衣的高级数据采集公司,目前该公司拥有三款产品,主要是saas模式,算是目前了解的爬虫技术公司里博得头筹的一家公司了,当然一些大厂,比如谷歌,雅虎内部也有这样的系统,但没有轻易示人。


2)、http://import.io,官网:https://scrapinghub.com/,相比较diffbot,这家爬虫技术公司从产品到解决方案输出,还是覆盖得比较全面,同时也提供了强大的可视化爬虫界面,少却了人工智能的马甲,也是爬虫界里踏踏实实的一家公司了,主要模式也是saas,同时提供数据抽取解析转换,然后通过api的方式输出,至于用到的技术还没发深入细究。


3)、scrapinghub,官网:https://scrapinghub.com/,它作为scrapy开源框架背后的商业公司,首先给一个大大的赞,毕竟把scrapy这么优秀的爬虫框架开源了,还是造福了不少爬虫工程师啊,只不过scrapinghub作为云上版本,退出了一些付费服务,包括代理ip,splash,cloud等,同时scrapinghub的开源版本也提供了portia这样可视化的功能,相信对于不少爬虫小白还是相当友好的,但个人认为使用场景有限,如何玩转scrapinghub,我也会在后续的爬虫技术篇中帮大家一起来梳理实战一下,总之对于想从事爬虫事业的同学来说,这个项目和产品是不得不关注的。


4)、apify,官网:https://www.apify.com/,该公司提供的产品从页面和功能,就是我比较喜欢的范,简单大方实用,为什么实用呢?首先它的定位就是面向一线开发者,提供了利用js代码实现爬虫逻辑,我这里不是说可视化爬虫技术就多么不好,只是我理解爬虫从一开始就不是一个人人可用可玩的玩具或者消费品,当然我后面也会讲为什么我这么理解,既然提供了可编程的模式,我相信apify的实用性,同时apify也提供了一些类似actor这样的高级特性,笔者猜测只是使用了一些虚拟化的技术来让实现租户资源权限隔离。


国外的公司就先列出以上这四家比较具有代表性的公司,其它大大小小的公司肯定也是不少的,在此就不一一列举了,接下来该上点中国菜了。


1)、神箭手,官网:https://www.shenjian.io/ ,作为国内我首推的爬虫技术公司,它的定位是大数据+AI的云os,定位归定位,我看到的它只是一家卖爬虫和数据的公司,AI能力我反正是看不到,就不和diffbot做比较了,实在没有可比性,当然作为国内市场的爬虫一哥,它也是有自己独特之处的,比如它也提供了js可编程能力的爬虫视窗,而且最近也提供了基于scrapy框架的云爬虫开发环境,说白了,他们提供的js开发爬虫环境功能凑合,笔者也是做了专门研究,底层不是使用v8引擎来实现的,而是通过java8的Nashorn引擎做的,整个技术栈基本围绕java+php,但我还是觉得他们产方向和定位还是不错,还需要提升自己来打破市场证明自己。


2)、八爪鱼,官网:http://www.bazhuayu.com/,作为深圳的一家爬虫技术公司,和神箭手的定位还是有所差异,毕竟从产品设计上来看,神箭手更偏互联网化,而八爪鱼更像是在提供一个工具,面向B端客户,更保守一点,同时也提供了可视化客户端帮助爬虫小白快速入手,也提供了一些行业解决方案,尽管它也提供了saas收费模式。


3)、造数,官网:https://www.zaoshu.io/index.html,从官网和产品设计风格来看,该公司主打的是可视化爬虫和互联网玩法,
但不得不说,产品功能稍显粗糙,且对于爬虫的理解不是非常深刻,有可能是我比较片面吧。


利益相关,更多爬虫玩法和技术,请关注公号:
http://weixin.qq.com/q/028YN6lOEdfpl1d6rnxs9e (二维码自动识别)

3#
有关回应  16级独孤 | 2021-5-17 11:32:41 发帖IP地址来自
要说做数据爬取的公司,国内有不少呢。在搜索引擎中以关键词“采集”进行搜索就能找到许多。
国内比较知名的有这三家:
其中八爪鱼采集器和集搜客都是桌面软件类的,神箭手云是在线平台。
此外,我们也在打造一个在线爬虫平台,它叫云采yuncaix.com)。
我们希望云采兼顾易用性专业性,提高人们的效率,降低个人和企业获取网络公开数据的门槛和成本。对于专业用户,我们设计了强大的流程设计工具。利用流程设计工具,不仅避免了繁琐重复的编程,而且让爬虫开发更加直观和具有逻辑。其实无论是开发者还是不懂编程的新手,通过简单的学习都能够迅速掌握这一工具。

图为设计流程的界面
4#
有关回应  16级独孤 | 2021-5-17 11:32:42 发帖IP地址来自
国内爬虫产品也是分为:2C和2B的。
2C产品有很多,百度一下就可以看到了。如果抓取数据量不是很大,个人产品就可以了。
企业级别的产品:瑞雪采集云,web2dat.com,这款产品可以尝试一下。再推荐一款国内MC产品也相当不错。瑞雪采集云需要了解一点JAVA或者Python知识。

5#
有关回应  16级独孤 | 2021-5-17 11:32:43 发帖IP地址来自
国内现在也很多做爬虫的公司,但只是因为爬取数据的使用权限不同,所以很多爬取工作的合法性有待商榷。
6#
有关回应  16级独孤 | 2021-5-17 11:32:44 发帖IP地址来自
我们八爪鱼的海外版 OCTOPARSE.COM 你查一下就知道,不仅国内领先,国外也不逊色于他们
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:136515
帖子:27303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP