收集电子邮件地址、竞争分析、网站检查、定价分析和客户数据收集 — 这些可能只是你需要从 HTML 文档中提取文本和其他数据的几个原因。不幸的是,手动做这种事是很痛苦的而且效率很低,在某些情况下甚至不可能实现。幸运的是,现在有各种各样的工具可以实现这些需求。下面的 7 个工具包括了由为初学者和小项目而设计的非常简单的工具到需要一定的编码知识,旨在用于更大,更困难的任务的高级工具。
Iconico HTML 文本提取器 (Iconico HTML Text Extractor)
试想一下,你正在浏览竞争对手的网站,然后想提取出文本内容,又或是想看看页面背后的 HTML 代码。但十分不幸,你发现右键被禁用了,复制和粘贴也是如此。现在许多 Web 开发人员正在采取措施禁用查看源代码,否则锁定其页面。幸运的是,Iconico 有一个 HTML 文本提取器,你可以用来绕过所有的这些限制,而且这个产品非常易于使用。你可以高亮和复制文本,提取功能的运行使用轻易得像上网一样。
UiPath
UIPath 有一套自动化过程工具,里面包含了一个 Web 内容抓取实用程序。要使用该工具,并获得所需的几乎任何数据十分简单 — 只需打开页面,转到工具中的设计菜单,然后单击“网络抓取(web scraping)”。 除了网络抓取工具,屏幕抓取工具允许您从网页中拉取任何内容。 使用这两种工具意味着您可以从任何网页抓取文本,表格数据和其他相关信息。
Mozenda
Mozenda 允许用户提取 Web数据,并将该信息导出到各种智能商务工具。它不仅可以提取文本内容,还可以从 PDF 文件中提取出图像,文件和内容。然后,你可以将这些数据导出到 XML 文件,CSV 文件,JSON 或者可以选择使用 API。 提取和导出数据后,就可以使用 BI 工具进行分析和报告。
HTMLtoText
这款在线工具可以从 HTML 源代码中提取文本,甚至只是一个 URL 也可以。你所需要做的只是复制和粘贴,提供一个 URL 或者上传文件。 单击选项按钮,让工具知道你需要的输出格式和一些其他的细节,然后点击转换,你将获得你需要的文本信息。