java正则表达式判断手机号_简单Java爬虫（一）爬取手机号码

原创野狗菌希望你能喜欢今天

关于本文：

本文介绍一个简单Java爬虫，获取网页源码，爬取电话号码。

本篇教程用我的博客一个测试网页演示。

——野狗菌【希望你能喜欢】

测试页面：

https://www.wayteam.xyz/archives/phonenumber

源代码：（注释写的很详细了，太艰难，就直接放代码，不做多解释了）

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author 野狗菌
 * 2020-04-06
 * 爬虫入门（一）：获取网页源代码，爬取手机号码
 * 微信公众号：希望你能喜欢   （也可以搜索   foryouway   ）
 * 个人网站：www.wayteam.xyz
 */
public class GetPhoneNumber {

    public static void main(String[] args) throws Exception {



        //创建一个要访问的url
        URL url = new URL("https://www.wayteam.xyz/archives/phonenumber");//这里以我的博客测试页面为例

        System.out.println("正在获取"+url+"网站的手机号码中-----请稍等");//无关紧要的代码，只是为了友好的提示

        //打开上面获取的链接
        URLConnection urlConnection = url.openConnection();  //新手提醒：这个会抛出异常，我为了方便，全部抛出去，不作处理throws Exception

        //创建一个指定的存储文件
        File file = new File("phone.txt"); //这里是相对路径，表示存在这个同级目录下
        //创建一个字符输出流（从本程序输出到phone.txt文件）
        PrintWriter printWriter = new PrintWriter(file);//程序执行到这里就会在对应位置创建对应文件了

        //创建一个输入流（这个输入输出是以本程序为参照）
        InputStream inputStream = urlConnection.getInputStream();

        //把上面的字节流转化为字符流
        InputStreamReader inputStreamReader = new InputStreamReader(inputStream);

        //把字符流转化为字符缓冲流
        BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

        //创建一个空的字符串来接收从字符缓冲流里接收的数据
        String htmlLine = null;

        //手机号码的正则表达式，用来匹配数据中的手机号码
        String regex = "1[35789]d{9}";//1：第一位是1，[35789]:第二位是35789中的一个，d{9}:剩余9位数任意（因为java中需要转义，所以这里用)。
        Pattern pattern = Pattern.compile(regex);//把正则表达式编译成模式。

        //用while遍历上面的到的字缓冲流，把值给上面的空字符串（readLine是一行一行读取网页源代码的）
        while ((htmlLine = bufferedReader.readLine()) != null){  //当字符流缓冲流没有为空时，一直读取它。

            //创建一个匹配器来匹配上面的正则表达式模式
            Matcher matcher = pattern.matcher(htmlLine);

            //循环匹配
            while (matcher.find()){  //当匹配成功时，往下执行
                printWriter.println(matcher.group());//将匹配的数据用group转化为字符串，写进字符输出流中
            }




            /**
             * 在控制台打印htmlLine,观察它是什么样的数据
             * 为了方便大家理解readLine执行过程，给进程设置一个休眠时间，不然数据哗啦一下直接出来
             * 这里我录制了一个动图，大家也可以自己试试。
             */
            /*System.out.println(htmlLine);
            Thread.sleep(100);//100毫秒*/


        }

        /**
         * 关闭这两个流
         */
        bufferedReader.close();
        printWriter.close();

        System.out.println("获取号码成功，快去"+file+"查看结果吧"+"n"+"-------by野狗菌uD83DuDC36");//无关紧要的代码，只是为了友好的提示
    }

}

一个演示：

结果展示：

问题：为什么这里获取的手机号码比我网页里面写的要多？

因为这些数据被我的匹配器匹配成号码了。。。。

后面会介绍其他抓取方式，可以避免这个问题。

** **

在公众号内发送【07】，即可获取源码（你也可以直接自己创建项目，把上面内容写进去）。