java爬虫源码

发布时间: 2025-04-09 10:23:53

1. 如何用java写一个知乎爬虫

下面说明知乎爬虫的源码和涉及主要技术点：
（1）程序package组织

（2）模拟登录（爬虫主要技术点1）
要爬去需要登录的网站数据，模拟登录是必要可少的一步，而且往往是难点。知乎爬虫的模拟登录可以做一个很好的案例。要实现一个网站的模拟登录，需要两大步骤是：（1）对登录的请求过程进行分析，找到登录的关键请求和步骤，分析工具可以有IE自带(快捷键F12)、Fiddler、HttpWatcher；（2）编写代码模拟登录的过程。

（3）网页下载（爬虫主要技术点2）
模拟登录后，便可下载目标网页html了。知乎爬虫基于HttpClient写了一个网络连接线程池，并且封装了常用的get和post两种网页下载的方法。

（4）自动获取网页编码（爬虫主要技术点3）
自动获取网页编码是确保下载网页html不出现乱码的前提。知乎爬虫中提供方法可以解决绝大部分乱码下载网页乱码问题。

（5）网页解析和提取（爬虫主要技术点4）
使用Java写爬虫，常见的网页解析和提取方法有两种：利用开源Jar包Jsoup和正则。一般来说，Jsoup就可以解决问题，极少出现Jsoup不能解析和提取的情况。Jsoup强大功能，使得解析和提取异常简单。知乎爬虫采用的就是Jsoup。

（6）正则匹配与提取（爬虫主要技术点5）
虽然知乎爬虫采用Jsoup来进行网页解析，但是仍然封装了正则匹配与提取数据的方法，因为正则还可以做其他的事情，如在知乎爬虫中使用正则来进行url地址的过滤和判断。

（7）数据去重（爬虫主要技术点6）
对于爬虫，根据场景不同，可以有不同的去重方案。（1）少量数据，比如几万或者十几万条的情况，使用Map或Set便可；（2）中量数据，比如几百万或者上千万，使用BloomFilter（着名的布隆过滤器）可以解决；（3）大量数据，上亿或者几十亿，Redis可以解决。知乎爬虫给出了BloomFilter的实现，但是采用的Redis进行去重。

（8）设计模式等Java高级编程实践
除了以上爬虫主要的技术点之外，知乎爬虫的实现还涉及多种设计模式，主要有链模式、单例模式、组合模式等，同时还使用了Java反射。除了学习爬虫技术，这对学习设计模式和Java反射机制也是一个不错的案例。
4. 一些抓取结果展示

2. java爬虫读取某一张指定图片的url，求解答

package pers.jiaming.download.main;import java.io.*; //io包import java.util.regex.*; //正则包import java.net.*; //网络包/** 下载图片类* */public final class DownloadPictures implements Runnable{
private URL url = null; //URL private URLConnection urlConn = null; //url连接 private BufferedReader bufIn = null; //缓冲读取器，读取网页信息
private static final String IMG_REG = "<img.*src\\s*=\\s*(.*?)[^>]*?>"; //img标签正则 private static final String IMG_SRC_REG = "src\\s*=\\s*\"?(.*?)(\"|>|\\s+)"; //img src属性正则
private String downloadPath = null; //保存路径
//构造，参数：想要下载图片的网址、下载到的图片存放的文件路径 public DownloadPictures(String urlStr, String downloadPath)
{
createFolder(downloadPath); //创建文件夹
try {
url = new URL(urlStr);
urlConn = url.openConnection();
//设置请求属性，有部分网站不加这句话会抛出IOException: Server returned HTTP response code: 403 for URL异常 //如：b站 urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
bufIn = new BufferedReader(new InputStreamReader(urlConn.getInputStream()));
}
catch (Exception e) {
e.printStackTrace();
}

this.downloadPath = downloadPath;
}

//检测路径是否存在，不存在则创建 private void createFolder(String path)
{
File myPath = new File(path);

if (!myPath.exists()) //不存在则创建文件夹 myPath.mkdirs();
}

//下载函数 public void Download()
{
final int N = 20; //每一次处理的文本行数，这个数越小越容易遗漏图片链接，越大效率越低 (理论上)
String line = "";
String text = "";

while (line != null) //网页内容被读完时结束循环 {
for(int i = 0; i < N; i++) //读取N行网页信息存入到text当中，因为src内容可能分为多行，所以使用这种方法 try {
line = bufIn.readLine(); //从网页信息中获取一行文本
if(line != null) //判断防止把null也累加到text中 text += line;
}
catch (IOException e) {
e.printStackTrace();
}

//将img标签正则封装对象再调用matcher方法获取一个Matcher对象 final Matcher imgM = Pattern.compile(IMG_REG).matcher(text);

if(!imgM.find()) //如果在当前text中没有找到img标签则结束本次循环 continue;

//将img src正则封装对象再调用matcher方法获取一个Matcher对象 //用于匹配的文本为找到的整个img标签 final Matcher imgSrcM = Pattern.compile(IMG_SRC_REG).matcher(imgM.group());

while (imgSrcM.find()) //从img标签中查找src内容 {
String imageLink = imgSrcM.group(1); //从正则中的第一个组中得到图片链接
print(imageLink); //打印一遍链接
//如果得到的src内容没有写协议，则添加上// if(!imageLink.matches("https://[\\s\\S]*")) //这里有问题// imageLink = "https://" + imageLink;
print(imageLink); //打印一遍链接
try
{
//缓冲输入流对象，用于读取图片链接的图片数据 //在链接的图片不存在时会抛出未找到文件异常 final BufferedInputStream in = new BufferedInputStream(new URL(imageLink).openStream());

//文件输出流对象用于将从url中读取到的图片数据写入到本地 //保存的路径为downloadPath，保存的图片名为时间戳+".png" final FileOutputStream file = new FileOutputStream(new File(downloadPath + System.currentTimeMillis() + ".png"));

int temp; //用于保存in从图片连接中获取到的数据 while ((temp = in.read()) != -1)
file.write(temp); //将数据写入到本地路径中
//关闭流 file.close();
in.close();

//下载完一张图片后休息一会 try {
Thread.sleep(800);
}
catch (InterruptedException e) {
e.printStackTrace();
}
}
catch (Exception e)
{
e.printStackTrace();
}
}

//将text中的文本清空 text = "";
}
}

//run @Override
public void run()
{
Download(); //下载函数 }

//打印语句 public void print(Object obj)
{
System.out.println(obj);
}}

3. 如何使用Java语言实现一个网页爬虫

我给你代码
public class DEmo {
public static void match(String s1) {
Pattern p = Pattern.compile("<a(.*)>.*</a>");
Matcher m = p.matcher(s1);
while (m.find()) {
System.out.println(m.group(1));
}
}

public static void main(String args[]) {
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
String line;
try {
// 生成一个URL对象，要获取源代码的网页地址为：http://www.sina.com.cn
url = new URL("http://www.jb51.net/article/97787.htm");
// 打开URL
urlConnection = (HttpURLConnection) url.openConnection();
// 获取服务器响应代码
responsecode = urlConnection.getResponseCode();
String temp = "";
if (responsecode == 200) {
// 得到输入流，即获得了网页的内容
reader = new BufferedReader(new InputStreamReader(
urlConnection.getInputStream(), "GBK"));
while ((line = reader.readLine()) != null) {
temp = temp + line;
}
System.out.println(temp);
match(temp);

} else {
System.out.println("获取不到网页的源码，服务器响应代码为：" + responsecode);
}
} catch (Exception e) {
System.out.println("获取不到网页的源码,出现异常：" + e);
}

}
}

阅读全文

热点内容

scratch少儿编程课程发布：2025-04-16 17:11:44 浏览：619

荣耀x10从哪里设置密码发布：2025-04-16 17:11:43 浏览：347

java从入门到精通视频发布：2025-04-16 17:11:43 浏览：62

php微信接口教程发布：2025-04-16 17:07:30 浏览：288

android实现阴影发布：2025-04-16 16:50:08 浏览：781

粉笔直播课缓存发布：2025-04-16 16:31:21 浏览：334

机顶盒都有什么配置发布：2025-04-16 16:24:37 浏览：197

编写手游反编译都需要学习什么发布：2025-04-16 16:19:36 浏览：791

proteus编译文件位置发布：2025-04-16 16:18:44 浏览：350

土压缩的本质发布：2025-04-16 16:13:21 浏览：578

java爬虫源码

与java爬虫源码相关的资讯