java正则html标签

发布时间: 2023-10-17 16:43:40

❶ java正则表达式去除html标签保留指定标签

String reg = "<\\/?html[^>]*>";
String html = "";
html.replaceAll(reg,"");

❷ 如何使用java的正则表达式提取html标签

importjava.util.ArrayList;
importjava.util.Iterator;
importjava.util.List;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

publicclassTest{

publicstaticvoidmain(Stringargs[]){
Stringhtml="<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
//简单示例，相当于Stringhtml=getHtml(StringurlString);
ListresultList=getContext(html);
for(Iteratoriterator=resultList.iterator();iterator.hasNext();){
Stringcontext=(String)iterator.next();
System.out.println(context);
}
}

/**
*提取"<title>XXXX</title>"中的文字XXXX
*@paramhtml要解析的html文档内容
*@return解析结果，可以多次匹配，每次匹配的结果按文档中出现的先后顺序添加进结果List
*/
publicstaticListgetContext(Stringhtml){
ListresultList=newArrayList();
Patternp=Pattern.compile("<title>([^</title>]*)");//匹配<title>开头，</title>结尾的文档
Matcherm=p.matcher(html);//开始编译
while(m.find()){
resultList.add(m.group(1));//获取被匹配的部分
}
returnresultList;
}
}

❸ 【Java作业向】正则表达式过滤HTML标签

过滤HTML标签的Java正则表达式 (?s)<.*?/?.*?>

按照你的要求编写的用正则表达式过滤HTML标签的Java程序如下

public class AA {

public String tagFilter(String s){

String regex = "(?s)<.*?/?.*?>";

String ss=s.replaceAll(regex,"");

return ss;

}

public static void main(String[] args) {

String s="<div class="guid time online">测试 abc</div>你好13548<a href="games/details/" class="guid">15个字母Abc</a>";

String result=new AA().tagFilter(s);

System.out.println(result);

}

❹ java正则表达式获取任意两个html标签中的内容

import java.util.regex.*;
public class RegexExample {
public static void main(String []args) {
String content=获取的网页内容;
Pattern p=Pattern.compile("<div class=\"fliter_px\">([\\s\\S]+?)<div class=\"search_page\">");
Matcher m=p.matcher(content);
if(m.find()){
System.out.println(m.group(1));
}
}
}

❺ 如何使用java的正则表达式提取html标签

//我随便写了一个工具类，getRegexData就是那个方法，你可以根据你的需求稍加改动即可因为我使用的
//URL而不是HttpClient，所以数据是全部获取过来了，你自己改改吧！不懂再问我
packagecom.wdy.util;

importjava.io.IOException;
importjava.io.InputStream;
importjava.net.URL;
importjava.util.ArrayList;
importjava.util.List;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;
/**
*工具类
*@authorWDY
*
*/
publicclassTool{
publicstaticvoidmain(String[]args){
System.out.println(getRegexData("<img[]*src.*?jpg"","<imgsrc="img1.jpg"><imgsrc="img2.jpg""));


try{
URLurl=newURL("http://www..com");
StringstringData=getStringFromInputStream(url.openStream());
System.out.println(stringData+"----------------------------------------");
System.out.println();

System.out.println(getRegexData("http://.{6,70}?(png|jpg)",stringData));
}catch(IOExceptione){
e.printStackTrace();
}
}
/**
*给一个正则表达式，和数据，将正则匹配到的数据全数取出来
*
*@paramregex
*@paramdata
*@returnList<String>
*/
publicstaticList<String>getRegexData(Stringregex,Stringdata){
Patternpattern=Pattern.compile(regex);
Matchermatcher=pattern.matcher(data);
List<String>resultList=newArrayList<String>();
intindex=0;//搜索的位置
Stringtemp="";
/*从指定位置查找，如果找到了，就继续执行下面的代码*/
while(matcher.find(index)){
temp=matcher.group();//将匹配到的数据取出来放到集合中去
resultList.add(temp);
index+=temp.length();//将查找位置放到此时找到的数据后面
System.out.println(index);
}
returnresultList;
}
/**
*将输入流装成字符串
*@paramis
*@return
*/
(InputStreamis)throwsIOException{

StringBuildersbl=newStringBuilder();
byte[]buff=newbyte[1024*8];
intlen;
inti=0;
while((len=is.read(buff))!=-1){
sbl.append(newString(buff,0,len,"utf-8"));
System.out.println(i++);
}
System.out.println(sbl.length());
returnsbl.toString();
}
}

❻ java 正则表达式匹配html标签段

<head>
<script language="javascript">
var G=document.getElementById;
function window_load(){
var strHTML = ""; // document.body.innerHTML;
strHTML += "<html>";
strHTML += " <head>";
strHTML += " </head>";
strHTML += " <body>";
strHTML += " test1 ";
strHTML += " test2 ";
strHTML += " test3 ";
strHTML += " ";
strHTML += " </body>";
strHTML += "</html>";

var reg = /<(font)\s*[^<>]*>[^<>]*<\/\1\s*>/ig;

var aryResult = strHTML.match(reg);
alert("用match方法匹配 ,结果:\n\n" + aryResult.join("\n"));
}
</script>
</head>
<body onload="window_load();"> \

</body>
</html>

❼ java 如何利用正则表达式只保留html里面的标签里面的内容

正则表达式：<p.*?>(.*?)
group(1)为正文内容。
输出时加上\n就行了

import java.util.regex.*;
public class Test{
public static void main(String[] args){
String str="No page with that title exists. ";
String regex="<p.*?>(.*?) ";
Pattern p =Pattern.compile(regex);
Matcher m=p.matcher(str);
while(m.find()){
System.out.println(m.group(1));
}
}
}

阅读全文

热点内容

cmd无法访问发布：2025-03-05 10:09:47 浏览：522

pythonfor换行发布：2025-03-05 09:51:44 浏览：709

yum内核源码发布：2025-03-05 09:27:41 浏览：94

x86编程发布：2025-03-05 09:24:22 浏览：173

怎么支付宝信用卡提现密码发布：2025-03-05 09:21:20 浏览：119

月神脚本圈发布：2025-03-05 09:13:44 浏览：178

62批量操作脚本发布：2025-03-05 08:52:57 浏览：610

java证书加密发布：2025-03-05 08:45:44 浏览：240

给定算法发布：2025-03-05 08:45:43 浏览：95

视频存储码流发布：2025-03-05 08:30:52 浏览：894

java正则html标签

与java正则html标签相关的资讯