java過濾html

發布時間: 2022-11-19 20:12:21

1. java中幾種解析html的工具

HTML分析是一個比較復雜的工作，Java世界主要有幾款比較方便的分析工具：

1.Jsoup
Jsoup是一個集強大和便利於一體的HTML解析工具。它方便的地方是，可以用於支持用jQuery中css selector的方式選取元素，這對於熟悉js的開發者來說基本沒有學習成本。

String content = "blabla";
Document doc = JSoup.parse(content);
Elements links = doc.select("a[href]");

Jsoup還支持白名單過濾機制，對於網站防止XSS攻擊也是很好的。

2.HtmlParser

HtmlParser的功能比較完備，也挺靈活，但談不上方便。這個項目很久沒有維護了，最新版本是2.1。HtmlParser的核心元素是Node，對應一個HTML標簽，支持getChildren()等樹狀遍歷方式。HtmlParser另外一個核心元素是NodeFilter，通過實現NodeFilter介面，可以對頁面元素進行篩選。這里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 實現簡易爬蟲。

3.Apache tika

tika是專為抽取而生的工具，還支持PDF、Zip甚至是JavaClass。使用tika分析HTML，需要自己定義一個抽取內容的Handler並繼承org.xml.sax.helpers.DefaultHandler，解析方式就是xml標準的方式。crawler4j中就使用了tika作為解析工具。SAX這種流式的解析方式對於分析大文件很有用，我個人倒是認為對於解析html意義不是很大。

InputStream inputStream = null;

HtmlParser htmlParser = new HtmlParser();

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext());

4.HtmlCleaner與XPath

HtmlCleaner最大的優點是：支持XPath的方式選取元素。XPath是一門在XML中查找信息的語言，也可以用於抽取HTML元素。XPath與CSS Selector大部分功能都是重合的，但是CSS Selector專門針對HTML，寫法更簡潔，而XPath則是通用的標准，可以精確到屬性值。XPath有一定的學習成本，但是對經常需要編寫爬蟲的人來說，這點投入絕對是值得的。

2. 關於java，過濾html請求的Filter中跳轉頁面的問題。

一種解決方法在response.sendRedirect()後面加上return。這種如果不行的話。
response.sendRedirect("error.jsp");error.jsp的完整路徑加上。因為Fiter類是針對整個項目進行攔截的。

3. java 如何去除html中的一個指定標簽和指定標簽里的內容

java處理html指定標簽最好用正則表達式。例如要去除html中所有的h1標簽和類容就可以用下面的演示代碼：

packagekonw.reg;
importjava.io.BufferedReader;
importjava.io.BufferedWriter;
importjava.io.FileNotFoundException;
importjava.io.FileReader;
importjava.io.FileWriter;
importjava.io.IOException;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;
publicclassRemoveTag
{
publicstaticvoidmain(String[]args)
{
FileReaderfr;
Stringcontent=null;
Stringregex="<[Hh]1>.*</[Hh]1>";
try
{
fr=newFileReader("tag.html");
BufferedReaderbr=newBufferedReader(fr);
Stringstr=null;
StringBuffersb=newStringBuffer();
while((str=br.readLine())!=null)
{
sb.append(str+"
");
}
content=sb.toString();
br.close();

}catch(FileNotFoundExceptione)
{
e.printStackTrace();
}catch(IOExceptione)
{
e.printStackTrace();
}
Patternpattern=Pattern.compile(regex);
Matchermatcher=pattern.matcher(content);
StringBuffersb1=newStringBuffer();
while(matcher.find())
{
sb1.append(matcher.replaceAll("")+"
");
}
try
{
FileWriterfw=newFileWriter("tag.html");
BufferedWriterbw=newBufferedWriter(fw);
fw.write(sb1.toString());
bw.close();
}catch(IOExceptione)
{
e.printStackTrace();
}
}
}

4. java爬取知乎答案的時候，如何去除其中的HTML標簽

可以通過正則表達式去除html標簽

importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

publicclassHtmlUtil{
privatestaticfinalStringregEx_script="<script[^>]*?>[\s\S]*?<\/script>";//定義script的正則表達式
privatestaticfinalStringregEx_style="<style[^>]*?>[\s\S]*?<\/style>";//定義style的正則表達式
privatestaticfinalStringregEx_html="<[^>]+>";//定義HTML標簽的正則表達式
privatestaticfinalStringregEx_space="\s*|	|
|
";//定義空格回車換行符

/**
*@paramhtmlStr
*@return
*刪除Html標簽
*/
publicstaticStringdelHTMLTag(StringhtmlStr){
Patternp_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
Matcherm_script=p_script.matcher(htmlStr);
htmlStr=m_script.replaceAll("");//過濾script標簽

Patternp_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
Matcherm_style=p_style.matcher(htmlStr);
htmlStr=m_style.replaceAll("");//過濾style標簽

Patternp_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
Matcherm_html=p_html.matcher(htmlStr);
htmlStr=m_html.replaceAll("");//過濾html標簽

Patternp_space=Pattern.compile(regEx_space,Pattern.CASE_INSENSITIVE);
Matcherm_space=p_space.matcher(htmlStr);
htmlStr=m_space.replaceAll("");//過濾空格回車標簽
returnhtmlStr.trim();//返迴文本字元串
}

(StringhtmlStr){
htmlStr=delHTMLTag(htmlStr);
htmlStr=htmlStr.replaceAll("","");
htmlStr=htmlStr.substring(0,htmlStr.indexOf("。")+1);
returnhtmlStr;
}

publicstaticvoidmain(String[]args){
Stringstr="<divstyle='text-align:center;'>整治「四風」清弊除垢<br/><spanstyle='font-size:14px;'></span><spanstyle='font-size:18px;'>公司召開黨的群眾路線教育實踐活動動員大會</span><br/></div>";
System.out.println(getTextFromHtml(str));
}
}

5. 在Java截取字元串的時候，如何過濾掉html標簽

去除html標簽
function
strip_tags($string,
$replace_with_space
=
true)
{
if
($replace_with_space)
{
return
preg_replace('!<[^>]*?>!',
'
',
$string);
}
else
{
return
strip_tags($string);
}
}
截取字元函數（匹配各種編碼）
function
truncate($string,
$length
=
80,
$etc
=
'...',
$break_words
=
false,
$middle
=
false){
if
($length
==
0)
return
'';
if
(is_callable('mb_strlen'))
{
if
(mb_detect_encoding($string,
'utf-8,
iso-8859-1')
===
'utf-8')
{
//
$string
has
utf-8
encoding
if
(mb_strlen($string)
>
$length)
{
$length
-=
min($length,
mb_strlen($etc));
if
(!$break_words
&&
!$middle)
{
$string
=
preg_replace('/\s+?(\s+)?$/u',
'',
mb_substr($string,
0,
$length
+
1));
}
if
(!$middle)
{
return
mb_substr($string,
0,
$length)
.
$etc;
}
else
{
return
mb_substr($string,
0,
$length
/
2)
.
$etc
.
mb_substr($string,
-
$length
/
2);
}
}
else
{
return
$string;
}
}
}
//
$string
has
no
utf-8
encoding
if
(strlen($string)
>
$length)
{
$length
-=
min($length,
strlen($etc));
if
(!$break_words
&&
!$middle)
{
$string
=
preg_replace('/\s+?(\s+)?$/',
'',
substr($string,
0,
$length
+
1));
}
if
(!$middle)
{
return
substr($string,
0,
$length)
.
$etc;
}
else
{
return
substr($string,
0,
$length
/
2)
.
$etc
.
substr($string,
-
$length
/
2);
}
}
else
{
return
$string;
}
}
綜合就是
$arc=strip_tags($arc);

6. java正則表達式過濾html p標簽

用JavaScript方法如下，JAVA語言類似：
'你的HTML文本'.replace(/.+>(.+)<.+/,'$1')

7. java中如何過濾html的代碼

把需要寫入資料庫的字元通過下面的方法過濾然後再寫入 public static String converthtml(String input) { if (input == null || input.length() == 0) { return input; } StringBuffer buf = new StringBuffer(input.length() + 6); char ch = ' '; for (int i = 0; i < input.length(); i++) { ch = input.charAt(i); if (ch == '&') { buf.append("&"); } else if (ch == '<') { buf.append("<"); } else if (ch == '>') { buf.append(">"); } else if (ch == ' ') { buf.append(""); } else { buf.append(ch); } } return buf.toString(); }

希望採納

8. java過濾sql關鍵字的正則替換掉

java過濾sql關鍵字的正則替換掉方法如下：
可以在C#中這樣做：Regexregex = newRegex(@"]*>[^");
stringcleanedHtml = regex.Replace(html, "");
可是我並不想再寫個循環去遍歷每條記錄，然後保存每條記錄，我想在資料庫中一步到位，而sql只提供了簡單的replace函數，這個函數明顯不能達到咱的要求，那就去寫一個自定義函數吧。
函數源代碼如下：CREATE functiondbo.regexReplace
(@source ntext,--原字元串@regexp varchar(1000),--正則表達式@replace varchar(1000),--替換值@globalReplace bit=1,--是否是全局替換@ignoreCase bit=0 --是否忽略大小寫)returnS varchar(1000)AS
begin
declare@hr intege
declare@objRegExp integer
declare@result varchar(5000)exec@hr =sp_OACreate'VBScript.RegExp',@objRegExp OUTPUT
IF@hr <>0 begin
exec@hr =sp_OADestroy@objRegExp
returnnullend
exec@hr =sp_OASetProperty@objRegExp,'Pattern',@regexp
IF@hr <>0 begin
exec@hr =sp_OADestroy@objRegExp
returnnullend
exec@hr =sp_OASetProperty@objRegExp,'Global',@globalReplace
IF@hr <>0 begin
exec@hr =sp_OADestroy@objRegExp
returnnullend
exec@hr =sp_OASetProperty@objRegExp,'IgnoreCase',@ignoreCase
IF@hr <>0 begin
exec@hr =sp_OADestroy@objRegExp
returnnullend
exec@hr =sp_OAMethod@objRegExp,'Replace',@result OUTPUT,@source,@replace
IF@hr <>0 begin
exec@hr =sp_OADestroy@objRegExp
returnnullend
exec@hr =sp_OADestroy@objRegExp
IF@hr <>0 begin
returnnullend
return@result
end
需要注意的是，即使寫好了這個函數，也並不能馬上使用。執行這個函數時可能會出現以下的錯誤：Msg 15281, Level 16, State 1, Line 1
SQL Server blocked access to procere 'sys.sp_OACreate' of component 'Ole Automation Proceres' because this component is turned off as part of the security configuration for this server. A system administrator can enable the use of 'Ole Automation Proceres' by using sp_configure. For more information about enabling 'Ole Automation Proceres', see "Surface Area Configuration" in SQL Server Books Online.
這是因為未開啟Ole Automation Proceres選項，MSDN中的Ole Automation Proceres選項。執行下面的語句開啟這個選項：sp_configure'show advanced options',1;GO
RECONFIGURE;GOsp_configure'Ole Automation Proceres',1;GO
RECONFIGURE;GO
所有的准備工作都已經做好，那就試驗一下吧。
Example1：忽略大小寫並替換selectdbo.regexReplace(�',']*>[^','',1,1)
Example2: 使用貪婪匹配
html代碼：
Also Available - Smith & Hogan: Criminal Law Cases & Materials 10th ed
There is, as ever, detailed analysis of the many recent case developments, in particular,
a revision of the chapter dealing with secondary liability and joint enterprise.
調用代碼：selectdbo.regexReplace(html,']*>(.| )*?','',1,1)
Example3：去除html標簽selectdbo.regexReplace('
Key Contact:
Mr Jack, Zhou
General Manager
Mr A, Ho
Marketing Director
Overseas Sales
MsWinny, Luo
Sales Manager
Overseas Sales',']*>','',1,0)
Example4：資料庫欄位值替換updateBooks。

9. javaweb，給HTML文件加上過濾器以後，HTML顯示亂碼。

那是你的瀏覽器不識別Content-Type，採用了默認的GBK/GB2312編碼顯示，這個可以在打開頁面「右鍵-編碼」看到；meta最好給一個結束符，即：<meta http-equiv="content-type" content="text/html; charset=utf-8" />

10. java 利用jsoup 如何去除一段代碼中的所有html標簽，只留純文本

使用正則表達式去匹配<>這種字元，然後刪掉！

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：842

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1105

python中的init方法發布：2025-10-20 08:17:33 瀏覽：812

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：978

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：867

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1217

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：440

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：320

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：996

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：964

java過濾html

與java過濾html相關的資訊