當前位置:首頁 » 編程語言 » javaictclas

javaictclas

發布時間: 2023-02-27 23:32:44

『壹』 有人用java寫過文本分類系統嗎

文本分類的重點不在分類,而在怎麼樣描述文本模型和提取文檔中的terms並把它數字化,轉化為分類器可以使用的輸入類型。這前面的處理直接關繫到後面分分類效果。就文本模型而言,現在普遍使用的還是Salton 和 McGill的Vector Space Model, 通過TF-IDF統計,如果是英文的話,要進行語義層次的抽象, 這方面可以使用WordNet,網上可以找到JAVA wordnet 的API,,個人認為比較好的是JWNL 如果是中文的話,涉及到分詞, 中科院計算所分詞系統ICTCLAS, 可到其網站上下載免費版。
至於JAVA寫的分類器很多,常用的比如說Weka, RapidMiner(這個相當不錯,有專門的Web data Mining的擴展包,是我的最愛),這些都可以自己調用其介面實現新的演算法。個人強烈推薦使用RapidMiner,功能相當強大,幾乎實現了當前的所有機器學習的演算法,並且操縱簡便。
學習提示:不要剛開始就希望效果很好,急躁是做學問的大敵,肯定會出現一些意想不到的問題,最主要是勤於思考,善於查找問題,慢慢改進,一個問題,如果比較難,回到它最原始最簡單的問題上去。祝你學業進步。

熱點內容
訪問日誌分析工具 發布:2024-11-07 18:48:25 瀏覽:958
解壓分卷失敗 發布:2024-11-07 18:32:56 瀏覽:974
oracle導出資料庫表數據 發布:2024-11-07 18:24:57 瀏覽:449
java新建文件夾 發布:2024-11-07 18:24:21 瀏覽:640
服務的mysql腳本引導不上 發布:2024-11-07 18:19:25 瀏覽:878
win7下載文件夾恢復 發布:2024-11-07 18:18:36 瀏覽:221
酷狗號密碼忘了怎麼辦 發布:2024-11-07 18:03:13 瀏覽:87
mupdf編譯 發布:2024-11-07 18:02:58 瀏覽:32
sql時間篩選 發布:2024-11-07 17:59:53 瀏覽:860
為什麼開機密碼老不對 發布:2024-11-07 17:49:41 瀏覽:228