javaictclas
發布時間: 2023-02-27 23:32:44
『壹』 有人用java寫過文本分類系統嗎
文本分類的重點不在分類,而在怎麼樣描述文本模型和提取文檔中的terms並把它數字化,轉化為分類器可以使用的輸入類型。這前面的處理直接關繫到後面分分類效果。就文本模型而言,現在普遍使用的還是Salton 和 McGill的Vector Space Model, 通過TF-IDF統計,如果是英文的話,要進行語義層次的抽象, 這方面可以使用WordNet,網上可以找到JAVA wordnet 的API,,個人認為比較好的是JWNL 如果是中文的話,涉及到分詞, 中科院計算所分詞系統ICTCLAS, 可到其網站上下載免費版。
至於JAVA寫的分類器很多,常用的比如說Weka, RapidMiner(這個相當不錯,有專門的Web data Mining的擴展包,是我的最愛),這些都可以自己調用其介面實現新的演算法。個人強烈推薦使用RapidMiner,功能相當強大,幾乎實現了當前的所有機器學習的演算法,並且操縱簡便。
學習提示:不要剛開始就希望效果很好,急躁是做學問的大敵,肯定會出現一些意想不到的問題,最主要是勤於思考,善於查找問題,慢慢改進,一個問題,如果比較難,回到它最原始最簡單的問題上去。祝你學業進步。
熱點內容