『壹』 用java讀取文檔並分詞。

需要-io包,或者自己寫讀文件的部分
importjava.io.File;
importjava.io.IOException;
importjava.util.ArrayList;
importjava.util.Collections;
importjava.util.Comparator;
importjava.util.List;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

importorg.apache.commons.io.FileUtils;


publicclassTest20{

/**
*@paramargs
*/
publicstaticvoidmain(String[]args){
//TODOAuto-generatedmethodstub
Stringstr=null;
try{
str=FileUtils.readFileToString(newFile("e.txt"));
}catch(IOExceptione){
//TODOAuto-generatedcatchblock
e.printStackTrace();
}
Patternp=Pattern.compile("\b[\w-']+\b");
Matcherm=p.matcher(str);
List<Word>words=newArrayList<Word>();
while(m.find()){
add(words,m.group().trim());
}
Collections.sort(words,newComparator<Word>(){

@Override
publicintcompare(Wordo1,Wordo2){
//TODOAuto-generatedmethodstub
returno1.getWord().compareTo(o2.getWord());
}});
System.out.println(words);
}

privatestaticvoidadd(List<Word>words,Stringword){
//TODOAuto-generatedmethodstub
for(Wordtemp:words){
if(temp.getWord().equals(word)){
temp.setCount(temp.getCount()+1);
return;
}
}
Wordw=newWord();
w.setWord(word);
words.add(w);
}

}

classWord{
privateStringword;
privateintcount=1;
publicStringgetWord(){
returnword;
}
publicvoidsetWord(Stringword){
this.word=word;
}
publicintgetCount(){
returncount;
}
publicvoidsetCount(intcount){
this.count=count;
}
@Override
publicStringtoString(){
return"Word[word="+word+",count="+count+"]";
}

}

『貳』 求高手給我用java編寫一個英文單詞分詞器

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

public class Danci {
public static void main(String[] args){

String str = new String();
System.out.print("請輸入一個英文句子:");
try{
BufferedReader br = new BufferedReader(new InputStreamReader(System.in));//獲取鍵盤輸入
str = br.readLine();
}catch(IOException e){
e.printStackTrace();
}
String []s = str.split(" ");//轉換成數組
System.out.println("你輸入的句子共有單詞 "+s.length+" 個");//s.length獲取數組長度
}

}
//此程序只能獲取一句話的單詞個數.

『叄』 誰來推薦一個JAVA的分詞工具

java讀取中文分詞工具:linger
Java開源中文分詞器內
1、容word分詞器
2、Ansj分詞器
3、Stanford分詞器
4、FudanNLP分詞器
5、Jieba分詞器
6、Jcseg分詞器
7、MMSeg4j分詞器
8、IKAnalyzer分詞器
9、Paoding分詞器
10、smartcn分詞器

『肆』 java word分詞器怎樣安裝在java中

word分詞是一個Java實現的分布式的中文分片語件,提供了多種基於詞典的分詞演算法,並利用ngram模型來消除歧義。

如果需要安裝word分詞器可以參考下面的步驟:

1、確保電腦上已經安裝了JDK軟體和Eclispe工具,沒有安裝的可以到對應的官網下載安裝:

JDK官網:http://www.oracle.com/technetwork/java/javase/downloads/index.html

Eclipse官網:http://www.eclipse.org

2、下載word分詞器的相關jar包:

打開word分詞器的官方github主頁:https://github.com/ysc/word

導入成功之後就可以在自己的項目中使用word分詞器了。

『伍』 中科院中文分詞器(ICTLAS)java版怎麼使用

其實就是本地方法調用,你可以在裡面找到java的例子

『陸』 java 中文分詞為什麼用 ik

ik分詞器簡單容易控制啊,反正我個人覺得ik不錯

『柒』 java中文分詞為什麼用「ik」

為什麼呢?因為Lucene自帶的分詞器比較適合英文的分詞,而IK首先是一個中文的分詞器。版
具體的優點先不細說權,單說分詞的結果來看:

1 比如說 我愛北京

使用自帶的分詞 我/愛/北/京
IK分詞 我/愛/北京
2 可以自己擴展詞典
有很多分詞器是不能夠進行自己擴展詞典的,有自己的詞典,導致分詞的結果才是自己想要的結果。
3 可以自己定義停用詞字典
4 和Lucene結合比較高,有很多封裝好的模塊。用來檢索非常順手。
當然,IK自2012年已經不再維護了。後面有出現了很多其他的分詞器。

『捌』 java+elasticsearch 分詞器怎麼用

你是要在什麼場景下用?
elasticsearch 是基於 lucene 的。如果你直接嵌入你程序的話,直接用 lucene 就好了

『玖』 中文分詞器用的最廣泛是什麼分詞方法java的!

你是在使用全文檢索嗎?
如果是的話
分詞比較常用的是庖丁解牛