『壹』 用java读取文档并分词。

需要-io包,或者自己写读文件的部分
importjava.io.File;
importjava.io.IOException;
importjava.util.ArrayList;
importjava.util.Collections;
importjava.util.Comparator;
importjava.util.List;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

importorg.apache.commons.io.FileUtils;


publicclassTest20{

/**
*@paramargs
*/
publicstaticvoidmain(String[]args){
//TODOAuto-generatedmethodstub
Stringstr=null;
try{
str=FileUtils.readFileToString(newFile("e.txt"));
}catch(IOExceptione){
//TODOAuto-generatedcatchblock
e.printStackTrace();
}
Patternp=Pattern.compile("\b[\w-']+\b");
Matcherm=p.matcher(str);
List<Word>words=newArrayList<Word>();
while(m.find()){
add(words,m.group().trim());
}
Collections.sort(words,newComparator<Word>(){

@Override
publicintcompare(Wordo1,Wordo2){
//TODOAuto-generatedmethodstub
returno1.getWord().compareTo(o2.getWord());
}});
System.out.println(words);
}

privatestaticvoidadd(List<Word>words,Stringword){
//TODOAuto-generatedmethodstub
for(Wordtemp:words){
if(temp.getWord().equals(word)){
temp.setCount(temp.getCount()+1);
return;
}
}
Wordw=newWord();
w.setWord(word);
words.add(w);
}

}

classWord{
privateStringword;
privateintcount=1;
publicStringgetWord(){
returnword;
}
publicvoidsetWord(Stringword){
this.word=word;
}
publicintgetCount(){
returncount;
}
publicvoidsetCount(intcount){
this.count=count;
}
@Override
publicStringtoString(){
return"Word[word="+word+",count="+count+"]";
}

}

『贰』 求高手给我用java编写一个英文单词分词器

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

public class Danci {
public static void main(String[] args){

String str = new String();
System.out.print("请输入一个英文句子:");
try{
BufferedReader br = new BufferedReader(new InputStreamReader(System.in));//获取键盘输入
str = br.readLine();
}catch(IOException e){
e.printStackTrace();
}
String []s = str.split(" ");//转换成数组
System.out.println("你输入的句子共有单词 "+s.length+" 个");//s.length获取数组长度
}

}
//此程序只能获取一句话的单词个数.

『叁』 谁来推荐一个JAVA的分词工具

java读取中文分词工具:linger
Java开源中文分词器内
1、容word分词器
2、Ansj分词器
3、Stanford分词器
4、FudanNLP分词器
5、Jieba分词器
6、Jcseg分词器
7、MMSeg4j分词器
8、IKAnalyzer分词器
9、Paoding分词器
10、smartcn分词器

『肆』 java word分词器怎样安装在java中

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。

如果需要安装word分词器可以参考下面的步骤:

1、确保电脑上已经安装了JDK软件和Eclispe工具,没有安装的可以到对应的官网下载安装:

JDK官网:http://www.oracle.com/technetwork/java/javase/downloads/index.html

Eclipse官网:http://www.eclipse.org

2、下载word分词器的相关jar包:

打开word分词器的官方github主页:https://github.com/ysc/word

导入成功之后就可以在自己的项目中使用word分词器了。

『伍』 中科院中文分词器(ICTLAS)java版怎么使用

其实就是本地方法调用,你可以在里面找到java的例子

『陆』 java 中文分词为什么用 ik

ik分词器简单容易控制啊,反正我个人觉得ik不错

『柒』 java中文分词为什么用“ik”

为什么呢?因为Lucene自带的分词器比较适合英文的分词,而IK首先是一个中文的分词器。版
具体的优点先不细说权,单说分词的结果来看:

1 比如说 我爱北京

使用自带的分词 我/爱/北/京
IK分词 我/爱/北京
2 可以自己扩展词典
有很多分词器是不能够进行自己扩展词典的,有自己的词典,导致分词的结果才是自己想要的结果。
3 可以自己定义停用词字典
4 和Lucene结合比较高,有很多封装好的模块。用来检索非常顺手。
当然,IK自2012年已经不再维护了。后面有出现了很多其他的分词器。

『捌』 java+elasticsearch 分词器怎么用

你是要在什么场景下用?
elasticsearch 是基于 lucene 的。如果你直接嵌入你程序的话,直接用 lucene 就好了

『玖』 中文分词器用的最广泛是什么分词方法java的!

你是在使用全文检索吗?
如果是的话
分词比较常用的是庖丁解牛