本文目录一览:
- 1、谁来推荐一个JAVA的分词工具
- 2、java中文分词为什么用“ik”?
- 3、用myeclipse将英文按照空格切分 用java做,将英文按照空格切分,并且抽出of,and等词
- 4、java用什么分词器去 标注英文单词的词性
- 5、java word分词器怎样安装在java中
- 6、你常用的Java工具库都有哪些
谁来推荐一个JAVA的分词工具
java读取中文分词工具:linger
Java开源中文分词器
1、word分词器
2、Ansj分词器
3、Stanford分词器
4、FudanNLP分词器
5、Jieba分词器
6、Jcseg分词器
7、MMSeg4j分词器
8、IKAnalyzer分词器
9、Paoding分词器
10、smartcn分词器
java中文分词为什么用“ik”?
为什么呢?因为Lucene自带的分词器比较适合英文的分词,而IK首先是一个中文的分词器。
具体的优点先不细说,单说分词的结果来看:
1 比如说 我爱北京
使用自带的分词 我/爱/北/京
IK分词 我/爱/北京
2 可以自己扩展词典
有很多分词器是不能够进行自己扩展词典的,有自己的词典,导致分词的结果才是自己想要的结果。
3 可以自己定义停用词字典
4 和Lucene结合比较高,有很多封装好的模块。用来检索非常顺手。
当然,IK自2012年已经不再维护了。后面有出现了很多其他的分词器。
用myeclipse将英文按照空格切分 用java做,将英文按照空格切分,并且抽出of,and等词
参考代码如下
import java.util.ArrayList;
public class EnDemo {
public static void main(String[] args) {
ArrayListString preps = new ArrayListString();//用于保存不需要的介词of and等
preps.add("in");
preps.add("and");
preps.add("of");
String str = "Lucy and Lily in the class The day of week is Monday";//一句英语
String[] ss = str.trim().split("\\s+");//按照1个 或者多个空格切分
ArrayListString result = new ArrayListString();//用于保存踢掉分词后的结果
for (int i = 0; i ss.length; i++) {
String temp = ss[i];
if(preps.contains(temp)){//如果是介词.那么继续下次循环
continue;
}else{
result.add(temp);//不是介词 就添加进来
}
}
for (String w : result) {
System.out.print(w+" ");
}
}
}
java用什么分词器去 标注英文单词的词性
可以试试stanford Tagger, 百度搜索下stanford Tagger。
中文词性标注可以用hanlp.
java word分词器怎样安装在java中
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。
如果需要安装word分词器可以参考下面的步骤:
1、确保电脑上已经安装了JDK软件和Eclispe工具,没有安装的可以到对应的官网下载安装:
JDK官网:
Eclipse官网:
2、下载word分词器的相关jar包:
打开word分词器的官方github主页:
下拉找到ReadME部分,点击“编译好的jar下载”:
页面将会跳转到到百度云盘的下载页面,按照需求下载指定的版本即可。
注意:word1.3需要JDK1.8。
下载完成之后解压到指定目录。
3、创建Java项目,导入word分词器的相关jar包:
打开Eclipse,右键创建Java project项目:
然后右键项目选择Build path打开导入页面,导入刚才下载的jar包到项目中:
导入成功之后就可以在自己的项目中使用word分词器了。
你常用的Java工具库都有哪些
Java SDK 肯定是使用最广的库,所以本文的名单焦点是流行的第三方库。该列表可能并不完善,所以如果你觉得有什么应该出现在列表中的,请留下您的评论。非常感谢!
1、核心库
Apache Commons Lang:来自Apache的核心库,为java.lang API补充了许多常用的工具类,如字符串操作、对象的创建等。
Google Guava:来自谷歌的核心库,包括集合(Collection)、缓存(Caching)、支持原语(Primitives)等。(示例)
2、HTML、XML Parser
Jsoup:一个简化了的 HTML操作的库。(示例)
STaX:一组可以高效处理 XML的API。 (示例)
3、Web框架
Spring:Java平台上众所周知的开源框架和依赖注入容器。(示例)
Struts2:来自Apache的流行Web框架。 (示例)
Google Web Toolkit:Google提供的开发工具库,主要用于构建和优化复杂的Web程序用。 (示例)
Strips:使用最新Java技术构建的Web程序框架,推荐使用。
Tapestry:面向组件的框架,用于使用Java创建动态、健壮、扩展性高的Web应用程序。
请猛击这里 查看以上面框架之间的比较。
4、图表、报表、图像
JFreeChart:用于创建如条形图、折线图、饼图等图表。
JFreeReport:创建于输出PDF格式的报表。
JGraphT:创建图像,其中只包含由线段连接的点集。
5、窗口
Swing:SDK提供的GUI库。(示例)
SWT:eclipse提供的GUI库。
SWT与Swing的比较。
6.、GUI框架
Eclipse RCP。(示例)
7、自然语言处理
OpenNLP:来自Apache的自然语言处理库。 (示例)
Stanford Parser:斯坦福大学提供的自然语言处理库。(示例)
如果你是一名NLP专家,请猛击这里 查看更多工具库介绍。
8、静态分析
Eclipse JDT:由IBM提供的静态分析库,可以操作Java源代码。(示例)
WALA:可以处理jar包文件(即字节码)的工具库。(示例)
9、JSON
Jackson: 用于处理JSON数据格式的多用途的Java库。Jackson 旨在快速、准确、轻量、对开人员友好之间找到最好的平衡点。
XStream:一个简单用于对象和XML互相转换的库。
Google Gson:一个专门用于Java对象和Json对象相互转换的工具库。(示例)
JSON-lib:用于 beans、maps、collections、java arrays、XML 和 JSON 之间相互转换操作的工具库。
10、数学
Apache Commons Math:提供数学计算和数值统计需函数的工具库。
11、日志
Apache Log4j:风行一时的日志记录操作库。 (示例)
Logback:当前流行的log4j项目的继任者。
SLF4J(The Simple Logging Facade for Java): 各种日志框架的一个简单的外观或抽象(如java.util.logging 、logback、log4j等),允许用户在部署时加入需要的日志框架。
12、Office
Apache POI:利用其提供的APIs,可以使用纯Java代码操作各种基于微软OLE2合成文档格式的文档。
Docx4j:一个用于创建、操作微软公开的XML文件的库(支持Word docx、 Powerpoint pptx和Excel xlsx)。
13、日期和时间
Joda-Time:如有质量问题包退包换的Java日期和时间类。
14、数据库
Hibernate、EclipseLink、JPA
JDO
jOOQ
SpringJDBC、Spring Data
Apache DbUtils
15、开发工具
Lambok: 旨在减少代码编写的Java开发库。