java做提取标题关键词,如何提取标题

发布时间:2022-11-19

本文目录一览:

  1. 如何用java实现文本的关键字提取
  2. java 如何在一篇文章中取出某个关键字
  3. java word中提取关键字

如何用java实现文本的关键字提取

可以使用java API中的URL抓取流,也可以使用Apache的HttpClient等多种方法,最终得到的就是字符串咯,得到字符串就好办了,使用正则匹配,将匹配的保存起来就可以了

java 如何在一篇文章中取出某个关键字

这个方法是取出了含有keyword的那一行,你要去关键字,只要返回true,直接取就O了!!忘楼主采纳!

public void selectKeyWord(String keyWord){
    String filepath = "";
    try {
        DataInputStream dis = new DataInputStream(new FileInputStream(filepath));
        while(dis.read()!=-1){
            String str = dis.readUTF();
            if(str.contains(keyWord)){
                System.out.println(str);
            }
        }
    } catch (FileNotFoundException e) {
        System.out.println("文件不存在");
        System.exit(0);
    } catch (IOException e) {
        e.printStackTrace();
    }
}

java word中提取关键字

给个思路吧。 读取word用doc4j,然后就是读成字符串进行处理了。 提取关键字首先是中文分词技术,就是把一段话划分成多个组成的词语,然后统计词语的出现次数,这个是主要依据。这个是有实现的jar包的,可以去baidu搜,搜java 中文分词就行。 分词之后,记录词语出现位置,这个是辅助的依据,记录词语一句话中的位置,越靠前越像关键字,权重越高。 甚至可能需要建立一个权重体系,次数设置一个权重,整体位置设置一个权重,不同位置权重也不同。不了解权重可以理解成系数(百分比的,然后计算那个词是关键词)。 同时需要注意,可能需要排除一些常用词,哪些次需要排除,这个需要根据程序反复运行,读取不同word文章的结果来定。 不明白的话在问吧。