jsoup获取headercookie,jsoup获取标签内容

本文目录一览：

1、求真正有效的可以模拟登录新浪微博的java代码，后续可以用Jsoup进行抓取。急急！！登录成功马上给分！
2、怎么用网络爬虫获取数据基于java的
3、java的Jsoup登录有验证码网页获取登录后的cookie
4、jsoup教程
5、最近做java网页爬虫用jsoup 写了一个方法main执行正常放在action里调用这个方法就不正常求解
6、Jsoup 抓取网页，字符是乱码，怎么转换？跪求拜托了各位谢谢

求真正有效的可以模拟登录新浪微博的java代码，后续可以用Jsoup进行抓取。急急！！登录成功马上给分！

package jsoupTest;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.jsoup.Connection.Method;

import org.jsoup.Connection.Response;

import org.jsoup.Jsoup;

public class JsoupTest {

public static void main(String[] args) throws IOException {

MapString, String map = new HashMap();

//map.put请根据自己的微博cookie得到

Response res = Jsoup.connect("别人的主页id")

.cookies(map).method(Method.GET).execute();

String s = res.body();

System.out.println(s);

String[] ss = s.split("scriptFM.view");

int i = 0;

// pl_content_homeFeed

// pl.content.homeFeed.index

ListString list = new ArrayList();

for (String x : ss) {

// System.out.println(i++ + "======================================");

// System.out.println(x.substring(0,

// x.length() 200 ? 200 : x.length()));

// System.out.println("===========================================");

if (x.contains("\"html\":\"")) {

String value = getHtml(x);

list.add(value);

System.out.println(value);

}

// content=ss[8].split("\"html\":\"")[1].replaceAll("(\\\\t|\\\\n)",

// "").replaceAll("\\\\\"", "\"").replaceAll("\\\\/", "/");

// content=content.substring(0,

// content.length()=13?content.length():content.length()-13);

// System.out.println(Native2AsciiUtils.ascii2Native(content));

}

public static String getHtml(String s) {

String content = s.split("\"html\":\"")[1]

.replaceAll("(\\\\t|\\\\n)", "").replaceAll("\\\\\"", "\"")

.replaceAll("\\\\/", "/");

content = content.substring(0,

content.length() = 13 ? content.length()

: content.length() - 13);

return Native2AsciiUtils.ascii2Native(content);

}

怎么用网络爬虫获取数据基于java的

爬虫的原理其实就是获取到网页内容，然后对其进行解析。只不过获取的网页、解析内容的方式多种多样而已。

你可以简单的使用httpclient发送get/post请求，获取结果，然后使用截取字符串、正则表达式获取想要的内容。

或者使用像Jsoup/crawler4j等这些已经封装好的类库，更方便的爬取信息。

java的Jsoup登录有验证码网页获取登录后的cookie

首先是jar仓库：

dependency

groupIdorg.seleniumhq.selenium/groupId

artifactIdselenium-java/artifactId

version[3.0.1,)/version//获取最新的版本库

/dependency

dependency

groupIdorg.jsoup/groupId

artifactIdjsoup/artifactId

version1.8.2/version

typejar/type

/dependency

代码：

public static void getIndex2() {

//之前运行程序发现生成了N多个chrome driver进程，搞不懂为什么会有那么多进程产生，网上查了下，说起这个service有用，拿来试下，效果未知

ChromeDriverService service = new

ChromeDriverService.Builder().usingDriverExecutable(new

File("./driver/chromedriver.exe")).usingAnyFreePort().build();

try {

service.start();

} catch (IOException ex) {

Logger.getLogger(kechengbiaoIndex.class.getName()).log(Level.SEVERE, null, ex);

}

//end

//正式开始

//先定义浏览器驱动，我用chrome浏览器，网上下载一个chromedriver.exe，启动时需要加载

System.getProperties().setProperty("webdriver.chrome.driver", "./driver/chromedriver.exe");

jsoup教程

jsoup是一款Java的HTML解析器，主要用来对HTML解析。官网中文文档

在爬虫的时候，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容，

就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。

虽然jsoup也支持从某个地址直接去爬取网页源码，但是只支持HTTP，HTTPS协议，支持不够丰富。

所以，主要还是用来对HTML进行解析。

◆其中，要被解析的HTML可以是一个HTML的字符串，可以是一个URL，可以是一个文件。

org.jsoup.Jsoup把输入的HTML转换成一个org.jsoup.nodes.Document对象，然后从Document对象中取出想要的元素。

org.jsoup.nodes.Document继承了org.jsoup.nodes.Element，Element又继承了org.jsoup.nodes.Node类。里面提供了丰富的方法来获取HTML的元素。

◇从URL获取HTML来解析

其中Jsoup.connect("xxx")方法返回一个org.jsoup.Connection对象。

在Connection对象中，我们可以执行get或者post来执行请求。但是在执行请求之前，

我们可以使用Connection对象来设置一些请求信息。比如：头信息，cookie，请求等待时间，代理等等来模拟浏览器的行为。

◆获得Document对象后，接下来就是解析Document对象，并从中获取我们想要的元素了。

Document中提供了丰富的方法来获取指定元素。

◇使用DOM的方式来取得

getElementById(String id)：通过id来获取

getElementsByTag(String tagName)：通过标签名字来获取

getElementsByClass(String className)：通过类名来获取

getElementsByAttribute(String key)：通过属性名字来获取

getElementsByAttributeValue(String key, String value)：通过指定的属性名字，属性值来获取

getAllElements()：获取所有元素

◇通过类似于css或jQuery的选择器来查找元素

使用的是Element类的下记方法：

public Elements select(String cssQuery)

通过传入一个类似于CSS或jQuery的选择器字符串，来查找指定元素。

例子：

选择器的更多语法(可以在org.jsoup.select.Selector中查看到更多关于选择器的语法)：

tagname: 通过标签查找元素，比如：a

ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 fb:name 元素

#id: 通过ID查找元素，比如：#logo

.class: 通过class名称查找元素，比如：.masthead

[attribute]: 利用属性查找元素，比如：[href]

[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素

[attr=value]: 利用属性值来查找元素，比如：[width=500]

[attr^=value], [attr$=value], [attr=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href=/path/]

[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i).(png|jpe?g)]

*: 这个符号将匹配所有元素

Selector选择器组合使用

el#id: 元素+ID，比如： div#logo

el.class: 元素+class，比如： div.masthead

el[attr]: 元素+class，比如： a[href]

任意组合，比如：a[href].highlight

ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素

parent child: 查找某个父元素下的直接子元素，比如：可以用div.content p 查找 p 元素，也可以用body * 查找body标签下所有直接子元素

siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div

siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p

el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

伪选择器selectors

:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素

:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素

:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素

:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素

:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class="logo" 元素的所有 div 列表

:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)

:containsOwn(text): 查找直接包含给定文本的元素

:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)

:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素

注意：上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等

◆通过上面的选择器，我们可以取得一个Elements对象，它继承了ArrayList对象，里面放的全是Element对象。

接下来我们要做的就是从Element对象中，取出我们真正需要的内容。

通常有下面几种方法：

◇Element.text()

这个方法用来取得一个元素中的文本。

◇Element.html()或Node.outerHtml()

这个方法用来取得一个元素中的html内容

◇Node.attr(String key)

获得一个属性的值，例如取得超链接a href=""中href的值

json字符串-数组类型与JSONArray之间的转换

复杂json格式字符串与JSONObject之间的转换

jsoup获取headercookie,jsoup获取标签内容

最近做java网页爬虫用jsoup 写了一个方法main执行正常放在action里调用这个方法就不正常求解

import java.io.BufferedWriter;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStreamWriter;

import java.net.SocketTimeoutException;

import java.net.UnknownHostException;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class JsoupTest {

static String url = ";lkt=1%2C1386588673481%2C1386588673481ie=utf8sst0=1386588674552p=40040100dp=1w=01019900dr=1_asf=;_ast=1386589056query=java网页爬虫page=1";

public static void main(String[] args) {

Document doc = readUrlFist(url);

write(doc);

}

public static void write(Document doc) {

try {

FileOutputStream fos=new FileOutputStream("C:\\Documents and Settings\\Administrator\\桌面\\a.html");

OutputStreamWriter osw=new OutputStreamWriter(fos);

BufferedWriter bw=new BufferedWriter(osw);

bw.write(doc.toString());

bw.flush();

fos.close();

osw.close();

bw.close();

} catch (Exception e) {

e.printStackTrace();

}

public static Document readUrlFist(String url) {

Document doc = null;

Connection conn = Jsoup.connect(url);

conn.header(

"User-Agent",

"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2 Googlebot/2.1");

try {

doc = conn.timeout(200 * 1000).get();

} catch (IOException e) {

e.printStackTrace();

if ((e instanceof UnknownHostException)

|| (e instanceof SocketTimeoutException)) {

doc = readUrlFist(url);

}

return doc;

}

Jsoup 抓取网页，字符是乱码，怎么转换？跪求拜托了各位谢谢

1.从url加载一个页面：Document doc = Jsoup.connect(" " ).get();2.从url加载页面同时加载该页面上的链接页面：Document doc=Jsoup.connect(url).data("query", "Java")// 请求参数.userAgent("my jsoup")// 设置 User-Agent.cookie("auth", "token")// 设置 cookie.timeout(3000)// 设置连接超时时间.get();3.本地一个html文件：File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", " " ); 查看原帖

jsoup获取headercookie,jsoup获取标签内

2022-11-27

jsoup设置cookie,jsoup修改html内容

2023-01-03

java使用jsoup简单爬虫,jsoup爬取网页

本文目录一览： 1、java jsoup怎样爬取特定网页内的数据 2、java爬虫抓取指定数据 3、如何用java爬虫爬取招聘信息 java jsoup怎样爬取特定网页内的数据 1、Jsoup简述 J

2023-12-08

jsoup携带cookie（jsoup怎么用）

本文目录一览： 1、jsoup教程 2、Jsoup或者HttpClient抓取web页面时，data，userAgent，cookie()，timeout()，post();为什么要设置这些？ 3、使

2023-12-08

jsoup程序中使用代理（jsoup教程）

本文目录一览： 1、如何在爬虫中设置代理服务器HttpClient，可以连续爬取，请老师给具体代码，谢谢！ 2、java jsoup怎样爬取特定网页内的数据 3、Jsoup如何在设有有代理的网络中解析

2023-12-08

JSoup在Web页面解析中的应用

2023-05-20

jsoup填充cookie获取数据,jsoup设置cooki

2023-01-04

javajsoup用法（java jsoup）

本文目录一览： 1、java jsoup怎样爬取特定网页内的数据 2、java怎样读取html文件 3、java使用jsoup采集网站数据 4、详解如何基于Java用Jsoup爬虫HTML数据 jav

2023-12-08

使用Maven和Jsoup提高网站的搜索引擎排名

2023-05-16

jsoup带cookies（jsoup是什么意思）

本文目录一览： 1、Jsoup发送http请求，get和post两种方式，分别带参数和不带参数 2、求真正有效的可以模拟登录新浪微博的java代码，后续可以用Jsoup进行抓取。急急！！登录成功马上给

2023-12-08

js怎么获取标签的class,js获取html标签内容

本文目录一览： 1、js怎么获取元素的class名？ 2、js怎么获取元素的class名 3、js如何获取DIV的 class值？ js怎么获取元素的class名？需要准备的材料分别有：电脑、htm

2023-12-08

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

jsoup获取headercookie,jsoup获取标签内容

本文目录一览：

求真正有效的可以模拟登录新浪微博的java代码，后续可以用Jsoup进行抓取。急急！！登录成功马上给分！

怎么用网络爬虫获取数据基于java的

java的Jsoup登录有验证码网页获取登录后的cookie

jsoup教程

最近做java网页爬虫用jsoup 写了一个方法main执行正常放在action里调用这个方法就不正常求解

Jsoup 抓取网页，字符是乱码，怎么转换？跪求拜托了各位谢谢

jsoup获取headercookie,jsoup获取标签内

jsoup设置cookie,jsoup修改html内容

java使用jsoup简单爬虫,jsoup爬取网页

jsoup携带cookie（jsoup怎么用）

jsoup程序中使用代理（jsoup教程）

JSoup在Web页面解析中的应用

jsoup填充cookie获取数据,jsoup设置cooki

javajsoup用法（java jsoup）

使用Maven和Jsoup提高网站的搜索引擎排名

jsoup带cookies（jsoup是什么意思）

java如何爬取最新的数据（java爬取数据保存到数据库）

java抓取网页数据实现下载（java如何爬取网页数据）

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

Java工程师如何进行网页捕获

利用JSoup和Maven优化网页元素

如何使用Java抓取网页信息？

Kettle Java实现网页内容提取和分析

java爬虫系列第五讲（JAVA爬虫）

java爬虫,java爬虫与python爬虫的区别

js怎么获取标签的class,js获取html标签内容

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

jsoup获取headercookie,jsoup获取标签内容

本文目录一览：

求真正有效的可以模拟登录新浪微博的java代码，后续可以用Jsoup进行抓取。急急！！登录成功马上给分！

怎么用网络爬虫获取数据基于java的

java的Jsoup登录有验证码网页获取登录后的cookie

jsoup教程

最近做java网页爬虫用jsoup 写了一个方法main执行正常 放在action里调用这个方法就不正常求解

Jsoup 抓取网页，字符是乱码，怎么转换？跪求拜托了各位 谢谢

jsoup获取headercookie,jsoup获取标签内

jsoup设置cookie,jsoup修改html内容

java使用jsoup简单爬虫,jsoup爬取网页

jsoup携带cookie（jsoup怎么用）

jsoup程序中使用代理（jsoup教程）

JSoup在Web页面解析中的应用

jsoup填充cookie获取数据,jsoup设置cooki

javajsoup用法（java jsoup）

使用Maven和Jsoup提高网站的搜索引擎排名

jsoup带cookies（jsoup是什么意思）

java如何爬取最新的数据（java爬取数据保存到数据库）

java抓取网页数据实现下载（java如何爬取网页数据）

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

Java工程师如何进行网页捕获

利用JSoup和Maven优化网页元素

如何使用Java抓取网页信息？

Kettle Java实现网页内容提取和分析

java爬虫系列第五讲（JAVA爬虫）

java爬虫,java爬虫与python爬虫的区别

js怎么获取标签的class,js获取html标签内容

人机检测，请谅解

最近做java网页爬虫用jsoup 写了一个方法main执行正常放在action里调用这个方法就不正常求解

Jsoup 抓取网页，字符是乱码，怎么转换？跪求拜托了各位谢谢