您的位置:

python爬取hbase信息,python读取hbase

本文目录一览:

如何在Python中访问HBase的数据

for key, data in graph_table.scan(filter="SingleColumnValueFilter('cf', 'id', q", 1000)): print key, data 这个语句是查询id

python可以把爬虫的数据写入hbase么

下载mysql.connector库 然后把爬虫爬到的数据通过mysql里面的insert语句查到数据库,当然也可以建表,一般我没用python建表 是先建好再写数据的 import mysql.connectorconn

如何使用python在hbase里进行模糊查询

#导入thrift和habse包

from thrift import Thrift

from thrift.transport import TSocket

from thrift.transport import TTransport

from thrift.protocol import TBinaryProtocol

from hbase import Hbase

from hbase.ttypes import *

#此处可以修改地址和端口

host = '192.168.1.1'

#默认端口为9090

port = 9090

#要查询的表名

table = 'table_name'

#定义一个过滤器,此为关键步骤

filter = "RowFilter(=,'regexstring:.3333.')" #此行原创:)

# Make socket

transport = TSocket.TSocket(host, port)

# Buffering is critical. Raw sockets are very slow

# 还可以用TFramedTransport,也是高效传输方式

transport = TTransport.TBufferedTransport(transport)

# Wrap in a protocol

#传输协议和传输过程是分离的,可以支持多协议

protocol = TBinaryProtocol.TBinaryProtocol(transport)

#客户端代表一个用户

client = Hbase.Client(protocol)

#打开连接

try:

transport.open()

scan.filterString=filter

scanner = client.scannerOpenWithScan(table, scan)

except Exception:

finally:

client.scannerClose(scan)

transport.close()

连接代码网上一搜一大堆,非原创,来源已不可考,非本人研究成果;

关键就是这个:"RowFilter(=,'regexstring:.3333.')"

这个过滤器要写对,hbase有十几种内置的过滤器方法,有几种比较运算符和比较器,上面这个是正则方式,即'regexstring:.3333.';

过滤器整个双引号里面的内容会通过thrift传给hbase服务端处理,下划线这部分正则要支持java的正则要求不然会报错

Python访问hbase集群

HBase-thrift项目是对HBase Thrift接口的封装,屏蔽底层的细节,使用户可以方便地通过HBase Thrift接口访问HBase集群,python通过thrift访问HBase。