hbaseshell过滤查询_怎样用hbase过滤器实现一个列多列值查询

『壹』怎样用hbase过滤器实现，一个列多列值查询

HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据内的多个维度（行容，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。

『贰』几种在shell命令行中过滤adb logcat输出的方法

我们在开发中总能看到程序的log日志内容充满了屏幕，而真正对开发者有意义的信息被淹没在洪流之中，让开发者无所适从，严重影响开发效率。本文就具体介绍几种在shell命令行中过滤adblogcat输出的方法。 1、只显示需要的输出（白名单）最方便的当然是通过管道使用 grep 过滤了，这样可以使用 grep 强大的正则表达式匹配。简单的匹配一行当中的某个字符串，例如 MyApp： adb logcat | grep MyApp adb logcat | grep -i myapp #忽略大小写。 adb logcat | grep --color=auto -i myapp #设置匹配字符串颜色。更多设置请查看 grep 帮助。进阶一点可以使用 grep 的正则表达式匹配。例如上一个例子会匹配一行中任意位置的 MyApp，可以设置为仅匹配 tag。默认的 log 输出如下，如果修改过输出格式相应的表达式也要修改。 I/CacheService( 665): Preparing DiskCache for all thumbnails. 可以看出 tag 是一行开头的第三个字符开始，根据这点写出表达式： adb logcat | grep "^..MyApp" 根据这个格式也可以设置只显示某个优先级的 log，再匹配行首第一个字符即可。例如仅显示 Error 级别 tag 为 MyApp 的输出： adb logcat | grep "^E.MyApp" 当然也可以匹配多个，使用 | 分割多个匹配表达式，要加转义符。例如要匹配 tag 为 MyApp 和 MyActivity 的输出： adb logcat | grep "^..MyApp\|^..MyActivity" adb logcat | grep -E "^..MyApp|^..MyActivity" #使用 egrep 无须转义符 2、过滤不需要的输出（黑名单）还是使用 grep，用法也跟上面的一样，加一个 -v 即可。例如要过滤 tag 为 MyApp 和 MyActivity 的输出： adb logcat | grep -v "^..MyApp\|^..MyActivity" adb logcat | grep -vE "^..MyApp|^..MyActivity" #使用 egrep 无须转义符 3、显示同一个进程的所有输出有时一个程序里面的 tag 有多个，需要输出该程序（同一个 PID）的所有 tag；仅使用 tag 过滤有时也会漏掉一些错误信息，而一般错误信息也是和程序同一个 PID。还是通过 grep 实现，思路是先根据包名找到 pid 号，然后匹配 pid。写成 shell 脚本如下，参数是程序的 java 包名（如 com.android.media）。 #!/bin/bash packageName=$1 adb logcat | grep –color=auto $pid 4、从当前开始显示 logcat 有缓存，如果仅需要查看当前开始的 log，需要清空之前的。 adb logcat -c && adb logcat 5、过滤 log 文件有时需要分析 log 文件，过滤 log 文件还是使用 grep。例如 log 文件为 myapp.log，要匹配 tag 为 MyApp 和 MyActivity 的输出，然后输出到 newmyapp.log： cat myapp.log | grep "^..MyApp\|^..MyActivity" > newmyapp.log Windows 下推荐使用Notepad++，一个免费强大的记事本，支持正则表达式查找替换。可以高亮显示匹配内容，也可以删除不需要的内容。以上的技巧主要用到了 grep，其实 logcat 本身也有过滤功能，可以根据 tag、优先级过滤 log，具体请参考 Android 官方文档Reading and Writing Logs。如果喜欢使用图形界面，请参考Using DDMS，DDMS 里面的 logcat 也可以同样过滤。

『叁』 shell怎样过滤掉hbase-site.xml文件中的注释项

hbase接到命令后存下变化信息或者写入失败异常的抛出，默认情况下。执行写入时会写到两个地方：预写式日志（write-ahead log,也称hlog）和memstore,以保证数据持久化。memstore是内存里的写入缓冲区。客户端在写的过程中不会与底层的hfile直接交互，当menstore写满时，会刷新到硬盘，生成一个新的hfile.hfile是hbase使用的底层存储格式。menstore的大小由hbase-site.xml文件里的系统级属性hbase.hregion.memstore.flush.size来定义。
hbase在读操作上使用了lru缓存机制（blockcache），blockcache设计用来保存从hfile里读入内存的频繁访问的数据，避免硬盘读。每个列族都有自己的blockcache。blockcache中的block是hbase从硬盘完成一次读取的数据单位。block是建立索引的最小数据单位，也是从硬盘读取的最小数据单位。如果主要用于随机查询，小一点的block会好一些，但是会导致索引变大，消耗更多内存，如果主要执行顺序扫描，大一点的block会好一些，block变大索引项变小，因此节省内存。
LRU是Least Recently Used 近期最少使用算法。内存管理的一种页面置换算法，对于在内存中但又不用的数据块（内存块）叫做LRU，操作系统会根据哪些数据属于LRU而将其移出内存而腾出空间来加载另外的数据。

『肆』 hbase采用了什么样的数据结构

HBase采用了类似Google Bigtable的数据模型，即一个稀疏的、分布式的、持久化的多维映射表，每个表都由行键、列族、列限定符和时间戳组成。
在底层实现上，HBase使用了基于Hadoop的分布式文件系统HDFS来存储数据，并且使用了一搏皮搜种称为LSM-Tree（Log-Structured Merge-Tree）的数据结构来管理数据。LSM-Tree是一种支持高写入吞吐量的数据结构，它把数据分成多个层，每层采用不同的策略来管理数据，包括内存中的缓存、写入磁盘的SSTable、和合并SSTable的操作。通过这种方式，HBase能够支持高并发、高吞吐量的数据写入，同时保证数据的一致性和可靠性。
另外，HBase还采用了Bloom Filter、MemStore和Compaction等技术来提高数据查询效率和存储效率。Bloom Filter是一种快速的数据过滤技术，可以帮助HBase快速地过滤掉无效的查询请求，提高查询效率。MemStore是一种缓存机制，可以帮助基历HBase加速数据写入，提高数据握中写入效率。Compaction则是一种数据压缩和合并技术，可以帮助HBase节省存储空间，提高存储效率。
综上所述，HBase采用了LSM-Tree、Bloom Filter、MemStore和Compaction等多种数据结构和技术，以实现高并发、高吞吐量的分布式存储和查询功能。

『伍』 HBase条件查询（多条件查询）

转 https://blog.csdn.net/PirateLeo/article/details/7956965

文中可能涉及到的API：

Hadoop/HDFS: http://hadoop.apache.org/common/docs/current/api/

HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html

Begin！

HBase的查询实现只提供两种方式：

1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get）

2、按指定的条件获取一批记录，scan方法（org.apache.hadoop.hbase.client.Scan）

实现条件查询功能使用的就是scan方式，scan在使用时有以下几点值得注意：

1、scan可以通过setCaching与setBatch方法提高速度（以空间换时间）；

2、scan可以通过setStartRow与setEndRow来限定范围。范围越小，性能越高。

通过巧妙的RowKey设计使我们批量获取记录集合中的元素挨在一起（应该在同一个Region下），可以在遍历结果时获得很好的性能。

3、scan可以通过setFilter方法添加过滤器，这也是分页、多条件查询的基础。

下面举个形象的例子：

我们在表中存储的是文件信息，每个文件有5个属性：文件id（long，全局唯一）、创建时间（long）、文件名（String）、分类名（String）、所有者（User）。

我们可以输入的查询条件：文件创建时间区间（比如从20120901到20120914期间创建的文件），文件名（“中国好声音”），分类（“综艺”），所有者（“浙江卫视”）。

假设当前我们一共有如下文件：

内容列表
ID CreateTime Name Category UserID
1 20120902 中国好声音第1期综艺 1
2 20120904 中国好声音第2期综艺 1
3 20120906 中国好声音外卡赛综艺 1
4 20120908 中国好声音第3期综艺 1
5 20120910 中国好声音第4期综艺 1
6 20120912 中国好声音选手采访综艺花絮 2
7 20120914 中国好声音第5期综艺 1
8 20120916 中国好声音录制花絮综艺花絮 2
9 20120918 张玮独家专访花絮 3
10 20120920 加多宝凉茶广告综艺广告 4

这里UserID应该对应另一张User表，暂不列出。我们只需知道UserID的含义：

1代表浙江卫视； 2代表好声音剧组； 3代表 XX微博； 4代表赞助商。
调用查询接口的时候将上述5个条件同时输入find(20120901,20121001,"中国好声音","综艺","浙江卫视")。

此时我们应该得到记录应该有第1、2、3、4、5、7条。第6条由于不属于“浙江卫视”应该不被选中。

我们在设计RowKey时可以这样做：采用UserID + CreateTime + FileID组成rowKey，这样既能满足多条件查询，又能有很快的查询速度。

需要注意以下几点：

1、每条记录的RowKey，每个字段都需要填充到相同长度。假如预期我们最多有10万量级的用户，则userID应该统一填充至6位，如000001，000002...

2、结尾添加全局唯一的FileID的用意也是使每个文件对应的记录全局唯一。避免当UserID与CreateTime相同时的两个不同文件记录相互覆盖。

按照这种RowKey存储上述文件记录，在HBase表中是下面的结构：

rowKey（userID 6 + time 8 + fileID 6） name category ....

00000120120902000001

00000120120904000002

00000120120906000003

00000120120908000004

00000120120910000005

00000120120914000007

00000220120912000006

00000220120916000008

00000320120918000009

00000420120920000010

怎样用这张表？

在建立一个scan对象后，我们setStartRow(00000120120901)，setEndRow(00000120120914)。

这样，scan时只扫描userID=1的数据，且时间范围限定在这个指定的时间段内，满足了按用户以及按时间范围对结果的筛选。并且由于记录集中存储，性能很好。

然后使用SingleColumnValueFilter（org.apache.hadoop.hbase.filter.SingleColumnValueFilter），共4个，分别约束name的上下限，与category的上下限。满足按同时按文件名以及分类名的前缀匹配。

（注意：使用SingleColumnValueFilter会影响查询性能，在真正处理海量数据时会消耗很大的资源，且需要较长的时间。

在后续的博文中我将多举几种应用场景下rowKey的，可以满足简单条件下海量数据瞬时返回的查询功能）

如果需要分页还可以再加一个PageFilter限制返回记录的个数。

以上，我们完成了高性能的支持多条件查询的HBase表结构设计。

『陆』用happybase happy地查询hbase数据

用happybase进行hbase中数据的增删改查

前提：已经安装happybase库(pip install happybase)，已有hbase环境并开启thrift通讯端口(nohup hbase thrift start &)，thrift默认端口为9090，10.10.30.200为hbase主机ip

scan方法：

参数：

row_start、row_stop：起始和终止rowkey，查询两rowkey间的数据

row_prefix：rowkey前缀。注：使用row_prefix的时候，row_start和row_stop不能使用

filter：要使用的过滤器(hbase 0.92版本及以上生效)

timestamp：按指定时间戳查询

reverse：默认为False。为True时，scan结果按rowkey倒序排列

e.g：

put方法：

e.g：

△ 如put中改桐的rowkey已存在，则为修改数据

delete方法：

row：删除rowkey为row的数据

columns：指定columns参数塌枯时，核衫坦删除

e.g：

删除rowkey为student2的name数据：

删除成功：

batch方法：

1、批量操作

2、使用with管理批量

row方法及rows()方法，检索指定rowkey的数据

检索一条：

检索多条：

返回结果：

e.g：

结果：

暂时就这些0v0

导航:首页 > 净水问答 > hbaseshell过滤查询

hbaseshell过滤查询

与hbaseshell过滤查询相关的资料