SPL分组优化技巧-创新互联
1. 常规分组
当分组聚合的结果集不大时,可以使用groups。例如有学生成绩表存储在集文件中,表结构如下:
创新互联建站主营温岭网站建设的网络公司,主营网站建设方案,重庆APP开发公司,温岭h5成都小程序开发搭建,温岭网站营销推广欢迎温岭等地区企业咨询Scores |
class |
studentID |
subject |
score |
…… |
现在计算每个学生的总分数:
A | |
1 | =file("scores.btx").import@b() |
2 | =A1.groups(studentID; sum(score):TotalScore) |
A1:成绩表的数据装入内存。
A2:按照studentID字段分组,计算总分。
如果成绩表数据太大,无法装入内存,则可以用游标方式:
A | |
1 | =file("scores.btx").cursor@b() |
2 | =A1.groups(studentID; sum(score):TotalScore) |
A1:得到成绩表的游标。
A2:按照studentID字段分组,计算总分。
当成绩表记录很多,分组计算的结果集很大时,就要使用groupx:
A | |
1 | =file("scores.btx").cursor@b() |
2 | =A1.groupx(studentID; sum(score):TotalScore;10000) |
A1:得到成绩表的游标。
A2:按照studentID字段分组,计算总分。
groupx的最后一个参数是缓冲区行数,也就是内存里能够一次处理的记录条数,这里指定为10000,实际使用时要根据自己的情况进行调整。
2. 有序分组
2.1. 前半有序
当数据对分组字段有序时,可以使用groups@o。如上例中,当成绩表对studentID字段有序时,就可以加上选项o:
A | |
1 | =file("scores.btx").import@b() |
2 | =A1.groups@o(studentID; sum(score):TotalScore) |
如果成绩表太大,无法装入内存,可以使用游标:
A | |
1 | =file("scores.btx").cursor@b() |
2 | =A1.groups@o(studentID; sum(score):TotalScore) |
同样,如果有序分组的结果集很大,就不能用groups,这时要使用group:
A | |
1 | =file("scores.btx").cursor@b() |
2 | =A1.group(studentID; sum(score):TotalScore) |
group的返回是游标,这一点跟groups不一样。
2.2. 后半有序
“后半”有序是指:要分组的表 T 已经对字段a,b有序,现在我们要将表T按字段b进行分组。例如有保存销售记录的集文件sale.btx,表结构如下:
Sales |
date |
employeeID |
amount |
…… |
销售表对字段date,employeeID有序,现在要计算每个员工的销售总额,对employeeID字段做分组,这时常规分组会计算hash,但这种后半有序的情况可以使用groups@h,看一下实现:
A | |
1 | =file("sale.btx").import@b() |
2 | =A1.groups@h(employeeID; sum(amount):TotalAmount) |
如果销售表太大,无法装入内存,可以使用游标:
A | |
1 | =file("sale.btx").cursor@b() |
2 | =A1.groups@h(employeeID; sum(amount):TotalAmount) |
3. 序号分组
当分组表达式的结果是序号的时候,可以使用groups@n。仍然使用上例的销售表,现在要计算统计每个月的销售额,实现是这样的:
A | |
1 | =file("sale.btx").cursor@b() |
2 | =A1.groups@n0(month(date):MONTH;sum(amount): TotalAmount) |
A1:得到销售表的游标。
A2:把date字段转换为月份,计算每个月的销售总额;如果存在date字段是null的情况,则要加上选项@0。
使用@n之后,会依据序号去分组,而不用再计算HASH,所以要比不带@n时快。
使用3亿条数据测试,本案例实际测试结果:
耗时(秒) | |
有 @n | 没有 @n |
39 | 49 |
4. 过滤拆分
过滤拆分是指根据条件分组,满足条件和不满足条件的分成两个集。使用select可以做到这种拆分,但是要遍历两次,即一次select(条件true),和一次select(条件false)。
而使用group和align只需要遍历一次。以上面成绩表为例,现在要把成绩及格的和不及格的分成两组,看一下group的实现:
A | |
1 | =file("scores.btx").import@b() |
2 | =A1.group(score>=60) |
需要注意的是,使用group过滤拆分的结果不一定是两个集,有可能结果只有一个集,如本例中,有可能出现成绩都大于60的情况。这时候需要判断一下结果集的个数,或者使用align,因为align的结果肯定是两个集,没有符合条件的记录,也会产生一个空集。来看一下align的实现:
A | |
1 | =file("scores.btx").import@b() |
2 | =A1.align@a([true,false],score>=60) |
如果想在过滤拆分中把不满足的写进文件,可以使用select(x;file),看一下实现:
A | |
1 | =file("scores.btx").cursor@b() |
2 | =A1.select (score>=60;file(“Fail.btx”)) |
3 | =A2.fetch() |
执行完成后,A3里是成绩及格的,不及格的会保存到集文件Fail.btx。
如果要拆分为多个集,可以使用groupn。例如要把成绩分为优秀、良好、及格和不及格这些集合,可以这样实现:
A | |
1 | =file("scores.btx").cursor@b() |
2 | =[file(“Excellent.btx”), file(“Good.btx”), file(“Pass.btx”), file(“Fail.btx”)] |
3 | =A1.groupn(if(score>=90:1, score>=80:2, score>=60:3,4);A2) |
4 | =A3.fetch() |
5. 组内TopN
top也可以用于group中,例如计算每个部门里薪水的大值:
A | |
1 | =file("employee.btx").cursor@b() |
2 | =A1.groups(dept;top(-1,salary):MaxSalary) |
A1:得到员工表的游标。
A2:按照dept字段分组,组内再求最高薪水值,命名为topSalary。
A2执行结果的MaxSalary字段是数值,如果想查询薪水最高的员工的信息,可以写成这样:
A | |
1 | =file("employee.btx").cursor@b() |
2 | =A1.groups(dept;top(-1;salary):MaxSalary) |
top不仅可以返回大值,还可以得到前n个最靠前的值,这时把1写成n即可。例如计算每个部门里薪水排前三名的员工的信息:
A | |
1 | =file("employee.btx").cursor@b() |
2 | =A1.groups(dept;top(-3;salary):topSalary) |
6. 并行
使用groups进行分组计算时,还可以采取并行方式进一步提高性能,这时要加上选项@m。
如上面例中,计算每个员工的销售总额,看一下并行方式的实现:
A | |
1 | =file("sale.btx").import@m() |
2 | =A1.groups@m(employeeID; sum(amount):TotalAmount) |
如果数据太大,无法装入内存,可以使用多路游标:
A | |
1 | =file("sale.btx").cursor@mb() |
2 | =A1.groups@m(employeeID; sum(amount):TotalAmount) |
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站题目:SPL分组优化技巧-创新互联
网页路径:http://azwzsj.com/article/cdodso.html