文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

分析函数— —统计

2024-04-02 19:55

关注

很多需求中都涉及到统计:均值、累计、范围均值、相邻记录比较等。
这些操作会统计多次,或有明确的统计范围,或返回的记录统计的数据集不同...

根据场景不同可分为如下几类:   
    1. 全统计
    2. 滚动统计
    3. 范围统计
    4. (相邻)行比较


构建测试数据:
SQL> desc criss_sales;
Name       Type        Nullable Default Comments 
---------- ----------- -------- ------- -------- 
DEPT_ID    VARCHAR2(6) Y                         
SALE_DATE  DATE        Y                         
GOODS_TYPE VARCHAR2(4) Y                         
SALE_CNT   NUMBER(10)  Y 


SQL> select * from criss_sales order by dept_id,sale_date desc;
 
DEPT_ID SALE_DATE   GOODS_TYPE    SALE_CNT
------- ----------- ---------- -----------
D01     2014/5/4    G02                 80
D01     2014/4/30   G03                800
D01     2014/4/8    G01                200
D01     2014/3/4    G00                700
D02     2014/5/2    G03                900
D02     2014/4/27   G01                300
D02     2014/4/8    G02                100
D02     2014/3/6    G00                500


一.全统计
最常用的全统计就是均值或求和,有时会要求同一行记录包含不同范围的全统计。

例:
为数据集统计部门销售总和,全公司销售总和,部门销售均值,全公司销售均值

SQL> select
  2    dept_id
  3   ,sale_date
  4   ,goods_type
  5   ,sale_cnt
  6   ,sum(sale_cnt) over (partition by dept_id) dept_total
  7   ,sum(sale_cnt) over() cmp_total
  8   ,avg(sale_cnt) over (partition by dept_id) avg_dept
  9   ,avg(sale_cnt) over() avg_cmp
 10  from criss_sales
 11  ;
 
DEPT_ID SALE_DATE   GOODS_TYPE    SALE_CNT DEPT_TOTAL  CMP_TOTAL   AVG_DEPT    AVG_CMP
------- ----------- ---------- ----------- ---------- ---------- ---------- ----------
D01     2014/5/4    G02                 80       1780       3580        445      447.5
D01     2014/4/8    G01                200       1780       3580        445      447.5
D01     2014/4/30   G03                800       1780       3580        445      447.5
D01     2014/3/4    G00                700       1780       3580        445      447.5
D02     2014/5/2    G03                900       1800       3580        450      447.5
D02     2014/4/8    G02                100       1800       3580        450      447.5
D02     2014/3/6    G00                500       1800       3580        450      447.5
D02     2014/4/27   G01                300       1800       3580        450      447.5 


这样在同一行记录,就得到了部门范围的全统计(均值/求和)和公司范围的全统计(均值/求和)。


二.滚动统计
滚动统计最常用的一个场景之一是累计。


例:
   计算部门和全公司的销售树量累计值。


SQL> select
  2    dept_id
  3   ,sale_date
  4   ,goods_type
  5   ,sale_cnt
  6   ,sum(sale_cnt) over(partition by dept_id order by dept_id,sale_date rows between unbounded preceding and current row) dept_cur_total
  7   ,sum(sale_cnt) over(order by dept_id,sale_date rows between unbounded preceding and current row) cmp_cur_total
  8  from criss_sales
  9  ;
 
DEPT_ID SALE_DATE   GOODS_TYPE    SALE_CNT DEPT_CUR_TOTAL CMP_CUR_TOTAL
------- ----------- ---------- ----------- -------------- -------------
D01     2014/3/4    G00                700            700           700
D01     2014/4/8    G01                200            900           900
D01     2014/4/30   G03                800           1700          1700
D01     2014/5/4    G02                 80           1780          1780
D02     2014/3/6    G00                500            500          2280
D02     2014/4/8    G02                100            600          2380
D02     2014/4/27   G01                300            900          2680
D02     2014/5/2    G03                900           1800          3580

当然,滚动查询也可以计算当前平均值~这里就不在赘述了 


三.范围统计
有时候,我们往往关注一定范围内的数据,例如时间范围(一周内的数据),记录范围(前三条记录到当前记录)。

例:按日期排序,求相相邻三次销售记录的和
SQL> select
  2    dept_id
  3   ,sale_date
  4   ,goods_type
  5   ,sale_cnt
  6   ,sum(sale_cnt) over(order by sale_date rows between 1 preceding and 1 following) CON_1_CNT
  7  from criss_sales
  8  ;
 
DEPT_ID SALE_DATE   GOODS_TYPE    SALE_CNT  CON_1_CNT
------- ----------- ---------- ----------- ----------
D01     2014/3/4    G00                700       1200
D02     2014/3/6    G00                500       1400
D01     2014/4/8    G01                200        800
D02     2014/4/8    G02                100        600
D02     2014/4/27   G01                300       1200
D01     2014/4/30   G03                800       2000
D02     2014/5/2    G03                900       1780
D01     2014/5/4    G02                 80        980


时间范围例子:
按日期排序,求当前记录日期前三天到后天三的销售数量和


SQL> select
  2    dept_id
  3   ,sale_date
  4   ,goods_type
  5   ,sale_cnt
  6   ,sum(sale_cnt) over(order by sale_date range
  7                                          between interval '3' day preceding
  8                                              and interval '3' day following) sum_7_days
  9  from criss_sales
 10  ;
 
DEPT_ID SALE_DATE   GOODS_TYPE    SALE_CNT SUM_7_DAYS
------- ----------- ---------- ----------- ----------
D01     2014/3/4    G00                700       1200
D02     2014/3/6    G00                500       1200
D01     2014/4/8    G01                200        300
D02     2014/4/8    G02                100        300
D02     2014/4/27   G01                300       1100
D01     2014/4/30   G03                800       2000
D02     2014/5/2    G03                900       1780
D01     2014/5/4    G02                 80        980


四.(相邻)行比较
其实用over(order by xxx rows between 1 preceding and 0 following)也能实现相邻行的对比。
但是,Oracle提供更方便的两个函数 
lead() 与后面某一行对比
lag()  与前面一行对比

按时间排序,显示当前记录的数量以及前后相邻记录的销售数量

SQL> select
  2    dept_id
  3   ,sale_date
  4   ,goods_type
  5   ,sale_cnt
  6   ,lag(sale_cnt,1) over(order by sale_date) lag_1
  7   ,lead(sale_cnt,1) over(order by sale_date) lead_1
  8   ,first_value(sale_cnt) over(order by sale_date rows between 1 preceding and 0 following)
  9  from criss_sales
 10  ;
 
DEPT_ID SALE_DATE   GOODS_TYPE    SALE_CNT      LAG_1     LEAD_1 FIRST_VALUE(SALE_CNT)OVER(ORDE
------- ----------- ---------- ----------- ---------- ---------- ------------------------------
D01     2014/3/4    G00                700                   500                            700
D02     2014/3/6    G00                500        700        200                            700
D01     2014/4/8    G01                200        500        100                            500
D02     2014/4/8    G02                100        200        300                            200
D02     2014/4/27   G01                300        100        800                            100
D01     2014/4/30   G03                800        300        900                            300
D02     2014/5/2    G03                900        800         80                            800
D01     2014/5/4    G02                 80        900                                       900

最后一列是利用over(order by xxx rows between 1 preceding and 0 following)与 lag做对比。同样可以得到我们希望看到的结果

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-数据库
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯