前些天在网上冲浪的时候看到一个案例咨询,问说世界500强的数据分析要不要去,评论区一片爆炸:“楼主能分享一下文科生怎么转行做数据分析吗??”、“SQL、python这些学起来好痛苦!”我看着屏幕苦笑,数据分析岗位现在的热门程度如果要形容的话,基本就是随便抓一个微博网友都知道这个岗位了。
Anyway,言归正传,数据分析师的招聘JD你们一定不陌生:

可以说,每个数据分析岗都需要会SQL。
我本人曾在滴滴、美团、平安科技的数据分析类岗位实习过,实习期间会大量运用sql进行取数。也参与了2018年的秋招,做过网易、拼多多、新浪等等公司的数据分析笔试题,还是比较了解SQL常考的题目类型的。
写这篇文章是希望帮助还没有实战过SQL的小伙伴、或者了解一些SQL语句,但是担心自己了解的太片面的小伙伴。这篇文章主要介绍的是:如果想要面试数据分析岗位,最优先需要掌握的SQL技能是哪些呢?
读完本文,你能快速知道:(1)除了select 这种基本的语句,我最应该马上掌握的SQL语句和知识是什么?(2)面试中SQL题80%都在考察的语法是什么?(3)这些语法应该怎么使用?
本文将从三大块介绍入门SQL需要掌握的语法和知识,分别是
从一个实习和秋招过来人的角度看,这些知识基本够面试的时候用了,如果本身也在数据分析岗位实习或者实习过,可以在评论区讨论或者补充一些也常常用到的SQL知识,大家一起交流进步~ ps. 本文主要做知识点快速突破,具体的实战练习大家必不可少还是要做!
介绍完了三大块知识后,后续会有常见的SQL面试/笔试题,可以练习和交流~

本文对于SQL知识的介绍结构
1. 最基本(选数据)
select a.id,a.age,b.sex from (select id,age from table_1) a
join (select id, sex from table_2) b
on a.id =b.id
在这里先介绍一下几种join: (敲重点,很容易问的哦)

join : hive的join默认是inner join,找出左右都可匹配的记录;
left join: 左连接,以左表为准,逐条去右表找可匹配字段,如果有多条会逐次列出,如果没有找到则是NULL;

right join:右连接,以右表为准,逐条去左表找可匹配字段,如果有多条会逐次列出,如果没有找到则是NULL;

full outer join: 全连接,包含两个表的连接结果,如果左表缺失或者右表缺失的数据会填充NULL。

每种join 都有on ,>join 之前要确保关联键是否去重,是不是刻意保留非去重结果。
-- 不去重,合并两张表的数据 select * from ( select?id?from?table_1 UNION?ALL select?id?from?table_2 )t;
union和union all 均基于列合并多张表的数据,所合并的列格式必须完全一致。union的过程中会去重并降低效率,union all 直接追加数据。union 前后是两段select 语句而非结果集。
2. 最常用(更有多重组合)
为方便大家理解每个函数的作用,先建一个表,后面以这个为示例。

select distinct id from table_1
select count(distinct id) from table_1
select count(*) from (select?distinct?id?from?table_1)?tb
distinct 会对结果集去重,对全部选择字段进行去重,并不能针对其中部分字段进行去重。使用count distinct进行去重统计会将reducer数量强制限定为1,而影响效率,因此适合改写为子查询。
select count(distinct id) from table_1 group by sex
select max(age), min(age),avg(age) from table_1 group by id
聚合函数帮助我们进行基本的数据统计,例如计算最大值、最小值、平均值、总数、求和
select count(distinct id) from table_1 where company = 'A' group?by?sex
select company, avg(age) from table_1 where sex = 'M' group by company having?avg(age)>30;
select id,age from table_1 order by age DESC limit 10
select id, (case when CAST(salary as float)<50000 Then '0-5万' when CAST(salary as float)>=50000 and CAST(salary as float)<100000 then '5-10万' when CAST(salary as float) >=100000 and CAST(salary as float)<200000 then '10-20万' when CAST(salary as float)>200000 then '20万以上' else NULL end from table_1;
在这个例子里也穿插了一个CAST的用法,它常用于string/int/double型的转换。
1. concat( A, B...)返回将A和B按顺序连接在一起的字符串,如:concat('foo', 'bar') 返回'foobar'
select concat('www','.iteblog','.com') from iteblog;
2. split(str, regex)用于将string类型数据按regex提取,分隔后转换为array。
-- 以","为分隔符分割字符串,并转化为array Select split("1,2,3",",")as value_array from table_1; -- 结合array index,将原始字符串分割为3列 select value_array[0],value_array[1],value_array[2] from (select split("1,2,3",",")as value_array from table_1 )t
3. substr(str,0,len) 截取字符串从0位开始的长度为len个字符。
select substr('abcde',3,2) from iteblog;
3. 基础进阶
select *, row_number() over (order by salary desc) as row_num from table_1;
select *, row_number() over (partition by deptid order by salary desc) as rank from table_1;

按照depid分组,对salary进行排序(倒序)
除了row_number函数之外,还有两个分组排序函数,分别是rank() 和dense_rank()。
select percentile(CAST (salary AS int),0.9)) as income_top10p_threshold from table_1;
select percentile(CAST (salary AS int),array(0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0)) as income_percentiles from table_1;
select to_date("1970-01-01 00:00:00") as start_time from table_1;
select datediff ('2016-12-30','2016-12-29');
to_date函数可以把时间的字符串形式转化为时间类型,再进行后续的计算;
4. 常见笔试/面试题
例:有3个表S,C,SC:S(SNO,SNAME)代表(学号,姓名)C(CNO,CNAME,CTEACHER)代表(课号,课名,教师)SC(SNO,CNO,SCGRADE)代表(学号,课号,成绩)
问题:1. 找出没选过“黎明”老师的所有学生姓名。2. 列出2门以上(含2门)不及格学生姓名及平均成绩。3. 既学过1号课程又学过2号课所有学生的姓名。
1. select sname from s where sno not in ( select sno from sc where cno in ( select distinct cno from c where cteacher='黎明' ) );
2. select s.sname, avg_grade from s join (select sno from sc where scgrade < 60 group by sno having count(*) >= 2) t1 on s.sno = t1.sno join (select sno, avg(scgrade) as avg_grade from sc group by sno ) t2 on s.sno = t2.sno;
3. select sname from ( select sno from sc where cno = 1) a join (select sno from sc where cno = 2) b on?a.sno?=?b.sno
做SQL题的时候注意理解每个题目希望你用的是什么知识点,这样有助于巩固。
当初我学SQL的时候,盯着《SQL必知必会》翻来覆去的看,但是知识点真的比较多Mssql基本语句,也比较零碎。在写这篇文章之前,也看过知乎上关于SQL学习的文章,有的比较广泛而全面,有的则很干货,全部是牛客上的SQL题目的解析。
基于自己的体会,我写了这篇SQL面试和笔试的入门文章,主旨是快速、清晰的把握重点。希望大家都能快快入门SQL
(编辑:威海站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|