Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

add project 2 #6

Open
wants to merge 1 commit into
base: xingxing
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
14 changes: 14 additions & 0 deletions project.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,3 +19,17 @@
进阶:

每个图片都有一个 `title` 属性,能否把它也顺便保存下来?

### 选题2 制作数据分析报告
从任一招聘网站(智联,前程无忧,拉勾等)上爬取自己未来想要从事的若干个岗位的数据,将这些数据清洗、加工、整理,并绘制相关图表来比较行业、公司规模、工作年限、地区等因素带来的薪资差异。

* 基本流程:探索数据格式 --> 设计爬取策略 --> 爬取数据 --> 加工数据 --> 分析数据、绘制图表
* 部分网站存在反爬机制,如果在爬取策略上遇到困难,尽早寻求教练的帮助,这部分的技术含量很高。
* 如果数据是来自HTML解析,先观察页面,尽可能多地挖掘信息。
* 如果数据来自JSON,梳理出数据的结构,识别可用的信息。
* 有些数据是有一定格式的文本,比如 "省-市-区-街道"这样的格式。观察规律,把它们分离出来。
* 将清洗加工完毕的数据保存成csv或xlxs文件,再从文件中读取数据,进行可视化操作。
* 数据可视化,有多种选择,最常用的基础图表是折线图、直方图和饼图。折线图反映趋势(比如平均薪资随工作年限的变化),直方图分组对比(比如不同城市、不同岗位的平均薪资),饼图可以展示比例(比如不同城市的同一岗位的需求比例)。可视化的部分,应该至少包含这三种图表。
* (进阶)使用高德或百度地图的API,将地理位置信息标准化,绘制职位分布地图/热点图。
* (进阶)爬取面试评价,并通过NLP分析情感,从面试评价来给每个公司打分
* (进阶)爬取岗位相关的公司的各种信息