数据来源:gaoxiao.jszs.com
2021年数来自: www.jseea.cn
原理:
- 高考比的不是得分绝对值 ,而是得分相对值,也就是排名。通过参考相近排名的往年录取情况,将来对志愿填报具有比较大借鉴意义的。
文件:
- 高校录取数据.py - 爬虫,自动抓取历年录取信息保存并生成相应的json文件
- 高校录取归档.py - 把爬虫生成的json数据保存到sqlite数据
- 高校录取查询.py - 参数是全省位次,找出历年该位次区间的学生被哪些学校所收档,为自己填报志愿提供一点参考
- 2021分数线.py - 下载一分一档的图片,调用OCR工具转换成文字,手工合并成2021排名.csv 这个数据文件为导入2021年录取数据做准备,因为考试院的数据是分数,不是排名。
运行方式:
1 apt install python3-lxml
2 pip3 install texttable requests
3 mkdir -p data/hair
4 python3 高校录取数据.py
5 python3 高校录取归档.py
6 python3 高校录取查询.py <全省名次>
运行结果如下:
+--------+--------------------+------+------------------+------+------+------+
| 年份 | 学校名称 | 类别 | 批次 | 代码 | 位次 | 人数 |
+--------+--------------------+------+------------------+------+------+------+
| 2020年 | 中国科学技术大学 | 理科 | 本科第一批次 | 2301 | 867 | 148 |
+--------+--------------------+------+------------------+------+------+------+
......
查出来的是不低于这个名次的最接近的30条数据记录,按照年份逆序排列。
如果您觉得有用,请给个星星!
2022年6月更新
-
从省招办下载2021年数据,江苏才试志愿投档线下载.py
-
从下载的xls里读取投档数据 江苏才试志愿投档线归档.py
-
插入sqlite数据库,学习了INSERT OR UPDATE,仅INSERT还是会有主键重复问题
-
有兴趣自己做界面的可以下载cee-2021.db,数据库结构在高校录取归档.py的尾部
-
增加自动适配分数段
-
https://www.sohu.com/a/560678889_594272 获得一分一段 tesseract -l eng+chi_sim 图片OCR成文本
-
从2021年招生计划专刊PDF中获得专业组信息