一、活动主题
第一届“曙光·瑞翼杯” 程序设计大赛(网络爬虫大赛)
主办方:宁德师范学院信息与机电工程学院
曙光瑞翼教育合作中心
承办方:计算机协会
二、活动对象
宁德师范学院全校学生
三、活动时间及地点
比赛时间
报名时间:2019年10月22日至11月8日
作品提交:10月26日至11月10日
比赛时间:11月19日14时30分
地点:暂定
四、报名相关事项
1.以团队(3人)为单位参加比赛。
2.报名信息于11月8日 12 :00前通过在线填报。赛事通知群为709800734,赛事详细信息可留意群内消息。
3.作品请于11月10 日前提交至952686727@qq.com,文件以打包形式命名团队名+队长名+课题名字
五、活动中应注意的细节
1.参赛者须知,活动所有相关事宜皆以工作人员通知为准。请提前到达现场做好备。
2.如果遇特殊情况,可根据实际延迟活动时间,延迟后的活动开展时待定,并且由相关负责人进行在线通知。
3.比赛当天参赛队伍未按参赛人数实际参加比赛的,取消该队伍参赛资格。
六、赛题及要求
1.赛题说明
使用任一编程语言(C/C++,Python,Java等)编写一个程序或脚本,从互联网上爬取相关资料,并对所获取的资料进行相应分析与展示。具体要求如下:
(1)编程语言不限,可选择任意一种合适或擅长的语言。
(2)爬取的网站或资料可选择附录中的赛题,也可以自行选择。
2.比赛提交资料
(1))项目概要说明书,包括项目处理流程,采用的关键技术,程序运行环境等。
(2)源代码,需要能够正常运行,可使用第三方开源库。
(3)作品成果展示,成果展示可以使用PPT,视频,web等方式,最好以可视化方式展示。
3.参考赛题
(1)微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫。
(2)豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储。
(3)知乎爬虫。爬取知乎用户信息以及人际拓扑关系。
(4)Bilibili用户爬虫。抓取字段:用户id,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
(5)新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。
(6)小说下载分布式爬虫。可使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。
(7)中国知网爬虫。设置检索条件后,执行抓取数据,抓取数据存储并分析。
(8)链家网爬虫。爬取本地区链家历年二手房成交记录。
(9)京东爬虫。京东网站爬虫,获取商品信息等。
(10)QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
(11)乌云爬虫。 乌云公开漏洞、知识库爬虫和搜索。
(12) hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息
(13)机票爬虫(去哪儿和携程网)。机票爬虫,包含国内两大机票网站(去哪儿 + 携程)。
(14)网易客户端内容爬虫
(15)豆瓣电影、书籍、小组、相册、东西等爬虫集
(16)QQ空间爬虫,包括日志、说说、个人信息等。
(17)百度mp3全站爬虫。
(18)淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息。
(19)一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。
(20)百度云盘爬虫。
(21)社交数据爬虫。包括微博,知乎,豆瓣。
(22)Python爬虫代理IP池(proxy pool)。
(23)爬取网易云音乐所有歌曲的评论。
(24)爬取煎蛋图片。
(25)cnblogs列表页爬虫。
(26)爬取慕课网视频。
(27)中国知网爬虫。
(28)爬取CSDN上的博客文章。
(29)爬取西刺上的代理IP,并验证代理可用性
(30)其他
。