前情提要
2019年的今天,用Egg.js + MongoDB等工具手搓了一个“慧语简报”服务,用于在页面中(或以JSON API的方式)生成一篇汇聚每日新闻12条 + 天气预报 + 历史上的今天等信息的每日简报。
由于简报中仅展示新闻的标题,爬虫抓取到的新闻标题各式各样,所以剔除低信息含量的新闻标题尤为重要。
总结“烂新闻标题”的特征,写了近百个正则,用于在入库前清洗掉那些不重要的新闻标题。
举几个例子:/吗?$/, /这个/, /为什么/, /一文读懂/, /《某皇帝名字/
这些正则经过不断补充完善,剔除无用新闻标题的效果拔群,但始终无法解决的问题是如何用程序找出头条新闻,如何按重要程度排序新闻……