全球主机交流论坛

标题: python + wordpress做采集站? [打印本页]

作者: Alanku    时间: 2020-8-20 23:29
标题: python + wordpress做采集站?
想整个采集站玩玩,论坛里常常出现采集利器火车头又不会用,只会一点点python,会写一点小爬虫。

源站的文章发的是txt格式的纯文本,没有适配浏览大小,阅读效果较差。

我最先的做法是写的一个脚本,把源站的txt纯文本转换为markdown格式保存,因为markdown格式的文本,方便迁移,在本地也有较好的阅读体验。然后,找一个工具把markdown文件渲染成网页,比如Hexo。但是,好像有点问题,做成静态网站,似乎不太好统计数据,比如访客数量啥的,也不好放广告吧。

后面,上网看看,似乎typecho更合适,因为它原生支持markdown语法,但我有没找到怎么把处理好的md文章推送上去,不能我手动一篇篇往上粘贴吧。

最后,发现wordpress有个插件xmlrpc,提供了接口推送文章,还有python的代码示例,就打算就以这种方式做了。

不知道各位大佬有没有利用python做过采集站的,或者有相关经验的,求指点一二,给新人一点建议。
作者: yrj    时间: 2020-8-20 23:38
正在用,但没看懂你需要什么经验
作者: Alanku    时间: 2020-8-20 23:43
yrj 发表于 2020-8-20 23:38
正在用,但没看懂你需要什么经验

大佬,你正在插件xmlrpc配合python爬虫做采集站吗?
作者: yrj    时间: 2020-8-20 23:45
Alanku 发表于 2020-8-20 23:43
大佬,你正在插件xmlrpc配合python爬虫做采集站吗?

在用python,没在用wordpress
作者: Alanku    时间: 2020-8-20 23:49
yrj 发表于 2020-8-20 23:45
在用python,没在用wordpress

没做采集站?我想来点利用python做采集站的经验。
python爬虫我会写,但没做个过采集站(实际上也没建过站),不知道咋把二者结合起来。
作者: yrj    时间: 2020-8-20 23:50
Alanku 发表于 2020-8-20 23:49
没做采集站?我想来点利用python做采集站的经验。
python爬虫我会写,但没做个过采集站(实际上也没建过 ...

你这个问题太宽泛。可以百度学习一下。
作者: 丁氏春秋    时间: 2020-8-20 23:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: Alanku    时间: 2020-8-21 00:16
丁氏春秋 发表于 2020-8-20 23:51
https://blog.oliverxu.cn/2018/11/11/%E9%87%87%E9%9B%86wordpress%E5%B9%B6%E8%87%AA%E5%8A%A8%E5%8F%91% ...

多谢
作者: ihsky    时间: 2020-8-21 01:11
你既然会python了 干嘛还要用第三方程序,直接django,一步到位,再用celery做定时任务,完美的自动采集发布
作者: xcpan710    时间: 2020-8-21 07:53
挺好的啊,一直这么干。。




欢迎光临 全球主机交流论坛 (https://loc.qiche.eu.org/) Powered by Discuz! X3.4