全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 949|回复: 9
打印 上一主题 下一主题

[Windows VPS] python + wordpress做采集站?

[复制链接]
跳转到指定楼层
1#
发表于 2020-8-20 23:29:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
想整个采集站玩玩,论坛里常常出现采集利器火车头又不会用,只会一点点python,会写一点小爬虫。

源站的文章发的是txt格式的纯文本,没有适配浏览大小,阅读效果较差。

我最先的做法是写的一个脚本,把源站的txt纯文本转换为markdown格式保存,因为markdown格式的文本,方便迁移,在本地也有较好的阅读体验。然后,找一个工具把markdown文件渲染成网页,比如Hexo。但是,好像有点问题,做成静态网站,似乎不太好统计数据,比如访客数量啥的,也不好放广告吧。

后面,上网看看,似乎typecho更合适,因为它原生支持markdown语法,但我有没找到怎么把处理好的md文章推送上去,不能我手动一篇篇往上粘贴吧。

最后,发现wordpress有个插件xmlrpc,提供了接口推送文章,还有python的代码示例,就打算就以这种方式做了。

不知道各位大佬有没有利用python做过采集站的,或者有相关经验的,求指点一二,给新人一点建议。
2#
发表于 2020-8-20 23:38:03 | 只看该作者
正在用,但没看懂你需要什么经验
3#
 楼主| 发表于 2020-8-20 23:43:52 | 只看该作者
yrj 发表于 2020-8-20 23:38
正在用,但没看懂你需要什么经验

大佬,你正在插件xmlrpc配合python爬虫做采集站吗?
4#
发表于 2020-8-20 23:45:05 | 只看该作者
Alanku 发表于 2020-8-20 23:43
大佬,你正在插件xmlrpc配合python爬虫做采集站吗?

在用python,没在用wordpress
5#
 楼主| 发表于 2020-8-20 23:49:35 | 只看该作者
yrj 发表于 2020-8-20 23:45
在用python,没在用wordpress

没做采集站?我想来点利用python做采集站的经验。
python爬虫我会写,但没做个过采集站(实际上也没建过站),不知道咋把二者结合起来。
6#
发表于 2020-8-20 23:50:33 | 只看该作者
Alanku 发表于 2020-8-20 23:49
没做采集站?我想来点利用python做采集站的经验。
python爬虫我会写,但没做个过采集站(实际上也没建过 ...

你这个问题太宽泛。可以百度学习一下。
7#
发表于 2020-8-20 23:51:01 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
8#
 楼主| 发表于 2020-8-21 00:16:28 | 只看该作者
丁氏春秋 发表于 2020-8-20 23:51
https://blog.oliverxu.cn/2018/11/11/%E9%87%87%E9%9B%86wordpress%E5%B9%B6%E8%87%AA%E5%8A%A8%E5%8F%91% ...

多谢
9#
发表于 2020-8-21 01:11:46 来自手机 | 只看该作者
你既然会python了 干嘛还要用第三方程序,直接django,一步到位,再用celery做定时任务,完美的自动采集发布
10#
发表于 2020-8-21 07:53:30 来自手机 | 只看该作者
挺好的啊,一直这么干。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-15 12:32 , Processed in 0.060557 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表