描述
胖鼠采集(Fat Rat Collect) 是一款能够帮助你网站自动化的采集工具. 开源作品, 支持采集所有网站列表及详情页面 它拥有微信、简书、知乎、列表、历史、详情、等多种采集方式、还有自动采集, 自动发布, 自动打标签, 等许多黑科技功能, 一次创建规则, 后续省心省力. 还有许多演示例子,一键可用。如: 微信、简书、知乎、御龙在天、寻仙、虎扑等许多例子、快去享受吧!
神奇之处
- 微信公众号文章采集 – 强大的Jquery可以处理各种版权信息, 纵享丝滑.
- 简书文章采集 – 强大的Jquery可以处理内容各种图片, 柔顺到底.
- 知乎问答采集 – 强大的Jquery可以处理各种你不想要的东西, 一键爽歪歪.
- (独家主打) 列表采集,历史采集 视频文字教程– 只需轻轻一点. 数不清的文章就来了.
- (独家主打) 详情页面文章采集 – 任何网站十秒搞定
- (独家主打) 分页爬取 – 历史数据, 也不放过. 一网打尽
- (胖鼠主打) 自动采集 – 一键启动不放过每一份数据.
- (胖鼠主打) 自动发布 – 您省心省力好帮手.
- (独家主打) 调试模式 – 新建规则好帮手, 采集结果好伙伴.
- (独家主打) 体验例子 – 一键体验胖鼠.
- (主打主打) 文章自动添加, 动态内容, 自动标签, 标签内链, 优化SEO.
- (胖鼠采集) 文章滤重 – 支持.
- (胖鼠采集) 自动特色图片 – 支持.
- (胖鼠采集) 采集图片加入媒体库 – 支持.
- (胖鼠采集) 数据处理 – 完美支持Html Jquery
- (胖鼠采集) 内容关键字过滤替换 伪原创 – 支持.
- (胖鼠采集) 自定义采集任何可见网站 – 完美支持.
- (胖鼠采集) 自定义文章图片链接类型 – 支持.
- (胖鼠采集) 内容详情页数据分页采集 – 支持.
- (胖鼠采集) 关键词随机插入, 可指定关键词或A标签关键词随机插入文章正文中 – 支持.
- (胖鼠采集) 图片本地下载, 支持使用其他插件上传(阿里云OSS、又拍云云存储, 七牛对象存储), 并可突破图片防盗链.
- (胖鼠采集) 相比其它采集器如: 火车头、神箭手、后羿、八爪鱼、以及一些伪原创采集工具, 胖鼠采集简单易用, 功能强大,是您建站的好帮手
- (重磅重磅) 胖鼠采集完全基于Wordpress, 安装即用, 开源作品
- (声明声明) 如你的PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6, 不再更新v5版本,不推荐
- (声明声明) 胖鼠采集初衷为参考学习交流; 请大家遵纪守法. 抵制违法犯罪.
- (声明声明) 胖鼠采集开源可供您查阅代码, 或者二次开发使用供您使用, 但不可修改源码后用于商业行为.
胖鼠采集系统架构
- 系统分为五大块.
- ① 采集中心, 配置各种特色配置来采集数据.
- ② 配置中心, 为采集中心提供采集规则.
- ③ 数据桶, 数据管理中心 此模块控制采集数据.
- ④ Debugging, 此模块用于大家调试规则.
- ⑤ 胖鼠工具箱, 此模块是胖鼠特色小功能.
使用谨记
- 采集是一件极其消耗系统资源的事情,尤其是图片下载。
- 新鼠友, 可一键体验例子. 例子运行正确, 那就专心写规则吧.
- 本工具仅供学习参考, 作者不承担任何风险.
螢幕截圖
安裝
安装:
1. 在插件中搜索 胖鼠采集 安装即可
2. 将插件文件上传到/wp-content/plugins/目录 即可
3. PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6
常見問題
-
胖鼠FAQ
-
采集成功, 但是没有数据? 右键检查 console 中有调试信息, 可供您参考
胖鼠采集收费吗?只有特色功能收费,列表采集、历史采集。自动采集、自动发布 等核心功能均免费
微信公众号历史采集支持吗?暂不支持
ajax页面采集支持吗?赞助可支持
图片可以下载吗? 可以, 还可设置图片路径格式
链接相对路径可以补全吗? 可以 -
关于新建配置
-
请多多使用debuggging功能
配合视频、文字教程、助您成功 -
胖鼠推荐服务环境
-
php推荐 使用php72及以上版本
推荐使用 nginx
推荐使用 mysql 5.7
推荐及时更新胖鼠采集
評價
貢獻者及開發者
“胖鼠采集(Fat Rat Collect) 微信知乎简书腾讯新闻列表分页采集, 还有自动采集、自动发布、自动标签、等多项功能。开源插件” 是一個開源的軟體。以下的人對這個外掛作出了貢獻。
貢獻者修改日誌
= 2.7.4
* 配合官方安全更新
= 2.7.3
* 修复公众号采集的一个BUG
= 2.7.2
* 修复公众号采集的重新激活BUG
= 2.7.1
* 修复一个影响新鼠友的保存配置的BUG
= 2.7.0
* 微信公众号历史文章采集
* 登陆网站 cookie 采集
= 2.6.7/8
* 优化一些安全相关问题
= 2.6.6
* 优化提示文案
* 修复自动发布快捷发布故障
* 快捷发布增加批量发布功能(新功能)
= 2.6.5
* 安全更新,性能优化
* 全站采集保存正则BUG修复
= 2.6.3
* 安全更新
* 代码优化
= 2.6.2
* 安全优化
= 2.6.1
* 修复采集列表或者分页的时候,被目标站防采集命中,会出现的采集数据的url不一致、但是数据的标题以及内容和源网站不一样,数据会重复的bug
= 2.6.0
* 升级组件,兼容PHP8
* 修复数据桶分页数量bug
* 修复自动采集html展示问题
* 修复配置数量为5个无法编辑问题
* 优化文案
* 优化项目结构
* 使用composer自动加载
= 2.5.2
* 修复关键词随机插入保存错误
= 2.5.1
* 部分语法兼容php8
* 数据桶样式优化
* 配置中心文章正文添加头尾html反斜线bug
= 2.5.0
* 升级 bootstrap
= 2.4.4
* 官方指导、代码修正, 写法规范.
* 简单而又大量的优化.
* 修复oss图片上传相对地址选项,但站点根目录不是 wp-content 会出现的bug.
= 2.4.3
* 修复关键词替换的BUG
= 2.4.2
* 修复新鼠友安装后无法保存配置Bug.
= 2.4.1
* 数据表字段长度调整
* 代码精简
= 2.4.0
* 新增关键词插入功能, 可设置一批关键词随机插入文章正文段落中.
* 修复一个分页的历史遗留bug, 可输出单页页码进行采集
* 分页采集改为一次可采集3页
* 优化了代码
= 2.3.0
* Optimization Absolute Url.
* 增加内容分页采集功能.
= 2.2.6
* Fix Auto Absolute Url Bug.
= 2.2.5
* 修复bug,提升稳定性
= 2.2.3-4
* 修复自动发布 动态内容,自动标签bug
* 优化代码,提升速度
= 2.2.1-2
* 微信采集链接优化
* 优化了软件速度
= 2.2.0
* 主题发布扩展
* 图片下载上传对接oss/云存储优化
* 去除html注释
* 文章发布优化
* 数据统计优化
* 取消特色图片激活
* 采集优化、最大超时时间10秒
* 删除规则,删除对应数据
* 等其他优化..
= 2.1.0
* 采集底层内存占用重构, 鼠友的福音
* 批量发布使用设置的发布状态
= 2.0.7
* 优化速度 .
= 2.0.6
* fix bug .
* 插件提升管理员权限使用.
= 2.0.5
* 采集图片路径优化/优化window主机附件无法查看
* 代码小版本迭代
* 数据入库优化代码,优化速度
* 批量删除细节优化
= 2.0.4
* 数据链接优化
= 2.0.3
* 优化插件速度,精简很多地方.
= 2.0.2
* 低版本数据库兼容
= 2.0.1
* 大数据量鼠优化升级步骤
2.0.0
2020-04-26
* 《胖鼠采集架构重组升级》
* 定时采集、定时发布强化
* 数据中心升级为数据桶模式、可设置数据桶对应发布分类
* 自动标签强化,标签匹配英文不区分大小写, 后续继续优化
* 动态内容强化样式。新版只在尾部添加动态内容, 后续继续优化
* 新增标签添加网站内链、5.1日前赞赏过自动标签用户免费激活
* 采集 & 调试
* 增加采集知乎问答功能
* 微信、简书、列表、详情、分页采集增加 debugging 功能
* 点击采集、异常后、按钮延时优化,避免不必要的问题
* 采集实体字符转义一些问题
* 文章重复问题优化、目前为url验重、后续增加文章标题验证重复
* 图片本地化功能加强升级
* 分页采集加强升级
* debug 全新升级 debugging
* 采集Url格式化升级
* 优化列表采集点击锚点体验
* 接口结果统一优化
* 采集数据可删除、批量管理
* 数据桶全局统计数据,所有数据一手掌握
1.11.1
2019-11-30
* delete Violations wordpress keywords
1.11.1
2019-09-19
* 简书规则升级
1.11.0
2019-09-04
* 优化了很多代码
* 增加图片不本地化选项。(采集速度超快)
* 可指定采集图片的属性。(对于某些js异步加载图片的站点很有效)
1.10.4
2019-06-12
* 优化一些地方
1.10.3
2019-05-19
* 优化 Dynamic Content 功能, 优化了取文字样式
* 优化 Auto Tags 功能, 暂时去掉了标签追加链接功能, 有bug回头解决了再加
* 数据中心弱网发布时间优化
1.10.2
2019-05-05
* 优化 Dynamic Content 功能
* 优化 Auto Tags 功能
* Auto Tags 功能 增加开关和一些优化
1.10.1
2019-05-04
* 代码优化
1.10.0
2019-05-04
* 新功能 Dynamic Content
1.9.0
2019-05-03
* 新功能 Auto Tags 文章自动打Tag or 优化一些文案
1.8.7
2019-04-30
* 修复一个紧急bug
1.8.6
2019-04-29
* 文章滤重改为强滤重
* 数据表增加一项字段
* 一次发布最大数量增加到30
1.8.4
2019-04-23
* 优化 据个别鼠要求, 采集标题 增长为120个汉字
* 优化 采集保存配置一点逻辑优化
* 文案优化
1.8.3
2019-04-15
* 优化 采集标题可能超过40个汉字长度 控制在40个字符之内
* 优化 下载图片可能会超时优化了连接时间
* 优化 一次发布很多篇, 极端情况可能图片超时问题
* 优化 发布文章个别情况可能出现报错, 捕获错误
* 优化 文章别名, 使用文章标题作为文章别名
* 新增 公告功能: 用于胖鼠紧急通知众鼠使用, 无风险。
* 新增 微信增加 作者变量{author} 公众号名字变量{name} 简书增加作者变量{author}
1.8.2
2019-04-14
* 修复了 一个不影响大局的sql错误
1.8.1
2019-04-14
* 修复 微信 简书 采集失败bug
1.8.0
2019-04-14
* 胖鼠采集全新架构
* window主机用户采集微信图片 鼠友服务器CA证书验证不通过问题
* window主机 路径 DIRECTORY_SEPARATOR 可能出现的bug
* 采集内核2.0。更快的采集速度。 (3.0规划已有。采集速度会超级超级快)
* 采集图片自动查找后缀算法优化
* 自动特色图片功能完成
* 图片加入媒体库功能
* 图片加入附件
* 发布时图片发布失败。补二次下载
1.7.5
2019-04-09
* 修复了几位鼠友用window服务器出现的图片路径乱码bug
1.7.4
2019-03-31
* 修复了简书图片bug
* 数据中心增加数据统计功能
1.7.3
2019-03-08
* 冒泡
1.7.2
2019-02-25
* 修复群里一个鼠友采集图片失败的bug.
* 升级群里鼠友采集的图片默认居中需求.
1.7.1
2019-02-15
* 胖鼠采集PHP v5.6 版本尝鲜版发布.
* 优化一些文案.
1.7.0
2019-01-25
* 定时发布 (给鼠友增加开关)
* 定时采集 (给鼠友增加开关)
* 图片可设置使用 相对/绝对 路径. 站群/单站点/CDN可能要的需求
* 微信采集自定义内容(鼠友要求可增加来源)
* 免责声明
1.6.3
2019-01-24
* 鼠友发现采集的微信视频无法播放BUG!
1.6.2
2019-01-22
* 微信 And 列表采集 图片 自动剔除多余属性 增加 Alt字段 值为title 更好的SEO!
1.6.1
2019-01-21
* 一个安全过滤误伤了鼠友. 已修复
* 版本号修正
1.6.0
2019-01-20
* Php版本验证提示
* 配置中心批量删除
* 数据中心可能出现的一个notice错误
* 数据发布,增加发布作者,文章状态.
* 数据中心作者字段优化
* 赞赏码
1.5.1
2019-01-15
* 帮助的a 标签跳转新开标签页
* 增加自动发布tag页面
* 新增加的文档的链接
* 分页采集增加默认select
* 修复自动爬去功能异常
* Css Js样式 兼容了其他插件
* 修复一个列表爬虫。由于目标站不统一。链接可能拼接错误bug
1.5.0
2019-01-13 11:16
* 优化配置中心一个 notice 错误
* 增加了数据批量删除
* 增加数据批量发布
* 文章增加发布分类
* 使用权限增加作者 编辑 管理员
1.4.3
2019-01-03 10:39
* ok 优化了详情爬虫, 增加了默认选项
* ok 增加了几个采集配置 寻仙新闻 御龙在天新闻 心理咨询师新闻 直播吧详情 虎扑详情
* ok 优化了前端错误提示
* 有个个别网站 gbk 个别乱码问题/未解决。utf-8很稳定
* 今天关闭了站群自动发布,自动发布什么时候再次开启?
1.4.2
2019-01-02
* 暂时去掉站群发布页面
* 去掉了一些默认配置规则,后续增加
* 采集url地址 代码优化
1.4.1
2019-01-01 11:05
* 增加了小提示功能.等你发现在哪里.
* 增加了简书采集
* 捕获简书新的图片src, 调整了代码
1.4.0
2018-12-30 03:09
* 跳几个小版本, 因为这次是一个架构稳定版本(稳)
* 新增自定义详情爬取
* 自动识别 img (src or data-src)
* 配置页面优化 注释优化 服务端优化
* 发布中心优化服务端 页面优化
* 爬虫中心 服务端优化 前端优化
* 前端ajax交互优化
* 数据库优化了表,增加了索引
* 优化掉了Log表
* …
1.0.0
2018-12-20
* 胖鼠第一个版本上线了 不写了 具体的功能了 信息量有点大。大家自己安装感受一下具体功能吧。