这个东西看起来没什么用,折腾起来还是很磨人。
以前写了 AdGuard Home 记录,广告过滤规则用起来还是不错的,区区几条过滤把广告制服得老老实实。想整理一套自己用的规则和全球规则,也就是不区分国家的过滤系统。但全球规则整理起来非常麻烦,这里仅记录一下,虽然用上以后估计没几个网站能打开,显然自己制造了大局域网,闲的蛋。
提取
- https://raw.githubusercontent.com/collinbarrett/FilterLists/master/data/FilterList.json
- 过滤关键字:
"viewUrl"
,提取最终数据链接。 - 使用 wget.exe 获取每个 URL 文本。格式不相同很麻烦,用系统自带搜索:hosts 过滤出数据文件。文件里已经写清楚屏蔽类型,没检查就合并的话某个网站会无法打开。
- 规则多得舍取一下,提取了
hosts**.txt
合并 + 清洗,ABP 规则暂不理。
整理
- 处理。使用 EmEditor 排序 + 整理 + 去重,Notepad ++ 没法做这个工作,会直接崩溃。
- 有效性。这个做不了,三百多万行域名搞起来得累死。
(方式:用 Text Splitter 切割 txt 分成多个不等份,然后用 批量网址检测存活.exe 检查 + 清理 + 导出,愣是检查不完,还没找到替代品) - 最终的规则容量 300W+,大小102MB+。内容过大导致路由器端无法启动,高性能的主机才能承受。
更新 2019-09-16