Open-Source-Information-Leakage

开源项目信息泄露笔记【内容会持续更新】，博客地址：https://blog.zgsec.cn/archives/205.html，欢迎各位师傅点个Star支持和补充完善~🥰

本笔记版本号：V1.3.1-2024/04/22

0# 概述与现状

当我们对一些项目进行渗透、审计的时候，以及HW红蓝攻防时，对目标的开源项目信息泄露就是重要一环，这也是开源情报（Open-Source Intelligence，OSINT）信息搜集的一部分

0.1 整体现状

2020年春，Unit 42研究人员通过GitHub Event API 分析了超过24,000份GitHub公开数据，发现有数千个文件中可能包含敏感信息

在24,000份GitHub公开数据中，存在以下泄露：

4109个配置文件
2464个API密钥
2328个硬编码的用户名及密码
2144个私钥文件
1089个OAuth令牌

总体占比高达50.56%，想想开源项目信息泄露有多可怕吧

以下两点来自 @E99p1ant 师傅的优质文章：《简单地聊聊 GitHub 信息泄露监控》

0.2 对于企业而言

很多企业的开源项目信息泄露，都是企业的实习生或新入职的员工造成的。他们往往会把自己里在公司负责的一个小项目给 push 到 GitHub 上，或者是将长久以来的技术总结文章发到 GitHub 上进行汇总管理，这些文章中难免包含很多公司的数据库配置，网络拓扑，服务器信息等（这种信息泄露在小公司尤为常见）

虽然有部分公司选择使用 GitLab 等来自建 Git 远程仓库，但是同样未正确设置仓库权限为私有。导致在 /explorer 中可以看到所有的公开仓库，同时可以通过查看公开的 Groups 来得知有哪些用户，之后可以尝试爆破猜测它们的密码等等，可见自建 Git 仓库也并不是万全之计。

0.3 对于个人开发者而言

除企业员工外，还有一群就是个人开发者（特别是高校学生），他们的开源项目信息泄露也尤为严重。很多高校学生，平时喜欢自己写些脚本。比如选课脚本、图书馆通知、刷课脚本等开源项目，往往未对相关的代码进行脱敏，就把源码 push 到 GitHub 上。

于是，就造成这样的情况：写 Web 应用需要对接数据库，代码里会有 MySQL 的数据库账号配置；要发邮件通知，代码里就有个人学生邮箱账号密码；测试数据里可能还带有个人的常用密码；甚至还有一些校园VPN的账号密码等。

有的做得比较大的项目，可能会对接微信小程序、公众号，某教育 App 等第三方应用，甚至一些云厂商的服务，因此还会泄露这些服务的 AK 和 SK。所以，开源项目虽方便了企业和开发者，但其中也埋藏着信息泄露的安全隐患。

1# Google搜索语法

1.1 简单的一些Google语法

site      #指定域名进行搜索，如site:aabyss.cn（收集团队子域名）
intext    #正文中存在关键字的网页，如intext:管理登录（查找包含“管理员登录”关键词的网页）
intitle   #标题中存在关键字的网页，如intitle:管理登录（查找后台管理登陆界面）
info      #一些基本信息
inurl     #URL存在关键字的网页，如inurl:file（查找url上含file的网址寻找上传漏洞）
filetype  #搜索指定文件类型，如filetype:php（查找php类型主页）

1.2 邮件配置信息泄露

很多网站及系统都会使用POP3和SMTP发送来邮件，不少开发者由于安全意识不足会把相关的配置信息也放到Github上。

如果这时候我们动用一下Google搜索命令语句，构造一下关键字，就能把这些信息给找出来了。

site:Github.com smtp
site:Github.com smtp @qq.com
site:Github.com smtp @126.com
site:Github.com smtp @163.com
site:Github.com smtp @sina.com.cn
site:Github.com smtp password
site:Github.com String password smtp

1.3 数据库信息泄露

site:Github.com sa password              #针对SQLServer的信息泄露
site:Github.com root password            #针对MySQL的信息泄露
site:Github.com User ID='sa';Password    #针对SQLServer的信息泄露

1.4 Github之SVN信息泄露

site:Github.com svn
site:Github.com svn username
site:Github.com svn password
site:Github.com svn username password

1.5 数据库备份文件

site:Github.cominurl:sql

1.6 综合信息泄露

site:Github.com password
site:Github.com ftp ftppassword
site:Github.com 密码
site:Github.com 内部

1.7 配合用法

1、找管理后台地址
site：xxx.com intext:管理|后台|登陆|用户名|密码|系统|账号
site：xxx.com inurl:login/admin/manage/manager/admin_login/system
site：xxx.com intitle:管理|后台|登陆

2、找上传类漏洞地址：
site:xxx.com inurl:file
site:xxx.com inurl:upload

3、找注入页面:
site:xxx.com inurl:php?id=

4、找编辑器页面：
site:xxx.com inurl:ewebeditor

5、找登录页面
site:xxx.com inurl:"/admin/login.php"

6、查找含有username或password的xls文件
filetype:xls "username | password"

这里补充一个谷歌黑客语法模板，仅需输入域名即可，来自于 @及辞 师傅的文章《谷歌黑客语法模板》

2# Github高级搜索

网上大部分文章都是使用Google语法来搜索，目前还没看到国内有人使用Github进行高级搜索来查找信息泄露的文章

高级搜索链接：https://github.com/search/advanced

一般搜索以域名、特殊JS路径、备案、网站的技术支持等关键内容为主，不要局限于域名

我们可以活用 GitHub 的高级搜索条件，可以避免很多不必要的干扰，这里就整理了一些：

2.1 过滤时间

pushed:>2020-01-01 created:>2020-01-01

使用过滤器过滤掉一些很老的代码

2.2 筛选代码语言

language:java

筛选特定语言（诸如Java）的代码，排除搜索结果中静态文件的干扰

2.3 数据库连接关键词

"jdbc:mysql://"
"mysqli_connect("

搜索数据库连接语句，往往就能有很多公网数据库的账号密码

2.4 敏感文件名

filename:.env
filename:bash_history
filename:_rsa
filename:jenkins.plugins.publish_over_ssh.BapSshPublisherPlugin.xml

这个总能找到一些奇奇怪怪的东西，甚至是数字证书（之前就找到国内某大学的VPN数字证书，然后就通过VPN进入内网）

2.5 阿里云key

aliyuncs password

思路其实可以放的很广

2.6 ChatGPT密钥

最近ChatGPT不是火遍海内外吗，很多师傅都想尝试一下同样，格局和思路要打开，通过Github高级语法同样能找到并白嫖ChatGPT密钥 （注：本文仅提供思路，请遵守当地法律进行使用）

/"sk-[a-zA-Z0-9]{20,50}"/
"sk-" AND (openai OR gpt)

2.7 配合限定词

使用Github的限定词，如 path:/language:/user:/path:/org/repo:，例如：

path:**/.npmrc _auth
path:*/*config.sh password test.com NOT aabyss.cn
path:*.pem private key
path:src/*.js
language:Python
owner:octocat Aabyss-Team
repo:repo owner name

比如配合限定词，查找QQ邮箱（qq.com）相关联的密码并排除无用信息：

path:*.env ( NOT homestead NOT root NOT example NOT gmail NOT sample NOT localhost NOT marutise) password qq.com

比如配合限定词，在指定文件后缀当中查找AccessKey密钥并找到敏感行：

(path:*.xml OR path:*.json OR path:*.properties OR path:*.txt OR path:*.log path:*.config OR path:*.conf OR path:*.cfg OR path:*.env OR path:*.envrc OR path:*.prod OR path:*.secret OR path:*.private OR path:*.key) AND (access_key OR secret_key OR access_token OR api_key OR apikey OR api_secret OR auth_token OR authsecret) AND ("AK")

这里可以搭配我的这篇文章使用：云业务 AccessKey 标识特征整理

3# 正则表达式（部分内容来自互联网）

正则表达式在开源情报搜集中占了很大的一部分，所以打算整理整理

正则表达式，又称规则表达式（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"），是计算机科学的一个概念。

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本

3.1 正则表达式的规则

3.1.1 `[]`:表示一个字符,该字符可以是[]中指定的内容

[abc]：这个字符可以是a或b或c
[a-z]：表示任意一个小写字母
[a-zA-Z]：表示任意一个字母
[a-zA-Z0-9_]：表示任意一个数字字母下划线
[^abc]：该字符只要不是a或b或c

3.1.2 预定义字符

. :表示任意一个字符,没有范围限制
\d :表示任意一个数字,等同于[0-9]
\w :表示任意一个单词字符,等同于[a-zA-Z0-9_]–单词指字母/数字/_
\s :表示任意一个空白字符
\D :表示不是数字
\W :不是单词字符
\S:不是空白字符

3.1.3 量词

? :表示前面的内容出现0-1次
例如: [abc]? 可以匹配:a 或 b 或 c 或什么也不写

+ :表示前面的内容最少出现1次
  例如: [abc]+ 可以匹配:b或aaaaaaaaaa…或abcabcbabcbabcba…
  但是不能匹配:什么都不写 或 abcfdfsbbaqbb34bbwer…

: 表示前面的内容出现任意次(0-多次)—匹配内容与+一致，只是可以一次都不写
例如: [abc]* 可以匹配:b或aaaaaaaaaa…或abcabcba…或什么都不写
但是不能匹配:abcfdfsbbaqbb34bbwer…

{n} :表示前面的内容出现n次
例如: [abc]{3} 可以匹配:aaa 或 bbb 或 aab 或abc 或bbc
但是不能匹配: aaaa 或 aad

{n,m} :表示前面的内容出现最少n次最多m次
例如: [abc]{3,5} 可以匹配:aaa 或 abcab 或者 abcc
但是不能匹配:aaaaaa 或 aabbd

{n,} :表示前面的内容出现n次以上(含n次)
例如: [abc]{3,} 可以匹配:aaa 或 aaaaa… 或 abcbabbcbabcba…
但是不能匹配:aa 或 abbdaw…

3.1.4 ()用于分组,是将括号内的内容看做是一个整体

(abc){3} 表示abc整体出现3次. 可以匹配abcabcabc
但是不能匹配aaa 或abcabc

(abc|def){3}表示abc或def整体出现3次.
可以匹配: abcabcabc 或 defdefdef 或 abcdefabc
但是不能匹配abcdef 或abcdfbdef

3.2 常用的正则表达式

3.2.1 邮箱正则匹配

3.2.2 数字类正则匹配

数字：^ [0-9]*$
n位的数字：^\d{n}$
至少n位的数字：^\d{n,}$
m-n位的数字：^\d{m,n}$
零和非零开头的数字：^(0|[1-9][0-9]*)$
非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数：^(-)?\d+(.\d{1,2})?$
正数、负数、和小数：^(-|+)?\d+(.\d+)?$
有两位小数的正实数：^ [0-9]+(.[0-9]{2})?$
有1~3位小数的正实数：^ [0-9]+(.[0-9]{1,3})?$
非零的正整数：^ [1-9]\d*$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]$
非零的负整数：^-[1-9][]0-9"$ 或 ^-[1-9]\d$
非负整数：^\d+$ 或 ^ [1-9]\d*|0$
非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
非负浮点数：^\d+(.\d+)?$ 或 ^ [1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$
非正浮点数：^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$
正浮点数：^ [1-9]\d*.\d*|0.\d*[1-9]\d*$ 或 ^ (([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
负浮点数：^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
浮点数：^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$

3.2.3 字符串正则匹配

汉字 ：^ [\u4e00-\u9fa5]{0,}$
英文和数字：^ [A-Za-z0-9]+$ 或 ^ [A-Za-z0-9]{4,40}$
长度为3-20的所有字符：^.{3,20}$
由26个英文字母组成的字符串：^ [A-Za-z]+$
由26个大写英文字母组成的字符串：^ [A-Z]+$
由26个小写英文字母组成的字符串：^ [a-z]+$
由数字和26个英文字母组成的字符串：^ [A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$
中文、英文、数字包括下划线：^ [\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号：^ [\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^ [\u4E00-\u9FA5A-Za-z0-9]{2,20}$

3.2.4 其他常用正则匹配

1.域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

2.手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

3.身份证号(15位、18位数字)：^\d{15}|\d{18}$

4.密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^ [a-zA-Z]\w{5,17}$

5.日期格式：^\d{4}-\d{1,2}-\d{1,2}

6.一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$

7.一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

8.xml文件：^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$

9.中文字符的正则表达式：[\u4e00-\u9fa5]

10.QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)

11.中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

12.IP地址：\d+.\d+.\d+.\d+ (提取IP地址时有用)

13.IP地址：(( ? : ( ?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

14.文件扩展名效验:^([a-zA-Z]\: |\\)\\([^\\]+\\)* [ ^ \/: * ?"<>|]+\.txt(l)?$

3.3 正则配合限定词

在 2.7 我们学习了Gaithub限定词，通过限定词配合正则表达式将会产生巨大威力

查找指定域名下的密码泄露信息并排除无用信息：

/:password=[A-Za-z0–9-_]+/ NOT example NOT guest NOT localhost NOT fake NOT 1234 NOT xxx NOT 123456 NOT test aabyss.cn

查找敏感 access_token 信息泄露并排除无用信息：

/access_token=[A-Za-z0–9-_]+/ NOT example NOT guest NOT localhost NOT fake NOT 1234

3.4 常用正则大全

关于正则补充一个开发脚本时比较好用的正则插件，感谢 @及辞 师傅补充，如下：

Vscode应用商店中搜索"any-rule"，其他IDE也有，在线版正则大全 (any-rule.vercel.app)

Github：any86/any-rule: 常用正则大全, 支持web / vscode / idea / Alfred Workflow多平台

4# 敏感信息泄露监控工具的推荐

关于相关的工具，我这里推荐使用这四个，是我用过感觉蛮好的

四个工具各有特点，可以依据使用者的条件和喜好自行选择

关于工具的搭建和配置，在百度和Google上很多文章都有写，笔者这里就不重复了

4.1 LeakLooker-X

开源地址： https://github.com/GhostWolfLab/LeakLooker-X

LeakLooker是一款用于在公网寻找未授权访问数据库的软件，可以帮你在公网找到对任何人都开放的MongoDB、CouchDB和ElasticSearch数据库，这其中也包括Kibana。

LeakLooker主要是解析来自国外资产测绘引擎Shodan的搜索结果，进行OSINT开源情报信息搜集。

4.2 GitMAD

开源地址： https://github.com/deepdivesec/gitmad

GitMAD是一个用于发现Github上的敏感信息和数据泄漏的工具。通过给定关键字或域，GitMAD便会搜索Github上托管的代码，以查找是否存在匹配项。一旦找到了匹配项，GitMAD将克隆存储库并在文件中搜索一系列可配置的正则表达式。

然后，GitMAD会获取这些结果，并将它们插入到数据库中供后续的查看使用。这些结果也可作为邮件警报发送。另外，GitMAD将持续运行以发现与输入关键字匹配的新存储库。

4.3 GSIL

开源地址： https://github.com/FeeiCN/GSIL/

此工具主要用于GitHub敏感信息泄露的监控，可实现邮件实时告警，缺点不是可视化

4.4 GShark

开源地址： https://github.com/madneal/gshark

这是个可视化的监测工具，它不仅可以监控 Github，还可以监控 Gitlab

支持多个搜索平台，包括 Github，Gitlab（不稳定支持），Searchcode
灵活的菜单以及 API 权限管理
灵活的规则以及过滤规则设置
支持 gobuster 作为子域名爆破的支持
方便易用

Files

README.md

Latest commit

History