bio-extract 文献爬取器

本工具原理是本地安装谷歌浏览器后使用selenium控制浏览器访问谷歌学术，获取文献下载链接后自动下载

推荐环境 windows10 + 子系统（WSL Ubuntu 18.04）子系统在win10的应用商店可以直接安装

使用步骤

git clone https://github.com/yangguang8112/bio-extract.git

安装所需要的环境

cd bio-extract
pip install -r requirements.txt

下载谷歌浏览器驱动chromedriver.exe http://npm.taobao.org/mirrors/chromedriver/ 根据自己系统中的谷歌浏览器版本选择驱动并修改config.ini中Chrome的配置参数

[Chrome]
webdriver_path = /mnt/c/Users/yangguang/Downloads/chromedriver_win32/chromedriver.exe
web_user_data = C:\Users\yangguang\Desktop\temp\Chrome\User Data

如果你的机器已经可以访问谷歌，不用设置User Data；否则，推荐使用ghelper浏览器插件，百度下载安装，自己的谷歌浏览器能成功访问谷歌后，将谷歌浏览器里的User Data目录复制出来（为了不影响本身浏览器的运行），然后将复制的目录路径改到上述配置文件中即可。

运行爬虫

退出脚本目录，另外新建一个工作目录（workdir）

cd <workdir>
# 初始化数据库，在新的工作目录一定要做，且只做一次
python <script_dir>/db.py init
# 开始运行爬虫脚本
python <script_dir>/webdriver_scholar/handle.py --keys <keywords_file> --maxpage 20

其中<script_dir>为第一步中的脚本目录可以从 http://60.205.203.207:8081/instance/ 下载已有paper.sqlit 放到workdir这样可以排除数据库中已有文献

注意事项

1.弹出谷歌浏览器如果不是最大化需要手动点选最大化；

2.开始运行后会弹出谷歌浏览器，只有当谷歌学术搜索出现人机验证的时候需要去完成验证以外其他时候都不需要手动操作；

3.我的开发环境是Windows10+WSL(Ubuntu 18.04)，没有测试过完全在Windows10环境下，欢迎debug；

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
instance		instance
scholar		scholar
webdriver_scholar		webdriver_scholar
.gitignore		.gitignore
README.md		README.md
db.py		db.py
requirements.txt		requirements.txt
schema.sql		schema.sql

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

bio-extract 文献爬取器

使用步骤

安装所需要的环境

运行爬虫

注意事项

About

Releases

Packages

Contributors 2

Languages

yangguang8112/bio-extract

Folders and files

Latest commit

History

Repository files navigation

bio-extract 文献爬取器

使用步骤

安装所需要的环境

运行爬虫

注意事项

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages