Releases: Danceiny/parser_engine
Releases · Danceiny/parser_engine
several improvements
See CHANGELOG.
-
ItemClassloader
的相关优化:- 增加
load
方法,支持绝对路径的类加载 PEParser
实例化的时候即加载itemname
参数对应的类
- 增加
-
TaskRequest
增加了url
有效性检查。 -
utils
增加了以下方法:is_url(url)
item2dict(item)
-
新增
extract_all_keys
参数,为真值时可直接提取JSON响应的所有字段(可以理解为,extract_keys=*
) -
修复
PEParser._parse_text
bug:在没有parent
参数且响应的json不是JSONArray状况下,支持的解析参数与API标准不一致 -
修复context参数为空时crawled_time字段缺失
-
_parse_start_url
调用时传入不存在的tpl_index_or_id
时抛出异常,而非静默返回None -
ItemClassLoader
的settings使用普通get
方法获取具体配置项,以支持dict
类型的settings参数
fix several bugs; update examples
- 修复了JSON解析器的bug
- PEField新增以下特性:
- mapper 用于支持将枚举类型的抓取字段映射为想要的值
- join 用于支持将列表类型的抓取字段连接成字符串 - 修复了其他若干bug
- review并精简了示例项目的代码,优化了相关文档
builtin Clue Mechanism
内建的线索机制
- 完善的spider、item、model、pipeline支持
- 作为独立的包存在
- 支持在scrapy的settings.py中设置数据库连接
其他更新
- 增强了scrapy_redis的redis,新增支持sentinel模式的连接
- 修复了setup.py依赖无法安装的问题