data-handler

handbag website img_url crawling & h5py amazon handbag dataset to jpg converter python code

prerequisite

$ pip install -r requirements.txt

file

jupyter notebook file

각 task에 따른 jupyter notebook file 입니다.

h5py_to_jpg_convert.ipynb : 약 137000장의 amazon handbag h5py 파일을 자신의 local에 jpg 형태로 변환하여 저장시켜주는 코드입니다.
web_crawling_bag.ipynb : online handbag website의 img_url을 html에서 source를 찾아내어 list에 저장하고 이를 csv로 만들어주는 코드입니다.
web_crawling_bag_2.ipynb : online handbag website의 img_url을 html에서 source를 찾아내어 list에 저장하고 이를 csv로 만들어주는 코드입니다.(하나의 jupyter notebook file로는 가독성이 뛰어나지 않을 것 같아 분리하였습니다.)
practice_pandas.ipynb : pandas library를 이용하여 여러 data를 handling하는 코드입니다.

data

data/bag_image_url_csv

각 website로부터 가져온 img_url이 csv 형태로 저장되어 있습니다. 또한 't_'로 시작하는 csv 는 column의 형태로 저장되어있던 csv를 transposed 시킨 csv 입니다.

error

한국 쇼핑몰
- 한국 쇼핑몰의 경우 data 자체의 수가 적어 여러개의 사이트를 돌아다니면서 일일이 크롤링 해야한다는 단점이 있음
- 하나의 division 안에 mouseover / mouseout 과 같이 마우스가 올라갈 때마다 사진이 바뀌는 사이트가 존재 -꺼내면 하나의 이미지밖에 나오지 않음
- 무신사의 경우 이미지 크기가 너무 작아 포기하였음
해외 쇼핑몰
- 대부분의 해외 쇼핑몰은 page 별로 나누어져있지 않고 밑으로 내리면 load data가 되도록 홈페이지가 구성되어 있음
- HTTP 접근 자체를 막아놓아 403이나 406의 error를 발생하는 사이트가 많음

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

data-handler

prerequisite

file

jupyter notebook file

data

data/bag_image_url_csv

error

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
data/bag_image_url_csv		data/bag_image_url_csv
facebook workshop		facebook workshop
.gitignore		.gitignore
README.md		README.md
h5py_to_jpg_convert.ipynb		h5py_to_jpg_convert.ipynb
practice_pandas.ipynb		practice_pandas.ipynb
requirements.txt		requirements.txt
web_crawling_bag.ipynb		web_crawling_bag.ipynb
web_crawling_bag_2.ipynb		web_crawling_bag_2.ipynb

mondeique/data-handler

Folders and files

Latest commit

History

Repository files navigation

data-handler

prerequisite

file

jupyter notebook file

data

data/bag_image_url_csv

error

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages