본문 바로가기
카테고리 없음

scrapy 사용법

by ByteBridge 2015. 11. 14.
반응형


파이썬 scrapy 를 활용하여 웹에서 데이터를 크롤링 한후 mongodb 에 저장 하기 




1. 우분투 버전 확인:

cat /etc/issue

2. 파이썬 버전 확인:

python -v

3. mongodb 설치:

몽고 디비는 아래 사이트를 참고하였습니다.

참고 : https://docs.mongodb.org/manual/tutorial/install-mongodb-on-ubuntu/

# sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10

# echo "deb http://repo.mongodb.org/apt/ubuntu trusty/mongodb-org/3.0 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.0.list


# sudo apt-get update

#sudo apt-get install -y mongodb-org=3.0.7 mongodb-org-server=3.0.7 mongodb-org-shell=3.0.7 mongodb-org-mongos=3.0.7 mongodb-org-tools=3.0.7

#echo "mongodb-org hold" | sudo dpkg --set-selections

#echo "mongodb-org-server hold" | sudo dpkg --set-selections

#echo "mongodb-org-shell hold" | sudo dpkg --set-selections

#echo "mongodb-org-mongos hold" | sudo dpkg --set-selections

#echo "mongodb-org-tools hold" | sudo dpkg --set-selections

sudo service mongod start 


외부접속 가능 하도록 하기  

     #vi /etc/mongod.conf 

           default port = 27017 

            bind default ip=127.0.0.1 


      변경 :  

     bind_ip=0.0.0.0 으로 변경 해야 한다


4. scrapy 설치:


참고 : http://doc.scrapy.org/en/0.20/intro/install.html

# pip install Scrapy

5. pymongo 설치:


pip search pymongo

pip install pymongo


6. scrappy 활용한 stack over flow 크롤링 하여 mongoldb 저장

6.1 예제 프로젝트를 가져오기:

git clone https://github.com/realpython/stack-spider.git


6.2 실행

반응형