파이썬 scrapy 를 활용하여 웹에서 데이터를 크롤링 한후 mongodb 에 저장 하기
1. 우분투 버전 확인:
cat /etc/issue
2. 파이썬 버전 확인:
python -v
3. mongodb 설치:
몽고 디비는 아래 사이트를 참고하였습니다.
참고 : https://docs.mongodb.org/manual/tutorial/install-mongodb-on-ubuntu/
# sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10
# echo "deb http://repo.mongodb.org/apt/ubuntu trusty/mongodb-org/3.0 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.0.list
# sudo apt-get update
#sudo apt-get install -y mongodb-org=3.0.7 mongodb-org-server=3.0.7 mongodb-org-shell=3.0.7 mongodb-org-mongos=3.0.7 mongodb-org-tools=3.0.7
#echo "mongodb-org hold" | sudo dpkg --set-selections
#echo "mongodb-org-server hold" | sudo dpkg --set-selections
#echo "mongodb-org-shell hold" | sudo dpkg --set-selections
#echo "mongodb-org-mongos hold" | sudo dpkg --set-selections
#echo "mongodb-org-tools hold" | sudo dpkg --set-selections
sudo service mongod start
외부접속 가능 하도록 하기
#vi /etc/mongod.conf
default port = 27017
bind default ip=127.0.0.1
변경 :
bind_ip=0.0.0.0 으로 변경 해야 한다.
4. scrapy 설치:
참고 : http://doc.scrapy.org/en/0.20/intro/install.html
# pip install Scrapy
5. pymongo 설치:
pip search pymongo
pip install pymongo
6. scrappy 를 활용한 stack over flow 크롤링 하여 mongoldb 에 저장
6.1 예제 프로젝트를 가져오기:
git clone https://github.com/realpython/stack-spider.git
6.2 실행