ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • scrapy 사용법
    카테고리 없음 2015. 11. 14. 23:52
    반응형


    파이썬 scrapy 를 활용하여 웹에서 데이터를 크롤링 한후 mongodb 에 저장 하기 




    1. 우분투 버전 확인:

    cat /etc/issue

    2. 파이썬 버전 확인:

    python -v

    3. mongodb 설치:

    몽고 디비는 아래 사이트를 참고하였습니다.

    참고 : https://docs.mongodb.org/manual/tutorial/install-mongodb-on-ubuntu/

    # sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10

    # echo "deb http://repo.mongodb.org/apt/ubuntu trusty/mongodb-org/3.0 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.0.list


    # sudo apt-get update

    #sudo apt-get install -y mongodb-org=3.0.7 mongodb-org-server=3.0.7 mongodb-org-shell=3.0.7 mongodb-org-mongos=3.0.7 mongodb-org-tools=3.0.7

    #echo "mongodb-org hold" | sudo dpkg --set-selections

    #echo "mongodb-org-server hold" | sudo dpkg --set-selections

    #echo "mongodb-org-shell hold" | sudo dpkg --set-selections

    #echo "mongodb-org-mongos hold" | sudo dpkg --set-selections

    #echo "mongodb-org-tools hold" | sudo dpkg --set-selections

    sudo service mongod start 


    외부접속 가능 하도록 하기  

         #vi /etc/mongod.conf 

               default port = 27017 

                bind default ip=127.0.0.1 


          변경 :  

         bind_ip=0.0.0.0 으로 변경 해야 한다


    4. scrapy 설치:


    참고 : http://doc.scrapy.org/en/0.20/intro/install.html

    # pip install Scrapy

    5. pymongo 설치:


    pip search pymongo

    pip install pymongo


    6. scrappy 활용한 stack over flow 크롤링 하여 mongoldb 저장

    6.1 예제 프로젝트를 가져오기:

    git clone https://github.com/realpython/stack-spider.git


    6.2 실행

    반응형
Designed by Tistory.