UniScraper

Description

Uniscraper is a universal scraper that collects text from multiple types of webpages. Currently it supports html (including dynamic webpages that use javascript), online pdfs, word documents, presentation slides, and spreadsheets.

Installation instructions

Clone the git repo:

git clone https://github.com/caimeng2/UniScraper.git

Set up a conda environment by running the following command:

conda env create --prefix ./envs --file environment.yml

conda activate ./envs

Dependency

bs4 webdriver_manager pandas selenium requests python-docx python-pptx pdfminer

Example usage

Please run example.ipynb to see example usage.

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
Uniscraper		Uniscraper
docs/Uniscraper		docs/Uniscraper
.gitignore		.gitignore
README.md		README.md
environment.yml		environment.yml
example.ipynb		example.ipynb
makefile		makefile

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

UniScraper

Description

Installation instructions

Dependency

Example usage

About

Releases

Packages

Contributors 9

Languages

caimeng2/UniScraper

Folders and files

Latest commit

History

Repository files navigation

UniScraper

Description

Installation instructions

Dependency

Example usage

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 9

Languages

Packages