Flickr
是一个图像数据集,其中有很多图像,每张图像有五条描述。Flickr
有两个数据集:
- Flickr8k
- Flickr30k
数据样例如下:
图像:
描述:
- A boy sand surfing down a hill
- A man is attempting to surf down a hill made of sand on a sunny day.
- A man is sliding down a huge sand dune on a sunny day.
- A man is surfing down a hill of sand.
- A young man in shorts and t-shirt is snowboarding under a bright blue sky.
现在就爬取Flickr8k的数据集。
数据所在网站:Flickr8k
- python
- scrapy
进入第一层CrawlFlickr
目录,此时所在目录跟文件scrapy.cfg
同级,然后运行代码scrapy crawl ImageText
即可。
关于scrapy
的内容看博客scrapy初涉即可。