文章詳情頁

網頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片

瀏覽：104日期：2023-12-10 14:58:56

問題描述

利用爬蟲在html中獲取的相應圖片資源src的代碼是這樣的

但是再通過代碼將資源轉成鏈接的形式下載圖片的時候，就報了400的錯誤

網頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片

然而，我使用chrome去測試鏈接是否存在是，發現，真正對方網站服務器能夠識別的是

網頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片

也就是說我通過網頁獲得圖片資源的鏈接是http://www.neofactory.co.jp/i... 2.jpg然而，正常能夠獲取圖片的鏈接是http://www.neofactory.co.jp/i...

請各位大神指導之后應該怎么辦，我在網上查了好多資料，還是沒有解決辦法。ps:奇怪的是我用Firefox的話，上面的那個鏈接也能得到圖片，我就百思不得其解了。

代碼:

public class Image {

private String urlNeo='';public String getUrlNeo() { return urlNeo;}public void setUrlNeo(String urlNeo) { this.urlNeo = urlNeo;}public String getHtml() throws Exception{ ArrayList<String> list=new ArrayList<String>();String line=''; String Html=''; URL url=new URL(urlNeo); URLConnection connection=url.openConnection(); InputStream in=connection.getInputStream(); InputStreamReader isr=new InputStreamReader(in); BufferedReader br=new BufferedReader(isr); while((line=br.readLine())!=null){Html+=line;list.add(line); } br.close(); isr.close(); in.close(); return Html;}public String getImgSrc() throws Exception{ String html=getHtml(); String IMGURL_REG_xpath='//p[1]/p[2]/p[2]/p/node()'; String imginfomation=''; JXDocument jxDocument = new JXDocument(html); imginfomation=(jxDocument.sel(IMGURL_REG_xpath).toString()).substring(1,jxDocument.sel(IMGURL_REG_xpath).toString().length() - 1); return imginfomation;}public List<String> getImgXpath() throws Exception{ String str=''; String IMGSRC_REG = 'img.product.w.*.jpg'; List<String> list1=new ArrayList<String>(); List<String> list2=new ArrayList<String>(); String listimg = getImgSrc(); Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(listimg); while (matcher.find()) {list1.add(matcher.group()); } for(int i=1;i<=(list1.size()/2);i++){int j=i*2;list2.add(list1.get(j-1)); } return list2;}public void download(String admin_no) throws Exception{ List<String> list=new ArrayList<String>(); list=getImgXpath(); for(String img:list){System.out.println(img);String url='http://www.neofactory.co.jp/'+img;URL uri=new URL(url);URLConnection con=uri.openConnection();con.setConnectTimeout(5000);InputStream in=con.getInputStream();byte[] buf=new byte[1024];int length=0; File sf=new File('D:item_neo_photo'+admin_no);if(!sf.exists()){ sf.mkdirs();}String[] a=img.split('/');OutputStream os=new FileOutputStream(sf.getPath()+''+a[a.length-1]);while((length=in.read(buf))!=-1){ os.write(buf, 0, length);}os.close();in.close(); }}

}

問題解答

回答1：

直接把域名+獲取的img src屬性拼起來不行么

回答2：

url編碼下

java

上一條：java - 關于While,break的問題下一條：java - 關于多線程notify的問題

相關文章：

1. 視頻文件不能播放，怎么辦？2. 前端 - 誰來解釋下這兩個 CSS selector 區別3. javascript - 求幫助 , ATOM不顯示界面!!!!4. javascript - ios返回不執行js怎么解決？5. python - 爬蟲模擬登錄后，爬取csdn后臺文章列表遇到的問題6. html5 - HTML代碼中的文字亂碼是怎么回事？7. python bottle跑起來以后,定時執行的任務為什么每次都重復(多)執行一次?8. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處9. javascript - vue2如何獲取v-model變量名10. javascript - angular使從elastichearch中取出的文本高亮顯示，如圖所示

排行榜

					
					解決Android webview設置cookie和cookie丟失的問題
python bottle跑起來以后,定時執行的任務為什么每次都重復(多)執行一次?
docker內創建jenkins訪問另一個容器下的服務器問題
docker綁定了nginx端口 外部訪問不到
視頻文件不能播放，怎么辦？
angular.js - Beego 與 AngularJS的模板格式沖突，該怎么解決？
ruby - jekyll serve 運行報錯
html5 - 急求？被公司問住了
javascript - angular使從elastichearch中取出的文本高亮顯示，如圖所示
node.js - nodejs,express搭建，為什么ejs模板被解析成pre了？
javascript - vue2.0中，$refs對象為什么用駝峰的方式獲取不到屬性？
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

網頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片