當前位置:電腦軟件 > 網絡軟件 > 網站優化 > 火車采集器免費版 V9.10

火車采集器免費版 V9.10

大小:23.4MB語言:簡體中文類別:網站優化

類型:國產軟件授權:免費軟件時間:2019/10/23

官網:

環境:Windows10, Windows8, Windows7, WinVista, WinXP

安全檢測:無插件360通過騰訊通過金山通過瑞星通過

普通下載

高速下載

需下載高速下載器,提速50%

火車采集器英文名LocoySpider,它是一款專業的互聯網數據抓取、處理、分析、挖掘軟件,它擁有網址采集、內容采集、數據處理、數據發布、日志管理等等功能,且支持多數據庫,能夠無限級多頁采集、全自動運行、分布式高速采集、多識別系統、采集監控系統,可以非常好的幫助網站管理優化人員對網站進行分析優化。現在已經被電商運營人員、企業人員、 網站站長等各行業的人使用。有需要的用戶快來下載火車采集器免費版吧,小編在下文還為大家附上了簡單的使用教程!
火車采集器免費版

采集器教程

1、新建分組--新建任務

2、添加網址+ 編輯獲取網址的規則

選擇范圍在 ul 里面的 li 里面的鏈接,注意排除重復地址,可以點擊下面測試網址采集獲取。

可以看到有采集到的文章鏈接了。

3、采集內容規則
我這邊需要采集下面圖上展示數據(catid是欄目id,可以將采集到的數據放入對應欄目,設置固定值就好)

著重說下內容和圖片的采集,標題和描述同理內容采集

內容采集:
打開一個采集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網址前面加上 view-source: 一樣可以查看):選中文章開頭一個位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下圖1處,結尾同開頭一樣。我截取內容不想里面還帶有鏈接圖片可以數據處理,添加--html標簽排除--選好確定--確定

還有需要下載頁面圖片,勾選和填寫下面選項

圖片采集:
(1)選中范圍和內容一樣(文章內圖片)
(2)數據處理選 提取第一張圖片,內容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正則過濾,獲取內容:aa.jpg
(4)數據庫存儲有前綴,添加上, upload/xxxxx/

找一個頁面測試一下,可以看到對應項目都獲取到了。

4、發布內容設置,這里以方式三發布到數據庫為例子,編輯后回到這邊勾選剛定義的模塊就好:


5、我需要保存圖片到本地,要設置下保存文件的路徑(ftp后續會試著使用)。

6、保存,查看剛新建的任務,右鍵 開始任務運行,這邊就可以看到文字和圖片都下載下來了,數據庫里面也可以看到了。

功能介紹

一、網址采集
1、火車采集器可以通過網址采集規則的設定,快速采集到所需的網址信息。可手動輸入、批量添加或直接從文本導入網址,并能自動篩選去除重復的網址信息。
2、支持多級頁面網址的采集,多級網址采集可以使用頁面分析自動得到地址、手動填寫規則兩種方式。應對多級分頁中內容不同,但地址相同的頁面網址采集,火車采集器設置了 GET,POST 和 ASPXPOST 三種 HTTP 請求方式。
3、火車采集器支持網址采集測試,可以驗證操作的正確性,避免操作有誤導致采集結果不準確。
二、內容采集
1、火車采集器可以通過分析網頁源代碼,設定內容采集規則,精準采集到網頁中散亂分布的內容數據,并支持多級多頁等復雜頁面中的內容采集。
2、通過定義標簽,能夠將數據進行分類采集,比如將文章內容的標題與正文分開采集。火車采集器配置了三種內容提取的方式:前后截取、正則提取、正文提取。可選性強,用戶可以按照使用需求進行選擇。
3、內容采集同樣支持測試功能,可選用一個典型頁面來測試內容采集的正確性,以便及時更正和進行下一步數據處理。
三、數據處理
對于采集到的信息數據,火車采集器可以對其進行一系列的智能處理,使采集到的數據更加符合我們的使用標準。主要包括 1)標簽過濾:過濾掉內容中不需要的空格,鏈接等標簽;2)替換:支持近義、同義詞替換;3)數據轉換:支持漢譯英、簡轉繁、轉換為拼音等;4)自動摘要、自動分詞:支持自動生成摘要和自動分詞功能;5)下載選項:火車采集器支持任意格式的文件探測下載,并能夠將相對地址智能補全為絕對地址。
四、數據發布
1、火車采集器將數據采集下來后默認將數據保存在本地數據庫(sqlite 、mysql、sqlserver),用戶可以根據自己的需求選擇對數據的后續操作以完成數據發布,支持直接查看數據、在線發布數據和入數據庫,并支持用戶進行發布接口的使用和開發。
2、根據數據庫類型用相關軟件打開可以直接查看數據,配置一個發布模塊即可將數據在線發布到網站,可以設置自動登陸網站,獲取欄目列表等;如果入到用戶自己的數據庫中,用戶只需寫幾個 SQL 語句,程序就會按照用戶的 SQL 語句導入數據;保存為本地文件時支持本地 SQL 或文本文件(word、excel、html,txt)格式。
五、多任務多線程運行
火車采集器可以選擇同時運行多個任務,支持不同網站或同一站點下不同欄目的內容同時采集,能夠有計劃的調度任務。單個任務在采集內容和發布內容時均可以使用多線程運行,提升運行效率。
六、HTTP 二級代理服務器
火車采集器可以通過二級代理服務器的功能實現 IP 的更換,避免因 IP 被限制訪問而導致的采集無法運行,用戶需先獲取一些代理 IP,然后將代理 IP 導入采集器中完成設置即可。
七、計劃任務管理器
火車采集器支持計劃任務管理,能夠定時自動地進行采集發布,實現自動更新的功能,可對加入計劃任務內的任務設置其執行的頻率和開始運行的時間,執行頻率可以選擇每周、每天、每間隔,或根據用戶需求自定義 corn 表達式執行。
八、任務運行日志管理
火車采集器配置了采集監控系統,任務運行管理器將采集監控模塊生成的記錄信息組裝成日志條目,如果啟用了自動運行功能或需要對程序運行狀況進行監控,可以查看任務運行日志中某個日期時間段內的運行情況,來做具體的分析。可以具體了解到任務的成功數量、失敗數量,重復數量和用時等數據。
九、插件擴展
1、火車采集器支持 PHP 和 C#插件擴展,可以幫助用戶對采集的數據進行修改處理,完成用戶的更多需求,極大的擴展了采集器的功能。用戶可以按照插件開發手冊自行開發所需插件,也可以使用火車采集器官方開發的一些插件資源。
2、火車采集器中配置了插件管理器,可對插件列表進行管理和選擇插件方法,支持插件測試。

軟件特色

一、全網通用
1、基于 web 結構的采集
火車采集器的采集原理是基于 web 結構的源代碼提取,幾乎適用于所有的網頁,以及網頁中能夠看到的所有內容;
2、擴展性強
火車采集器支持接口和插件多種擴展延伸,打破操作局限,滿足更加多樣化的使用需求,使火車采集器真正做到全網通用。
二、功能全面
1、集采集發布于一體
火車采集器在每個功能上都做了優化設置,除了最基礎的數據采集,更是融入了強大的數據處理和數據發布功能,全面完善了對于數據利用的整個流程。
2、多元化的功能配置
火車采集器在許多細節操作中配置多項可選方式。
1)多種提取方式:網址和內容的提取均設置了多種方式,網址采集包含手動填寫采集規則、頁面自動分析,內容提取包含前后截取、正則提取、正文提取,標簽組合,用戶可根據自己的需要選擇不同方式;
2)多識別系統:正文識別、任意編碼識別等多種智能識別系統;
3)圖片、壓縮文件、視頻等任意格式的文件都能輕松下載;
4)支持Access/MySQL/MsSQL/Sqlite/Oracle 五種類型的數據庫發布;5)可選擇使用加密狗,隨時移動更安全。
三、高效穩定
1、分布式高速采集系統
火車采集器采用分布式高速采集系統,將任務分配至多個服務端同時運行采集,多任務多線程式的運行模式,能夠最大化提升運行效率。
2、占用資源少
任務量得以分解,服務端所占用資源減少,使得火車采集器的性能更加穩定。
四、數據精準
1、采集監控系統
實時地監控采集,任務運行日志報錯統計,及時修復,確保數據不被遺漏。
2、數據處理準確
多種精細化的數據處理方式,結合測試功能讓火車采集器做到數據采集無誤,精準可用。

使用人群

1、企業人員
收集潛在的客戶信息,快速挖掘新客戶;通過分析客戶行為開展業務,降低風險和預算,洞察競爭對手的業務數據,助力商業決策。
2、電商運營
按照用戶需求定向采集商品信息、商家信息、產品評價,挖掘相關數據背后的潛在價值,進行精準的營銷優化,提升運行效率。
3、政府機關
實時匯集國內外信息數據,掌握所關注的動態信息,進行輿情監控,及時對不利或危情信息進行預警,并通過分析數據指導社會與經濟的發展。
4、網站站長
實現定時采集數據和自動發布數據,采集優質內容加工處理后填充發布到網站,讓網站快速擁有強大的內容支撐,輕松提升流量與人氣。
5、個人需求者
批量下載大量的文件,圖片等內容,解決個人在學術研究或生活,工作等方面的數據需求,取代手動復制粘貼,提高效率,節省下更多時間。

更新日志

火車采集器免費版V9.10(2019-10-23)
1、修復分頁采集請求出錯的問題
2、批量網址處理中,時間格式增加轉換為“時間戳”的功能。
3、修復“智能提取電話”功能意外變為“智能提取郵箱”的bug。
4、無限極列表頁采集,是否由于重復數據而停止修改為可配置(原為自動停止采集)。
5、修復老板鍵設置為空之后,會默認變成 CtrL+Alt的bug。
6、修復由于沒有水印配置,導致的程序批量復制出錯的問題。
7、修復由于多頁未能獲取到,導致由多頁獲取數據的標簽丟失的bug。
8、發布模塊,數據庫的編碼增加utf8mb4格式支持。
9、修復分頁循環匹配時,組合標簽僅獲取第一頁的bug
10、優化批量網址處理中,由于數據量太多而導致程序卡頓的問題。
11、修復使用PHP插件,無法獲取請求cookie的問題。
下載地址
火車采集器免費版 V9.10
普通下載通道

有問題?點擊報錯+投訴+提問

網友評論

0條評論

評論需審核后才能顯示
    黑客能修改时时彩余额