1、通過各軟件廠商開放數(shù)據(jù)接口,實(shí)現(xiàn)不同軟件數(shù)據(jù)的互聯(lián)互通。這是目前最為常見的一種數(shù)據(jù)對(duì)接方式。
2、優(yōu)勢(shì):接口對(duì)接方式的數(shù)據(jù)可靠性與價(jià)值較高,一般不存在數(shù)據(jù)重復(fù)的情況;數(shù)據(jù)可通過接口實(shí)時(shí)傳輸,滿足數(shù)據(jù)實(shí)時(shí)應(yīng)用要求。
3、缺點(diǎn):①接口開發(fā)費(fèi)用高;②需協(xié)調(diào)多個(gè)軟件廠商,工作量大且容易爛尾;③可擴(kuò)展性不高,如:由于新業(yè)務(wù)需要各軟件系統(tǒng)開發(fā)出新的業(yè)務(wù)模塊,其和大數(shù)據(jù)平臺(tái)之間的數(shù)據(jù)接口也需做相應(yīng)修改和變動(dòng),甚至要推翻以前的所有數(shù)據(jù)接口編碼,工作量大、耗時(shí)長。
4、軟件機(jī)器人是目前比較前沿的軟件數(shù)據(jù)對(duì)接技術(shù),即能采集客戶端軟件數(shù)據(jù),也能采集網(wǎng)站網(wǎng)站中的軟件數(shù)據(jù)。
5、常見的是博為小幫軟件機(jī)器人,產(chǎn)品設(shè)計(jì)原則為“所見即所得”,即不需要軟件廠商配合的情況下,采集軟件界面上的數(shù)據(jù),輸出的結(jié)果是結(jié)構(gòu)化的數(shù)據(jù)庫或者excel表。
6、如果只需要界面上的業(yè)務(wù)數(shù)據(jù),或者遇到軟件廠商不配合/倒閉、數(shù)據(jù)庫分析困難的情況下, 利用軟件機(jī)器人采集數(shù)據(jù)更可取,尤其是詳情頁數(shù)據(jù)的采集功能比較有特色。
7、技術(shù)特點(diǎn)如下:①無需原軟件廠商配合;②兼容性強(qiáng),可采集匯聚Windows平臺(tái)各種軟件系統(tǒng)數(shù)據(jù);③輸出結(jié)構(gòu)化數(shù)據(jù);④即配即用,實(shí)施周期短、簡(jiǎn)單高效;⑤配置簡(jiǎn)單,不用編程,每個(gè)人都可以DIY一個(gè)軟件機(jī)器人;⑥價(jià)格相對(duì)人工和接口,降低不少。
8、缺點(diǎn):采集軟件數(shù)據(jù)的實(shí)時(shí)性有一定限制。
9、網(wǎng)絡(luò)爬蟲是模擬客戶端發(fā)生網(wǎng)絡(luò)請(qǐng)求,接收請(qǐng)求響應(yīng),一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。
10、爬蟲采集數(shù)據(jù)的缺點(diǎn):①輸出數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù);②只能采集網(wǎng)站數(shù)據(jù),容易受網(wǎng)站反爬機(jī)制影響;③使用人群狹窄,需要有專業(yè)編程知識(shí)才能玩轉(zhuǎn)。
11、數(shù)據(jù)的采集融合,開放數(shù)據(jù)庫是最直接的一種方式。
12、優(yōu)勢(shì):開放數(shù)據(jù)庫方式可以直接從目標(biāo)數(shù)據(jù)庫中獲取需要的數(shù)據(jù),準(zhǔn)確性高,實(shí)時(shí)性也有保證,是最直接、便捷的一種方式。
13、缺點(diǎn):開放數(shù)據(jù)庫方式也需要協(xié)調(diào)各軟件廠商開放數(shù)據(jù)庫,這需要看對(duì)方的意愿,一般出于安全考慮,不會(huì)開放;一個(gè)平臺(tái)如果同時(shí)連接多個(gè)軟件廠商的數(shù)據(jù)庫,并實(shí)時(shí)獲取數(shù)據(jù),這對(duì)平臺(tái)性能也是巨大挑戰(zhàn)。