数据测量是一项重要的技术活动,旨在获取网络和其他实体对象的相关数据。早期的网络数据测量技术包括全网测量、区域测量和采样测量。网络数据测量技术的出现是为了应对网络初期的数据收集需求,最初主要使用网页
爬行纲进行全网数据抓取。然而,这种方法产生了大量的开销。区域测量技术则针对网络特定划分的子范围进行数据采集,以降低成本。随着网络数据的增长,采样测量技术因其高效性而得到了广泛应用。此外,点击流模型作为一种新型的测量方法,可以从ISP的角度提供全新的测量视角。
数据测量与采集系统的设计
概述
GPS全球定位系统是一种全球性、全天候,且具有连续三维定位和导航能力的系统,是当前最先进的精密卫星导航系统。然而在航空载体上单独使用GPS导航受到输出频率低的限制。惯性导航系统INS(Inertial Navigation System)具有能够不依赖外界信息、完全独立自主地提供多种较高精度的导航参数的优点,但它提供的导航参数误差随着时间而积累,不适合长时间的单独导航。可见,GPS和INS具有优势互补的特点。以适当的方法将两者结合起来成为一个
组合导航系统,可以提高系统的整体手导航精度及导航性能。当前,GPS与INS相结合已成为导航控制的重要发展方向。本文以GPS/INS组合导航系统为核心,利用差分技术,完成了动态姿态数据测量与采集系统的设计,实现高动态、高精度的姿态测量和定位。设备造价低,操作简单及使用灵活,具有较高实用价值。
系统方案设计
系统工作原理
由于GPS的精密定位服务只局限于
美国指定的军方用户和政府部门,普通用户只能使用定位精度相对较低的标准定位服务,为了提高GPS的定位精度,考虑使用差分定位技术,当前,现成的差分GPS设备可直接进行差分定位,但多数设备都是从国外进口,价格昂贵,维修服务困难。考虑到成本及造价的问题,系统将当前使用最为广泛的伪距差分方法应用到系统中,实现了高精度的定位。
伪距差分方法工作原理是由差分GPS基准站发送伪距改正数,由用户站接收并对其测量结果进行改正,消除如星历误差、
电离层误差、
对流层误差等系统中的共有误差,以获得精确的定位结果。实现时,要求基准站与用户站同时观测到的
卫星数大于或等于4颗(实现完全定位)。本系统主要用于试验时精确测量试验设备运动载体的姿态,通过差分GPS修正,可以长时间提供稳定、可靠、满足精度要求的动态姿态数据,同时提供速度数据、位置数据、秒脉冲信号及其他导航信息。同时,由于差分GPS的引入为地面监视试验状态和指挥调度提供保障。
系统组成及功能
系统主要由地面基准站和机载移动站组成。地面基准站主要完成以5s的频率向机载设备发送差分修正信息;实时记录地面GPS基站的定位信息;记录机载移动站的GPS定位信息以及移动站GPS/INS测量的姿态信息和试验设备的工作信息;以图形和数字方式实时显示移动站载体的位置和姿态;对地面设备进行参数装订和系统设置,实时监控地面设备和机载设备的工作状态,实时显示测量的载机的
空间位置和姿态数据,实时记录试验数据,试验结束后进行数据处理分析;打印试验数据、图形、曲线及分析结果。其组成为:(1)GPS接收机;(2)
数传电台及功放设备;(3)电源模块;(4)控制
计算机(基准站主控计算机);(5)打印机等。
机载移动站主要完成实时测量飞机的高精度三维姿态基准数据、位置数据、速度数据及其它导航信息并利用数据记录器进行记录和存储;将测得的飞机姿态、位置和速度等数据实时地向机上试验设备传输;将测得的飞机数据与试验设备工作数据实时地向地面基准站设备传输;利用移动站辅助计算机完成对机载姿态精密测量装置和受试设备进行参数装订、系统设置、初始化,下载机载记录器中记录的数据,对设备功能检查。其组成为:
(3)机载数据记录器;
(5)四路串口扩展卡;
(6)移动站辅助计算机;
(7)电源模块。
地面基准站和机载移动站之间的通信利用数传电台及其
辅助设备来完成。电台采用收发异频的方式传输,上行数据采用f1频率,下行数据采用f2频率。差分数据(上行数据)每秒传输的数据量和飞机位置、速度、姿态数据(下行数据)每秒传输的数据量的总和远远低于信道的传输容量,因此采用这种收发异频的传输方式可以实现数据的上行、下行传输,完成数据的通信。
系统硬件模块设计
移动站控制计算机设计
机载移动站是差分定位的核心部分,输入输出通路比较多,而其控制计算机模块作为移动站的核心模块,与外接设备的接口设计是重点。经过分析,移动站中
数传电台(1路)、GPS/INS(2路)均是利用RS232串口输出,而试验设备则是利用RS485进行输出;考虑到移动站主控计算机与移动站控制计算机模块之间的数据量比较大,因此可采用网络进行连接。在设计过程中按照便携式、模块化的思想,将输入外设通过串口扩展卡与控制
计算机进行连接。控制计算机硬件上主要由以下部件组成:(1)PC/104主控模块(All In One结构);(2)PC/104
总线4路串口扩展卡;(3)2路RS232C-RS485转换器;(4)标准
网卡。±5V、±12V电源模块。PC/104主控模块为高性能
英特尔 Pentium 266 CPU处理模块,采用嵌入式All In One结构,基于PC/104总线标准64针带孔插座,自带网络接口,外部支持PC/104总线扩展,因此具有良好的实用性和较强的扩展功能。串口扩展卡将4路串口及2路RS232C-RS485信号转换器模块集成在一块功能板上,实现主控模块与
外部设备的可靠连接。主控模块工作时,将这6路信号均看作普通串行设备进行读写操作。
其他功能部件的配置
除主控模块外,整个系统的核心硬件还包括GPS/INS
组合导航系统、GPS接收机、
数传电台等功能部件,其具体配置如下:
(1)GPS/INS组合导航系统:选用了美国YH-Technology公司研制的YH-9600GIGPS/INS高精度组合导航系统。该产品融合了INS和GPS的原始数据,进行21阶卡尔曼滤波,具有差分改正功能。通过串口高速率输出姿态、位置、速度、航向、时间、1PPS等数据。
(2)GPS接收机:选用了
NovAtel公司高性能GPS接收板OEM4-3151R。该卡将
射频接收电路和
数字电路集成在一块印制电路板上,可跟踪多达12个GPS卫星的L1C/A码、L1和L2载波
相位,与GPS天线组合使用,适用于单点定位和差分定位系统。
(3)
数传电台:选用了
美国PCC数传电台RFM96W作为GPS差分数据链路的专用数传电台,可靠性高,应用广泛。
系统软件设计
系统软件设计基于移动站便携性的要求,采用了
Borland公司的C++Builder6.0进行二次开发而成。在设计过程中,利用交互编程技术使窗口、事件和消息等Windows操作系统的工作方式与底层硬件驱动程序相融合,使软件完全按事件驱动的模式来执行,并在软件中加强了容错能力设计,在最大限度上避免了操作人员人为或非正常因素造成的错误。
3.1系统软件的组成
整个系统软件包括移动站操控软件、移动站辅助
计算机监控软件和基准站操控软件,如图2所示。为了减少开发时间,提高工作效率,移动站辅助计算机监控软件采用第三方成熟的
远程监控软件,通过网络接口与系统连接。移动站操控软件主要由以下模块组成:参数及系统初始化模块、GPS原始数据接收存储模块、GPS/INS数据接收存储及转发模块、试验设备数据接收存储及转发模块、差分改正数接收转发模块及设备功能检查模块。基准站操控软件由以下功能模块组成:
(1)初始化模块:其实现程序启动之后自动读取最近一次运行时的系统配置文件进行初始化设置,同时对GPS接收机进行设置。配置文件包括串口参数配置子文件、图形显示区设定子文件和GPS接收机输出设定子文件。
(2)数据接收模块:数据接收模块包括基准站GPS原始数据接收
子程序、移动站GPS/INS数据接收子程序和试验设备数据接收子程序。
(3)数据转换模块:数据转换模块完成移动站发送的GPS/INS数据、试验设备数据以及GPS接收机输出的GPS原始数据由二进制格式向ASCII码格式的转换。
(4)数据回放模块:数据回放模块主要达成读取已接收存储的数据进行解码并在相应区域中用图形或数字的形式显示以达到事后模拟监控的目的,实现离线状态时的全功能模拟。
数据测量显示系统
概述
虚拟仪器,是以通用
计算机为核心,根据用户对仪器的设计定义,用软件实现虚拟
控制面板设计和测试功能的一种计算机仪器系统。用户可以通过鼠标、键盘或触摸屏来操作虚拟面板,实现需要的测试
测量目的。
LabVIEW是由
美国国家仪器推出的面向计算机测控领域的虚拟仪器软件开发平台,它是一种真正意义上的图形化
编程语言,采用工程技术人员所熟悉的术语和图形化的符号代替常规的文本编程语言,具有界面友好、操作方便、开发周期短的特点。在本设计中通过
单片机测量出来的速度、位移信号都转换成了数字的形式,通过串口通讯传输给了
计算机,通过LabVIEW采集这些数据,通过处理以图形的方式显示出来。
单片机系统的设计
系统的硬件电路主要由:数据采集、串行通讯、存储电路、显示电路、电源电压输入输出电路、按键等几个模块组成。通过单片机实现了对位移和速度的测量,这些数据通过串口通讯传到了计算机。在传输的过程中,以0x00开头代表接下来所传的数据为位移,0xff开头代表接下来多传得数据图1硬件原理框图为速度。系统软件框图如图2所示。
串口通讯实现及数据显示
在
LabVIEW环境下使用串口与在其它
集成开发环境中的开发过程类似,只不过在Lab-VIEW下使用的是图形化的
编程语言,。首先调用VISAConfigureSerialPort完成串口参数的设置,包括串口资源分配、波特率、数据位、停止位、校验位等。配制完后就可以用这个串口进行数据收发。发送数据使用VISAWrite,接收数据使用VISARead。在LzbVIEW中,将采集到的位移和数据
波形通过图形的形式表示出来,这样就能更直观的观测到位移和速度的变化。
网络数据测量
概述
随着网络技术的迅速发展,使得网络测量成为一个研究热点。当前的网络常常拥有上亿级别的用户,大量用户持续交互,各种信息在网络中快速流转,这些特点给相关研究者在深入研究网络数据等工作上带来了巨大的挑战。网络每天产生大量的结构化或非结构化的文本数据、
多媒体数据,因此网络的
数据采集工具是网络测量研究的基础。由于缺乏有效的数据共享机制,学术界在网络领域研究面临的主要困难之一就是缺乏可用的数据集。网络的飞速发展使得网络中的图谱数据、内容数据迅速地膨胀,不同的测量技术相继出现。
早期的网络测量可以分为全网测量技术、区域测量技术和采样测量技术。网络测量技术出现在网络初期,主要使用网页
爬行纲来对网络进行全网数据抓取这种将产生大量的开销。区域测量技术则针对网络特定划分的子范围进行数据采集,如对网络中某学校的用户进行采集。这种测量方法避免了全网采集的巨大开销,采集的数据也具有一定的代表性。随着网络中数据的大量增长,采样测量技术被广泛采用。采样测量技术是针对全图的均匀采样,获得的数据可以估算某些全局的信息,是当前大规模网络研究中最常用的测量方法。
上述测量方法的总特点是利用web爬虫向网络平台进行数据请求,它们常常受到访问策略上的限制,就算是采样测量,获取可观的数据量也需要巨大资源开销,同时上述算法获取的数据也有一定的局限性,都是可见的交互数据,不足以支持网络中的隐式行为分析。为此,学者们提出了一种全新的网络测量方法亦即点击流模型,该方法利用ISP提供的Httptraces还原网络的session,并以此作为用户隐式行为研究的基础。在网络的测量研究中,
爬行纲系统的设计是基础,采样算法是研究的重点,而点击流模型则是从ISP角度的一种全新的测量方法。本文将从爬虫系统、采样算法和点击流模型三个方面来介绍网络数据测量的研究现状。
爬虫系统的设计
网络爬虫是一种自动搜集互联网信息的程序。
专用爬虫系统
网络数据具有开放的特点,对不同网络数据的获取需要根据该网络的特点,因此就对爬虫系统有一些特殊要求如基于移动爬虫的专用系统,面向新闻主题的爬虫系统等等。针对现有的三个典型网络,即wit-ter、Facebook、
人人网,胡亚楠根据三个网络的权限问题分别设计了不同的专用
爬行纲系统。胡亚楠还在JAX术的基础上,分析了爬取频率、爬虫请求数据等参数。而参考文献中冯典则研究了基于
新浪微博的专用爬虫系统技术。冯典主要是在专用爬虫系统的数据采集上有所改进。他主要通过
多线程和多复用等技术来提高采集速度,以提高专用爬虫系统的速度。但是在爬虫系统运行的过程中的专用爬虫系统不能达到最佳效果。一种新的“众包”技术诞生了。众包技术就是能够集合一部分的数据资源来完成一定量的
数据采集工具用户提供的是数据集。提出了一种以众包方式来采集数据的
爬行纲方法。针对不同的数据采集任务,爬虫系统需要根据特定的数据需求进行定向设计。
分布式爬虫系统
网络用户通常通过扩展节点来访问数据,单节点的访问将产生拥塞,因此在对网络数据的获取过程中,就需要分布式爬虫系统的实现。分布式爬虫系统中包括多个小爬虫,这些爬虫分布在同一个局域网中,或分布在不同的地理位置。分布式爬虫系统需要分割下载任务,因络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。针对不同的需求,网络爬虫系统的设计也有所不同。给出了目前流行的几类
爬行纲系统。此每个爬虫都有需要完成的任务。另外,分布式的爬虫系统需要支持分布扩展的能力,能处理分布式环境下网络数据的采集。根据爬虫分散程度不同,可以分为基于局域网的分布式爬虫系统和基于广域网的分布式爬虫系统。提出了一个基于三层框架的并行爬取的爬虫系统。这三层框架分别为:应用层、协调数据层和用户抓取层。其中,应用层主要面向用户,给用户提供爬虫的操作界面。协调数据层主要是爬虫搜索节点的分布。用户抓取层,就是从各个搜索节点中采集数据。另外随着云的广泛应用,中提出了基于云平台的分布式爬虫系统,文献中主要通过数据的调度策略等方法,来实现云环境的分布式爬虫系统。但是由于云环境也正处在迅速发展阶段,
爬行纲系统在一些实际应用问题上仍有欠缺。
基于Ajax的网络数据抽取爬虫系统
与传统Web页面不同,现在的网络在数据展示上大量使用Ajax技术,为了让爬虫系统能够获得网络的深层内容,学者们主要研究了基于Ajax的网络数据抽取爬虫系统。提出了
事件驱动模型,通过识别网页中的异步函数来识别事件并获取完整的网页内容的方法。文献中设计了在理论和技术方法上都为Ajax网络爬虫提供了新的解决方案。作者在基于Ajax技术的网络
爬行纲系统中,通过Ajax技术和爬虫模块之间的一些代码执行等互操作来获取有用数据。但是上述研究忽略了Ajax技术的动态性,每个Ajax对应一个状态,为了避免出现重复抓取的情况,中详细说明了如何设计爬虫系统来获取动态网页内容。同的采样比时能达到更高的覆盖率,Lottery算总而言之,要设计基于Ajax的网络数据抽取爬法次之,BFS算法最差。在有偏采样和无偏采样中,又可以根据采样技术的不同再加以细分,本文对这两种算法的分类做了详细的分类和比较。如表2所示,当数据采样的结果出现有偏的时候,我们称之为有偏采样算法。在网络数据采样过程中,又可以根据对网络图中下一个节点的选取方法不同,分为BFS(广度优先)算法,Greedy(贪婪)算法,Lottery(彩票)算法,随机采样算法,结构光学法、
磁场和图像分析法等。随着工业CT技术的发展,断层扫描技术也在反求工程中取得了应用。其中,坐标机测量法操作简单,测试费用低,是生产企业和研究单位广泛采用的一种测量方法。对CMM测量方法,其机房环境条件,对测量机的影响至关重要。这其中包括检测工件状态、温度条件、振动、湿度、供电电源、压缩空气等因素。(1)检测工件的状态检测工件的物理形态对测量结果有一定的影响。最普遍的是工件表面
粗糙度和加工留下的切屑。冷却液和机油对测量误差也有影响。通常,灰尘可集中在测球上影响测量机的性能和精度。类似的影响
测量精度的情况还很多,大多数可以避免,建议在测量机开始工作之前和完成工作之后进行必要的清洁工作。(2)温度条件在三坐标测量机系统中,温度是影响测量的主要环境因素。测量的标准温度一般为20℃,大多数制造厂商都是在此温度下标定其三坐标测量机的各种性能指标,而所有的几何量和误差的标准环境温度定义是(20±2)℃。所以,在进行测量时,最理想的情形是在这个温度下进行,但实际状况却往往无法满足这个要求。在
测量过程中,如果环境发生变化主要包括环境温度的变化、短时间的温度变化、长时间温度的变化、温度梯度的变化,或者是由于三坐标测量机的运动在内部产生热量,都将会导致三坐标测量机与环境之间,三坐标测量机内部各部分变形不均匀,从而造成测量误差。现代化大生产中,许多三坐标测量机都是直接在生产车间现场使用,这种情形往往不能满足对温度的要求。此时,测量结果将达不到原标定的精度。为减小温度变化对测量结果的影响,大多数测量机制造商开发了温度自动修正补偿系统。温度自动修正补偿系统是通过对测量机光栅和检测工件温度的监控,根据不同金属的温度膨胀系数,基于标准温度对测量结果进行修正。但对于快速温度或温度梯度的变化,无法进行补偿修正。除了温度自动修正补偿系统外,为减小温度变化对测量结果的影响,一方面要对制造三坐标测量机的材料进行选择,比如选择那些对温度变化不敏感的材料,或者选择一些热惯量小的材料,用这些材料制成的机器可以很快地跟随环境温度的变化,有利于从软件方面进行温度补偿;另一方面也要从结构上进行考虑,比如轻型的悬臂式结构的三坐标测量机比桥式的
花岗石制成的三坐标测量机更有利于减小温度的影响。(3)振动由于较多的测量机应用在生产现场,振动成为一个常见的问题,比如,在测量机周围的冲压机、空压机或其他重型设备将会对测量机产生严重影响。较难察觉的是小辐振动,如果同测量机自身的振动频率相混淆,对于
测量精度也会产生较大影响。因此,测量机的制造商对于测量环境的振动频率与振幅均有一定的要求。(4)湿度与其他环境因素相比,湿度对测量精度的影响就不显得那么的重要。为防止块规或其他计量设备的氧化和生锈,要求保持环境湿度在40%以下。(5)供电电源为保证控制系统和计算机系统以及同外部联网的良好运作,对于供电电源有一定的要求,包括电源电压变化、频率要求以及接地装置、屏蔽装置的要求等。(6)压缩空气由于许多坐标测量机使用了精密的空气轴承,因此需要压缩空气。在使用坐标测量机的过程中,除了满足测量机对压缩空气的要求外,还要防止由于水和油侵入压缩空气对测量机产生影响;同时,应防止突然断气,以免对测量机空气轴承和导轨产生损害。