随着社会市场经济的不断发展,招投标制度已成为行业实现公平竞争、确保资源配置高效的重要机制。
然而,围标串标行为的滋生,不仅侵犯了投标人和其他参与者的合法权益,更严重冲击了行业诚信体系,成为各类审计关注的核心议题。
依托电子招标系统的后台数据资源,及多年平台建设经验,筑龙标事通上线了【 标书查重 】智能化工具,为围标串标问题提供了解决方案。
一、审计难点辨析
招投标项目资料通常以压缩文件形式存储于电子招标系统后台,需通过管理员权限下载获取。
这些文件囊括项目注册信息、招标公告、招标文件、中标公告及各投标方提交的经济标、商务标、技术标和工程量清单等详细内容,主要采用PDF格式呈现。
在针对围标串标问题进行审计时,面临以下三方面难题:
标准界定模糊:
现行法规政策对围标串标行为的判定标准缺乏精细化规定,导致审计过程中难以准确界定文件异常一致的边界。
数据规模庞大:
部分大型、复杂招标项目,其投标文件数据量巨大,可达数GB,包含众多投标单位及技术标中复杂的图文信息,下载速度受限,数据收集效率低下。
数据结构复杂:
技术投标文件普遍采用非结构化的PDF格式,与常用的数据分析工具如XLS表格、DOC文档格式不兼容,直接对比分析困难。
二、审计策略与技术路径
面对上述挑战,筑龙标事通团队采用研究型思维,结合大数据技术,构建了一套涵盖标准设定、算法选择、数据预处理在内的投标文件查重审计框架。
设定异常一致标准:量化比较投标文件之间的重复率,对重复率较高的两份文件进行标红处理,进一步识别其中错词错符号的一致性,将重复率与错误一致项数作为评估异常一致性的双重指标。
选择分析算法:选用基于Java开发的文本查重软件作为核心算法,利用其内嵌的Doc OCR模块识别PDF中的图片文字,设定连续13个字符相同即视为抄袭的查重阈值。此外,采用WPS文档校对功能精确统计错词错符号。
实施数据整理:采取虚拟机与多线程技术加速项目文件压缩包的下载,运用压缩工具定位并提取技术标文件,利用批量重命名工具以投标公司名称命名文件,并通过OCR模块将PDF转换为DOC格式,以便后续分析。
三、操作步骤详解
利用标事通【标书查重】智能化检查工具,通过对多份投标文件进行上传检查,一键实现对围标串标行为的精准识别与证据收集:
文本查重与报告生成:
启动标事通标书查重软件,可自定义设置查重阈值,采用横向比对模式,指定项目文件夹为待查目录,并在该目录下创建查重报告文件夹。
执行查重后,软件将生成详细报告及汇总各技术标重复率的Excel表格,可在线查看,也可下载本地直接修改。
错词错符号筛选与记录:
打开查重报告,可快速定位查看查重位置,运用文字的文档校对功能,列出并筛选出错词错符号,排除非红色标记部分及校对误判词语,将确认的错词错符号高亮显示,并在汇总表格中记录其数量。
疑点核实与汇总:
将查重报告中标识的错词错符号与原始技术标文件进行逐一比对,剔除非OCR识别因素造成的错误,最终形成投标文件异常一致疑点汇总表。
根据平台近期实际检测结果显示,对某市住建局及其下属二级单位作为业主的25个工程项目进行检查时,发现了5个项目存在围标串标嫌疑,涉及12家投标单位。
其中,最严重的案例显示投标文件重复率高达99%,除公章外内容完全一致,且错词错符号一致之处多达7处。
综上所述,通过科学设定判断标准、精挑细选分析算法、高效组织数据整理,并严谨执行审计步骤,大数据技术在查处围标串标行为中发挥了关键作用。