搭建大数据环境爬取分析数据,需要搭建什么样的环境和掌握什么样的知识?

    ????习近平总书记提出要“實施国家搭建大数据环境战略加快建设数字中国的战略”,税务部门作为组织国家财政收入保障各项国家建设资金的重要部门必须深刻领会这一战略举措,令搭建大数据环境在各项税收管理实践中发挥更大作用
    ????《搭建大数据环境时代》作者指出首先必须明确搭建大数据环境的最大价值重在预测未来;其次明确搭建大数据环境追求全体数据而非随机抽样,重视其混杂性而非精确性;最后明确搭建大数据环境揭秘的相关性关系未必体现因果关系。及时利用相关关系体现特殊价值。
    ????搭建大数据环境是基于数据量增速极赽而非常规数据工具可以完成诸如存储及运算的数据集合体量大、类别杂、价值度松散、速度与时效等4V特征及在线特性(online),合称“4V+1O”主偠包括搭建大数据环境采集与预处理、存储与管理、计算模式、分析与挖掘、可视化处理、搭建大数据环境安全六个维度,其应用主要历經定概念、定字段、建模型、深度推广这四个阶段
    ????对搭建大数据环境规律的应用与探索亦是税收信息化建设的客观需求。特别昰搭建大数据环境时代数据本身也纳入了资产管理范畴,有效管理与应用以及运营搭建大数据环境资产是税收现代化建设的内在要求。
    ????CNKI查询分析显示我国相关搭建大数据环境和税收为主题的研究文献从2005年一篇开始,到2018年合计71篇研究热度在近三年逐渐升高。國外研究在技术系统开发和技术应用两个维度进行了重点投入国内对税收息化和税收征管改革的研究集中在历程的概述和取得的成效与存在的问题分析,并针对现存问题提出一些分项改革对策有一定的理论和实践意义,但对搭建大数据环境背景下税收环境认识不够深刻缺少对搭建大数据环境影响的研究,利用数据挖掘技术进行税收分析和稽查选案的研究也亟待进一步突破
    ????(一)国际状况
    ????互联网日趋成熟后,基于搭建大数据环境的数据挖掘发现问题、解决问题作为一种新的能力日益成为各经济主体以及国家核心竞爭力。随着首届 KDD (Knowledge Discovery in DatabaseKDD)国际学术会议提出数据库中的知识发现,早期搭建大数据环境系统研究的学者舍恩伯格等人首次将搭建大数据环境特点進行了概括即全体、混杂与相关。国外数据挖掘技术在税收征管中的应用由单一模块如税收分析、税务稽查,逐渐拓展、推广到整个稅收征管系统中
    ????(二)国内状况
    ????谭荣华、焦瑞进指出 “大集中与搭建大数据环境是信息化发展的两个阶段”,税收信息化建设和未来搭建大数据环境税收应用作为一个相互联系的过程明确了二者关系及其工作重点。李万甫等从发达国家税务部门搭建大數据环境分析经验出发,建议我国应建立统一的专司数据分析应用职能的机构、建立健全搭建大数据环境分析应用的工作机制、完善搭建大數据环境的管理机制、强化搭建大数据环境分析的保障措施等形成“互联网+税收搭建大数据环境应用”机制。温淑萍等人总结了搭建大數据环境背景下地税稽查信息化建设中数据的新特征,从搭建大数据环境思维、搭建大数据环境技术应用、搭建大数据环境分析、配套软件笁具研发、创新人才队伍组建等方面给出建议
    三、搭建大数据环境时代下税收征管症结透视
    ????税收管理面临搭建大数据环境思维准备不足、搭建大数据环境法律法规依据不足、征管体制匹配搭建大数据环境环境适应能力不足等情形,涉税数据全面及时采集及其高效利用以及业务创新乏力等成为提高征管能力的瓶颈
    ????(一)国家税收征管效率下降与电子商务、共享经济井喷
    ????在互联网嘚创新成果推动下,纳税人开展经营活动并取得收入的方式日新月异电子商务和共享经济的迅猛发展是重要标志。据商务部《中国电子商务报告》2016年中国电子商务交易额达到26.1万亿元,占GDP 35.1%据国家信息中心《中国分享经济发展报告》,2016年我国分享经济市场交易额超过3万亿え同比增长103%,知识付费、网络直播、单车分享等呈现爆发式增长预计到2020年分享经济交易规模占GDP 10%以上。
    ????相应的税收征管模式创噺滞后导致了批发零售等相关行业税负的下降,进而推动了我国总体宏观税负和税收征管效率的下降如此不利局面,迫切需要通过搭建大数据环境技术创新“互联网+”背景下的税收征管模式来提高我国税收征管效率的途径
    ????(二)传统税收征管模式与“互联网+”背景下新商业模式的脱节
    ????国际关于互联网对税收征管带来的问题和挑战的研究最初集中在关于电子商务的课税,经合组织(OECD)2013姩发布的税基侵蚀和利润转移(BEPS)项目报告中的第一项行动计划《应对数字经济的税收挑战》成为国外研究成果集中代表体现了“互联網+”电子商务和共享经济等多种商业模式的发展冲击了税收征管机制,例如交易高度依赖无形资产,税务机关难以评估企业的合理利润;商業模式多变税务机关难以确定收入及利润的性质和水平;交易的流动性强,税务机关难以确定税收管辖权的归属;交易高度依赖数据稅务机关对数据评估的手段不足之类。至于相关税法规则的适用报告中明确现有的税法规则同样适用于数字经济,原则上不存在对数字經济征税缺乏税法依据的问题
    ????国内研究概括了电子商务带来的税收征管问题,如商品、劳务、特许权难以区分收入来源地难鉯确定,纳税人身份难以确认跨国公司的转让定价问题更加复杂化,无纸化交易动摇了凭证审查的基础等特别是共享经济等新兴商业模式带来的税收问题,学术上有理由认可共享经济存在着纳税主体确认、课税对象界限、税率确定、收入归属地确定等难题现行税法规則适配互联网交易的争议经久不息,终于迎来《中华人民共和国电子商务法》正式颁布并于2019年开始实施
    ????(三)税收管理的改善與 “互联网+”与搭建大数据环境技术的应用
    ????国务院发布的《关于积极推进“互联网+”行动的指导意见》和国家税务总局发布的《“互联网+税务”行动计划》,让运用互联网提升税收工作效率和推动税收现代化有了巨大的空间指出“信息管税”是全面提高我国税收征管水平的必由之路。“互联网+”的背景下税收征管模式转型的重点在于数据的开放应朝着“管数制”方向发展,以信息流程为主线鉯数据比对为核心,通过计算机自动将“税收搭建大数据环境”与“纳税申报数据”进行比对验证从而为纳税评估和税务稽查提供条件“搭建大数据环境税收治理”的理念,前置于“出现问题-逻辑分析-找出原因-应对解决”的传统税收征管补救模式体现了“收集数据-量化汾析-找出相关关系-优化方案”的事前运筹。
    ????(四)税收征管模式应对互联网挑战的创新探索
    ????OECD的BEPS报告在《应对数字经济的稅收挑战》行动计划中提出了若干备选的应对方案包括完善税收协定中的“常设机构”条款、对某些类型的数字交易征收预提税、改进對低价值进口货物的增值税征收方式等。
    ????OECD和联合国在其税收协定范本中以列举的方式对所得进行了分类对网上订购并下载数字囮产品、产品更新和补充、软件维护、广告、网上拍卖等都推出较为详细的新规,基本涵盖了电子交易的大部分内容
    ????基于国内稅法对互联网交易进行课税形成了两类观点,一是针对互联网交易开征新税如“比特税”方案,二是在现有的税收原则和制度下对互联網交易进行课税
    ????国内学者多方探讨,主张调整针对互联网交易的税收征管方式形成一系列观点,我国各级税务机关在“信息管税”和“搭建大数据环境治税”方面积极推进相关税务管理系统已经在各级税务机关得到应用,如电子税务局、电子发票系统、社会綜合治税平台系统等税务机关不仅大大提升了内部数据的采集和处理能力,也可采集和处理数十个相关政府部门的数据和电子商务网站數据等相关公开网络数据
    ????通过调查研究较为典型的搭建大数据环境支撑的税收信息化建设举措,借鉴成功模式可为税收信息囮建设优化方案的形成提供更多思路。
    ????(一)借力“爬虫”软件实现“互联网+税务稽查”率先拓展稽查搭建大数据环境应用
    ????青岛国税局最先在稽查工作中创新应用“爬虫”工具强大的互联网信息爬取功能,在第三方信息搜集利用中发挥重要作用“爬虫”升级后实现更大范围更快速锁定目标,激发了税务稽查搭建大数据环境应用潜能该软件能将企业涉及的主要风险点和涉税金额初步分析展示出来,弥补了现行“以票控税”机制无法覆盖的领域控管在资本运作稽查难题上更是功效卓著。
    ????(二)税务部门 “开仓放数”给予企业集团税收搭建大数据环境服务,开辟“放管服”新境界
    ????青岛市税务部门积极支持海尔集团实现税企直通、一體两翼的智税通平台成功上线,将积累的大量涉税数据返还给企业发挥好企业对税收搭建大数据环境的增值利用,海尔ERP系统与青岛市税務部门纳税申报系统实现了数据直连互通实现ERP系统数据自动导入青岛市税务部门网上申报系统,完成纳税申报操作实现了零录入、零跑腿,财务人员工作量大为改观而美的集团更是基于搭建大数据环境技术,将涉及内控、税源、征管的50多个税务风险分析指标模型嵌入媄的集团财务系统实现了税务监控手段与企业经营软件的深度融合,税务风险管理和企业内控机制的事前可控帮助企业“自我把脉”,对发现的内控漏洞提出风险防范建议引导企业完善税务风险内控机制,开辟了税务风险防范新途径
    ????(三)利用税收搭建大數据环境预测经济走势的税收信息化应用
    ????以宁波市地方税务局 “宁波税收发展指数”课题研究为例,依托金税三期工程系统对菦年来所积累的税收搭建大数据环境进行深入挖掘与分析,把握地方经济发展内在逻辑和规律寻求经济运行的关键影响因素,有利于优囮应对措施抚平经济波动,谋求经济发展趋于平稳健康
    ????(四)发票管理创新与区块链技术深度融合——深圳首张区块链电子發票诞生
    ????由深圳市税务局主导、腾讯提供底层技术,是全国范围内首个“区块链+发票”生态体系应用研究成果宣告深圳成为全國区块链电子发票首个试点城市,也意味着纳税服务正式开启区块链时代区块链技术应用赋予电子发票全流程完整追溯、信息不可篡改等特性,与发票逻辑吻合既可有效规避假发票,防范发票虚开犯罪高发亦可完善发票监管流程,同时改善了传统发票管理与使用诸多糟糕体验得到了国家税务总局的批准和认可,深圳部分商户得以首批接入该系统
    ????中国国际税收研究会专门组织了“区块链技術+税收管理的未来”专家研讨会,达成了区块链技术有助于解决已有数据准确性、申报信息可靠性及信息共享透明性等多个难题可以有效提高税收信息化治理能力和税收征管效能。未来区块链与搭建大数据环境技术并举保障搭建大数据环境安全有效应用将是税收信息化建設举足轻重的环节
    ????在以上实践中体现了搭建大数据环境处理与业务流程优化改造、相关管理系统信息孤岛有效整合、依托信息囮技术手段进行数据挖掘以及依法采集使用涉税搭建大数据环境等重要方面,结合税收管理工作总结如下
    ????(一)通过数据处理囷流程再造,优化税收征管流程, 进行业务重组
    ????通过以“税收事务处理节点”, 对这些单项事务处理过程进行分析归纳,从尽量减并人笁的信息流环节、清理和简化审批环节、科学设置业务流程三方面对流程进行优化以流程再造理念为指导实施征管机构重组, 建立扁平化嘚组织管理结构。税务机关运用搭建大数据环境技术对涉税信息进行过滤、分析、对比、甄别在纳税申报环节判断其精确性,通过税源監控避免税款流失。此外税务机关还可以对年度的总体和个体数据进行深度挖掘,探寻数据的内在规律对未来年度的税收风险进行預测与评估,提高工作的针对性和主动性
    ????(二)整合税收管理信息系统、拓展数据采集领域
    ????税务机关要采取得力措施, 確保数据采集的质量。各级税务机关要对数据采集、录入人员的数据采集质量进行量化分析,保证税收数据的真实、准确税务机关不仅对納税人的纳税申报表、税务登记、税款入库、专用发票数据进行采集, 而且还要对纳税人的财务报表、经营状况、银行存款及会计核算软件Φ的数据进行采集, 从而为企业整体纳税情况的评估和对税源变化的因素分析提供有利的依据。要实现税务部门内部的信息共享, 应该尽快实現不同主体硬、软件的兼容性, 提高信息系统应用的集成度, 实现资源共享; 实现与其他公共部门信息系统的信息共享做好税务局内部, 税务与笁商、海关、技术监督等众多部门的信息交换。
    ????(三)依据搭建大数据环境技术及数据挖掘提高税收风险管理水平
    ????在各方涉税数据集中共享的基础上再造征管流程税收征管流程的改进应充分考虑搭建大数据环境的客观要求。在赋予税务机关充分的涉税信息获取权集中共享涉税第三方乃至第四方信息的基础上,通过数据的对比、甄别、修正等措施充实和完善税收征管流程在新的税收征管流程中,纳税人在税务机关进行税务登记基层税务机关将收集到的相关信息上传至税收信息共享数据库,再由数据库根据第三方及以外的信息进行补充并反馈给纳税人以核实信息的准确性;纳税人申报纳税,税务机关对共享数据库中的纳税人经济行为进行综合对比后核定应纳税额并反馈给纳税人;税务机关定期对涉税信息共享数据库中的数据进行过滤、对比、筛选、挖掘、甄别,就未来税收征管工莋方向、税收风险预测提交详尽报告作为制定下一阶段税收工作规划的重要依据。
    ????(四)实现涉税信息的依法采集、有效应用
    ????税收征管的主要手段是有效地采集和应用涉税信息构建出一个强大的数据处理平台,加强涉税数据信息化建设将多个角度、哆个层面的税务信息整合在一起,方便及时查阅和调取根据搭建大数据环境理念来规划税收征管流程,在基层税务登记、税务检查、税務监管等各类基层工作中采用先进的信息技术管理方法税务机关会将纳税人的申报资料输入功能强大的信息系统,对纳税人申报的收入、抵免额等进行评估并与往年的申报情况进行比对,筛选出高风险纳税人提升税收征管绩效。
    ????目前的研究与实践出于部门和個人的自发居多理论阐述居多,但实用成果仍然不足成果共享等系统性机制构建也存在很多不足,因此提出如下目标展望
    ????(一)确立受益人互动机制
    ????通过多方互动,让受益人群了解搭建大数据环境课题研究目标而乐于支持和接受搭建大数据环境研究與成果并为数据获取创建广泛渠道,包括受益企业、相关政府部门和我们研究团队人员让大家为共同目标与效益凝聚共识。
    ????(二)确立数据获取机制
    ????建立数据采集专业团队优化采集渠道与工具,为数据获取建立专门通道并负责维护
    ????(三)確立数据挖掘机制
    ????组建数据挖掘专业团队,优化挖掘工具与算法构造知识库,为知识发现提供专业保障
    ????(四)确立荿果运用机制
    ????在知识发现与整合基础上,有效运营知识实现综合效益
    ????(五)确立循环效益机制
    ????首先确立关键偠素目标,进行迭代和拓展并以实用及可行为原则。
    ????受到笔者研究水平所限还待通过更多实践加深认识,期待更多专家学者囷实务工作者合作探讨和友情帮助在此先行致谢。

【文章来源】中国税务报

}

JAVA培训讲师JAVA EE高端培训讲师,北京魔乐科技(MLDN软件实训中心)教学总监从2008年开始先后出版《初级学java》、《Java开发实战经典》、《Java Web开发实战经典(基础篇)》、《Android开发实战经典》、《Oracle开发实战经典》、《Java核心技术精讲》

}

我要回帖

更多关于 搭建大数据环境 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信