10大优享服务
62项会员特权
100
雇佣
小程序开发
收藏
python爬取发 票货物明细数据
任务结束
需求描述:

根据提供的发 票代码,发 票号码等信息, 抓取网上的货物明细数据.

1.附件的excel表格中,"待查列表"标签, 里面提供了一些查询必须的发 票代码, 发 票号码等信息

2. 发 票查询网站如果有更好的选择可以自己连接, 我只要代码和结果

    没有的话可以参照: 国家税务总局全国增值税发 票查验平台: https://inv-veri.chinatax.gov.cn/,

    输入,发 票代码,发 票号码,开票日期, 不含税金额后, 会显示出来验证码,输入验证码确定后,就可以查询出货物明细数据

3.抓取查询出的货物数据保存到excel表的"发 票货物明细"标签里面.

说明: 1.附件的1.xlsx中提供了一些 待查数据 和 发 票货物明细 , 代码读取'待查列表'中提供的数据后, 去网上爬取发 票货物明细数据, 存入1.xlsx中的'发 票货物明细', 

        2. excel表1.xlsx中提供了一些数据模版,待查数据是真实的, 可以按照这些数据查到相关发 票

        3. excel表1.xlsx中'发 票货物明细'是手工查询到的一些数据, 作为输出保存模版, 我需要数据都有这些字段.

        4. 有一些浏览器,比如360浏览器等,浏览发 票查验平台网站, 不能正确显示验证码. 但微软IE可以

        5. 发 票查验平台网站需要安装根证书, 

        6. 验证码需要正确输入发 票代码,发 票号码等信息后才会显示

        7. 发 票号码长度是8位数字型字符串,不足的前边补0

        8. 有一些发 票货物明细超过8行, 会有货物清单, 要读取货物清单.

       

技术难点: 1. 需要精通爬虫技术,

                2. 需要精通图像识别验证码, 或者精通网络技术跳过验证码,

                    根据我的理解, 这个验证码是本地验证, 发送查询请求时应该不包含验证码信息,如果能跳过验证码验证,直接发送                      查询请求, 应该是可以的


注意: 1. 使用python编写代码, 我需要代码源码. 不是不想用其他编程语言,是python爬虫最好用

         2. 想接单的朋友, 请先试试查询一张, 能写出来代码的朋友接

         没能力编写的不要接,没能力编写的不要接.没能力编写的不要接. 没能力编写的不要浪费彼此的时间.

      3. 这个行为是合法的, 国家税务总局提供这样的网站就是让查询用的.

登录查看详细需求描述

任务结束

一品威客网已聚集超千万专业人才,为雇主提供一站式优质服务