<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何快速安全的插入千萬條數(shù)據(jù)

          共 9658字,需瀏覽 20分鐘

           ·

          2021-05-02 01:09

          前言

          最近有個需求解析一個訂單文件,并且說明文件可達(dá)到千萬條數(shù)據(jù),每條數(shù)據(jù)大概在20個字段左右,每個字段使用逗號分隔,需要盡量在半小時內(nèi)入庫。

          思路

          1.估算文件大小

          因為告訴文件有千萬條,同時每條記錄大概在20個字段左右,所以可以大致估算一下整個訂單文件的大小,方法也很簡單使用FileWriter往文件中插入一千萬條數(shù)據(jù),查看文件大小,經(jīng)測試大概在1.5G左右;

          2.如何批量插入

          由上可知文件比較大,一次性讀取內(nèi)存肯定不行,方法是每次從當(dāng)前訂單文件中截取一部分?jǐn)?shù)據(jù),然后進(jìn)行批量插入,如何批次插入可以使用insert(...)values(...),(...)的方式,經(jīng)測試這種方式效率還是挺高的;

          3.數(shù)據(jù)的完整性

          截取數(shù)據(jù)的時候需要注意,需要保證數(shù)據(jù)的完整性,每條記錄最后都是一個換行符,需要根據(jù)這個標(biāo)識保證每次截取都是整條數(shù),不要出現(xiàn)半條數(shù)據(jù)這種情況;

          4.數(shù)據(jù)庫是否支持批次數(shù)據(jù)

          因為需要進(jìn)行批次數(shù)據(jù)的插入,數(shù)據(jù)庫是否支持大量數(shù)據(jù)寫入,比如這邊使用的mysql,可以通過設(shè)置max_allowed_packet來保證批次提交的數(shù)據(jù)量;

          5.中途出錯的情況

          因為是大文件解析,如果中途出現(xiàn)錯誤,比如數(shù)據(jù)剛好插入到900w的時候,數(shù)據(jù)庫連接失敗,這種情況不可能重新來插一遍,所有需要記錄每次插入數(shù)據(jù)的位置,并且需要保證和批次插入的數(shù)據(jù)在同一個事務(wù)中,這樣恢復(fù)之后可以從記錄的位置開始繼續(xù)插入。

          實現(xiàn)

          1.準(zhǔn)備數(shù)據(jù)表

          這里需要準(zhǔn)備兩張表分別是:訂單狀態(tài)位置信息表,訂單表;

          CREATE TABLE `file_analysis` (
            `id` bigint(20NOT NULL AUTO_INCREMENT,
            `file_type` varchar(255NOT NULL COMMENT '文件類型 01:類型1,02:類型2',
            `file_name` varchar(255NOT NULL COMMENT '文件名稱',
            `file_path` varchar(255NOT NULL COMMENT '文件路徑',
            `status` varchar(255NOT NULL COMMENT '文件狀態(tài)  0初始化;1成功;2失敗:3處理中',
            `position` bigint(20NOT NULL COMMENT '上一次處理完成的位置',
            `crt_time` datetime NOT NULL COMMENT '創(chuàng)建時間',
            `upd_time` datetime NOT NULL COMMENT '更新時間',
            PRIMARY KEY (`id`)
          ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8


          CREATE TABLE `file_order` (
            `id` bigint(20NOT NULL AUTO_INCREMENT,
            `file_id` bigint(20DEFAULT NULL,
            `field1` varchar(255DEFAULT NULL,
            `field2` varchar(255DEFAULT NULL,
            `field3` varchar(255DEFAULT NULL,
            `field4` varchar(255DEFAULT NULL,
            `field5` varchar(255DEFAULT NULL,
            `field6` varchar(255DEFAULT NULL,
            `field7` varchar(255DEFAULT NULL,
            `field8` varchar(255DEFAULT NULL,
            `field9` varchar(255DEFAULT NULL,
            `field10` varchar(255DEFAULT NULL,
            `field11` varchar(255DEFAULT NULL,
            `field12` varchar(255DEFAULT NULL,
            `field13` varchar(255DEFAULT NULL,
            `field14` varchar(255DEFAULT NULL,
            `field15` varchar(255DEFAULT NULL,
            `field16` varchar(255DEFAULT NULL,
            `field17` varchar(255DEFAULT NULL,
            `field18` varchar(255DEFAULT NULL,
            `crt_time` datetime NOT NULL COMMENT '創(chuàng)建時間',
            `upd_time` datetime NOT NULL COMMENT '更新時間',
            PRIMARY KEY (`id`)
          ENGINE=InnoDB AUTO_INCREMENT=10000024 DEFAULT CHARSET=utf8

          2.配置數(shù)據(jù)庫包大小

          mysql> show VARIABLES like '%max_allowed_packet%';
          +--------------------------+------------+
          | Variable_name            | Value      |
          +--------------------------+------------+
          | max_allowed_packet       | 1048576    |
          | slave_max_allowed_packet | 1073741824 |
          +--------------------------+------------+
          2 rows in set

          mysql> set global max_allowed_packet = 1024*1024*10;
          Query OK, 0 rows affected

          通過設(shè)置max_allowed_packet,保證數(shù)據(jù)庫能夠接收批次插入的數(shù)據(jù)包大小;不然會出現(xiàn)如下錯誤:

          Caused by: com.mysql.jdbc.PacketTooBigException: Packet for query is too large (4980577 > 1048576). You can change this value on the server by setting the max_allowed_packet' variable.
              at com.mysql.jdbc.MysqlIO.send(MysqlIO.java:3915)
              at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:2598)
              at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2778)
              at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2834)

          3.準(zhǔn)備測試數(shù)據(jù)

          public static void main(String[] args) throws IOException {
              FileWriter out = new FileWriter(new File("D://xxxxxxx//orders.txt"));
              for (int i = 0; i < 10000000; i++) {
                  out.write(
                          "vaule1,vaule2,vaule3,vaule4,vaule5,vaule6,vaule7,vaule8,vaule9,vaule10,vaule11,vaule12,vaule13,vaule14,vaule15,vaule16,vaule17,vaule18");
                  out.write(System.getProperty("line.separator"));
              }
              out.close();
          }

          使用FileWriter遍歷往一個文件里插入1000w條數(shù)據(jù)即可,這個速度還是很快的,不要忘了在每條數(shù)據(jù)的后面添加換行符(\n\r)

          4.截取數(shù)據(jù)的完整性

          除了需要設(shè)置每次讀取文件的大小,同時還需要設(shè)置一個參數(shù),用來每次獲取一小部分?jǐn)?shù)據(jù),從這小部分?jǐn)?shù)據(jù)中獲取換行符(\n\r),如果獲取不到一直累加直接獲取為止,這個值設(shè)置大小大致同每條數(shù)據(jù)的大小差不多合適,部分實現(xiàn)如下:

          ByteBuffer byteBuffer = ByteBuffer.allocate(buffSize); // 申請一個緩存區(qū)
          long endPosition = batchFileSize + startPosition - buffSize;// 子文件結(jié)束位置

          long startTime, endTime;
          for (int i = 0; i < count; i++) {
              startTime = System.currentTimeMillis();
              if (i + 1 != count) {
                  int read = inputChannel.read(byteBuffer, endPosition);// 讀取數(shù)據(jù)
                  readW: while (read != -1) {
                      byteBuffer.flip();// 切換讀模式
                      byte[] array = byteBuffer.array();
                      for (int j = 0; j < array.length; j++) {
                          byte b = array[j];
                          if (b == 10 || b == 13) { // 判斷\n\r
                              endPosition += j;
                              break readW;
                          }
                      }
                      endPosition += buffSize;
                      byteBuffer.clear(); // 重置緩存塊指針
                      read = inputChannel.read(byteBuffer, endPosition);
                  }
              } else {
                  endPosition = fileSize; // 最后一個文件直接指向文件末尾
              }
              ...省略,更多可以查看Github完整代碼...
          }

          如上代碼所示開辟了一個緩沖區(qū),根據(jù)每行數(shù)據(jù)大小來定大概在200字節(jié)左右,然后通過遍歷查找換行符(\n\r),找到以后將當(dāng)前的位置加到之前的結(jié)束位置上,保證了數(shù)據(jù)的完整性;

          5.批次插入數(shù)據(jù)

          通過insert(...)values(...),(...)的方式批次插入數(shù)據(jù),部分代碼如下:

          // 保存訂單和解析位置保證在一個事務(wù)中
          SqlSession session = sqlSessionFactory.openSession();
          try {
              long startTime = System.currentTimeMillis();
              FielAnalysisMapper fielAnalysisMapper = session.getMapper(FielAnalysisMapper.class);
              FileOrderMapper fileOrderMapper = session.getMapper(FileOrderMapper.class);
              fileOrderMapper.batchInsert(orderList);

              // 更新上次解析到的位置,同時指定更新時間
              fileAnalysis.setPosition(endPosition + 1);
              fileAnalysis.setStatus("3");
              fileAnalysis.setUpdTime(new Date());
              fielAnalysisMapper.updateFileAnalysis(fileAnalysis);
              session.commit();
              long endTime = System.currentTimeMillis();
              System.out.println("===插入數(shù)據(jù)花費:" + (endTime - startTime) + "ms===");
          catch (Exception e) {
              session.rollback();
          finally {
              session.close();
          }
          ...省略,更多可以查看Github完整代碼...

          如上代碼在一個事務(wù)中同時保存批次訂單數(shù)據(jù)和文件解析位置信息,batchInsert通過使用mybatis的<foreach>標(biāo)簽來遍歷訂單列表,生成values數(shù)據(jù);

          總結(jié)

          以上展示了部分代碼,完整的代碼可以查看Github地址中的batchInsert模塊,本地設(shè)置每次截取的文件大小為2M,經(jīng)測試1000w條數(shù)據(jù)(大小1.5G左右)插入mysql數(shù)據(jù)庫中,大概花費時間在20分鐘左右,當(dāng)然可以通過設(shè)置截取的文件大小,花費的時間也會相應(yīng)的改變。

          完整代碼

          https://github.com/ksfzhaohui/blog/tree/master/mybatis


          瀏覽 59
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品久久精品 | 欧美三级午夜理伦三级18禁 | 俺去了官网| 尤物国产 | 国内自拍视频网 |