python
murata not public netkeiba scraping

import pandas as pd
import time
# ãƒ—ãƒã‚°ãƒ¬ã‚¹ãƒãƒ¼ã®è¡¨ç¤º
from tqdm import tqdm_notebook as tqdm

# å¯¾è±¡ã®urlã®æ§‹é€ åˆ†æž
# 'https://db.netkeiba.com/race/202006030301'

# ex.
# 202006030301ã«ã¤ã„ã¦
# 2020 â†’ è¥¿æš¦
# 06 â†’ é–‹å‚¬å ´ã€€ï¼ˆ'æœå¹Œ', 'å‡½é¤¨', 'ç¦å³¶', 'æ–°æ½Ÿ', 'æ±äº¬', 'ä¸å±±', 'ä¸äº¬', 'äº¬éƒ½', 'é˜ªç¥ž', 'å°å€‰'ï¼‰
# 03 â†’ ä¸Šè¨˜é–‹å‚¬å ´ã®ä½•å›žç›®
# 03 â†’ ä¸Šè¨˜é–‹å‚¬å ´ã®ä¸Šè¨˜å›žã®ä½•æ—¥ç›®
# 01 â†’ ãƒ¬ãƒ¼ã‚¹ç•ªå·

race_id_list = []
# é–‹å‚¬ä¸Š
for place in range(1,11,1):
    # ï½žå›ž
    for kai in range(1,6,1):
        # ï½žæ—¥
        for day in range(1,9,1):
            # ï½žR
            for r in range(1,13,1):
                race_id = "2019"+ str(place).zfill(2)+str(kai).zfill(2)+str(day).zfill(2) + str(r).zfill(2)
                race_id_list.append(race_id)   


# é€”ä¸ä¸æ–ã—ã€å†é–‹ã—ãŸæ™‚ã‚’æƒ³å®šã—ã€èªã¿è¾¼ã¿æ¸ˆã¿ã®çµæžœã‚’ç¬¬ï¼’å¼•æ•°ã«
def scrape_race_results(race_id_list,pre_race_results={}):
    # æ—¢ã«èªã¿è¾¼ã¿æ¸ˆã®çµæžœã‚’åæ˜ 
    race_results = pre_race_results
    # tqdmã«ã‚ˆã‚Šã€é€²æ—ã‚’è¡¨ç¤ºã•ã›ã‚‹
    for race_id in tqdm(race_id_list):
        
        # ãƒ¬ãƒ¼ã‚¹IDãŒèªã¿è¾¼ã¿æ¸ˆã®ãƒªã‚¹ãƒˆå†…ã«ã‚ã‚‹å ´åˆã¯ã€ã“ã“ã§å‡¦ç†ã‚’ä¸æ–ã—ã€foræ–‡ã¸æˆ»ã™
        if race_id in race_results.keys():
            print(race_id)
            continue
        try:
            url = "https://db.netkeiba.com/race/" + race_id
            race_results[race_id] = pd.read_html(url)[0]
            time.sleep(1)
            
        # è©²å½“ã®IDã«ãƒ¬ãƒ¼ã‚¹æƒ…å ±ãŒãªã‹ã£ãŸå ´åˆã«ã‚‚ä¸æ–ã—ãªã„ã‚ˆã†ã«ã™ã‚‹ã€‚
        except IndexError:
            continue
        # ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°è‡ªä½“ã‚’ä¸æ–ã—ã¦ã‚‚ã€race_resultsã‚’è¿”ã—ã¦ãã‚Œã‚‹ã‚ˆã†ã«ã™ã‚‹ã€‚
        except:
            break
    return race_results


 # ãƒ†ã‚¹ãƒˆä¸æ–ã—ã¦å®Ÿè¡Œã™ã‚‹ã¨ãã«ã€å·¦è¾ºã¨å³è¾ºã‚’ãã‚Œãžã‚Œï¼‘ãšã¤ãšã‚‰ã—ã¦å®Ÿè¡Œã™ã‚‹ï¼ˆex. test3 = ~ test2)
 test2 = scrape_race_results(race_id_list,test)

# å–å¾—ã—ãŸå„ãƒ¬ãƒ¼ã‚¹ã®çµæžœãƒ‡ãƒ¼ã‚¿ï¼ˆä»Šã¯è¾žæ›¸åž‹ã§ãã‚Œãžã‚Œåˆ†ã‹ã‚Œã¦ã„ã‚‹ï¼‰ã‚’ã¤ãªã’ã‚‹å‡¦ç†
# ã¤ãªã’ãŸéš›ã«è˜åˆ¥ã§ãã‚‹ã‚ˆã†ã«ã€IDã‚’ãƒ¬ãƒ¼ã‚¹IDã«ã—ã¦ãŠãã€‚

# å…¨ã¦ã®ãƒ¬ãƒ¼ã‚¹IDã‚’ä¸€ã¤ãšã¤å–ã‚Šå‡ºã—ã€
for key in test.keys():
    # å„ç€ç‰ˆã”ã¨ã«ã¤ã‘ã‚‰ã‚Œã¦ã„ã‚‹ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã‚’ãƒ¬ãƒ¼ã‚¹IDã«å¤‰æ›ã€‚é•·ã•ã¯å„ãƒ¬ãƒ¼ã‚¹ã®ãƒ‡ãƒ¼ã‚¿ãƒ•ãƒ¬ãƒ¼ãƒ ã®é•·ã•ï¼ˆé¦¬ã®æ•°ï¼‰åˆ†ã ã‘ç½®ãæ›ãˆã‚‹ã€‚
    test[key].index = [key]*len(test[key])

# å…¨ã¦ã‚’ã¤ãªã’ã€ï¼‘ã¤ã®ãƒ‡ãƒ¼ã‚¿ãƒ•ãƒ¬ãƒ¼ãƒ ã«ã¾ã¨ã‚ã‚‹ã€‚è¡ŒãŒå…¥ã‚Œæ›¿ã‚ã‚‰ãªã„ã‚ˆã†ã«sort=Falseã‚’è¨å®šã€‚
results = pd.concat([test[key] for key in test.keys()], sort=False)

# pickleå½¢å¼ã§ä¿å˜
results.to_pickle('results.pickle')

# csvã§ä¿å˜
results.to_csv("results.csv", encoding='utf_8_sig')
Was this helpful?