python
murata not public netkeiba data processing function

# å‰æ
# ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã—ãŸãƒ‡ãƒ¼ã‚¿ã‚’results.pickleã¨ã„ã†ãƒ•ã‚¡ã‚¤ãƒ«åã§å–å¾—æ¸ˆ


import pandas as pd

# ãƒ‡ãƒ¼ã‚¿ã®èªã¿è¾¼ã¿
results=pd.read_pickle('results.pickle')

def preproccessing(results):
    # å…ƒã®ãƒ‡ãƒ¼ã‚¿ã‚’å¤‰æ›´ã—ãªã„ãŸã‚ã«ã€ã‚³ãƒ”ãƒ¼
    df = results.copy()
    # ç€é †ã«æ•°å—ä»¥å¤–ã®æ–‡å—åˆ—ãŒå«ã¾ã‚Œã¦ã„ã‚‹ã‚‚ã®ã‚’å–ã‚Šé™¤ã
    df = df[~(df['ç€é †'].astype(str).str.contains("\D"))]
    # æ•´æ•°åž‹ã«å¤‰æ›
    df['ç€é †'] = df['ç€é †'].astype(int)
    
    # æ€§é½¢ã‚’ã€Œæ€§ã€ã€Œå¹´é½¢ã€ã«åˆ†ã‘ã‚‹
    df['æ€§'] = df['æ€§é½¢'].map(lambda x:str(x)[0])
    df['å¹´é½¢'] = df['æ€§é½¢'].map(lambda x:str(x)[1:]).astype(int)
    
    # é¦¬ä½“é‡ã‚’ã€Œä½“é‡ã€ã¨ã€Œä½“é‡å¤‰åŒ–ã€ã«åˆ†ã‘ã‚‹
    df["ä½“é‡"] = df["é¦¬ä½“é‡"].str.split('(', expand= True)[1].str[:-1].astype(int)
    df["ä½“é‡å¤‰åŒ–"] = df["é¦¬ä½“é‡"].str.split('(', expand= True)[1].str[:-1].astype(int)
    
    # å˜å‹ã®åž‹ã‚’floatåž‹ã«å¤‰æ›
    df['å˜å‹'] = df["å˜å‹"].astype(float)
    
    # ä¸è¦ãªåˆ—ã‚’å‰Šé™¤
    df.drop(['ã‚¿ã‚¤ãƒ ','ç€å·®','èª¿æ•™å¸«','æ€§é½¢','é¦¬ä½“é‡'],axis=1,inplace=True)
    
    return df
Was this helpful?