Spaces:

lora-x
/

Backpack

Runtime error

App Files Files Community

Lora commited on May 29, 2023

Commit

5758582

1 Parent(s): 0730e98

add negative sense words and note

Browse files

Files changed (1) hide show

app.py +69 -18

app.py CHANGED Viewed

@@ -121,9 +121,10 @@ Args:
     length: length of the input sentence, used to get the contextualization weights for the last token
     token: the selected token
     token_index: the index of the selected token in the input sentence
-    count: how many top words to display for each sense
 """
-def get_token_contextual_weights (contextualization_weights, length, token, token_index, count = 7):
     print(">>>>>in get_token_contextual_weights")
     print(f"Selected {token_index}th token: {token}")
@@ -139,47 +140,54 @@ def get_token_contextual_weights (contextualization_weights, length, token, toke
     senses = torch.squeeze(senses) # (nv, s=1, d)
     # build dataframe
-    neg_word_lists = []
     pos_dfs, neg_dfs = [], []
     for i in range(num_senses):
         logits = lm_head(senses[i,:]) # (vocab,) [768, 50257] -> [50257]
         sorted_logits, sorted_indices = torch.sort(logits, descending=True)
-        pos_sorted_words = [tokenizer.decode(sorted_indices[j]) for j in range(count)]
-        pos_df = pd.DataFrame(pos_sorted_words)
         pos_dfs.append(pos_df)
-        neg_sorted_words = [tokenizer.decode(sorted_indices[-j-1]) for j in range(count)]
-        neg_df = pd.DataFrame(neg_sorted_words)
         neg_dfs.append(neg_df)
     sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, \
         sense6words, sense7words, sense8words, sense9words, sense10words, sense11words, \
             sense12words, sense13words, sense14words, sense15words = pos_dfs
     sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, \
         sense6slider, sense7slider, sense8slider, sense9slider, sense10slider, sense11slider, \
             sense12slider, sense13slider, sense14slider, sense15slider = token_contextualization_weights_list
-    return token, token_index, sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, sense6words, \
-        sense7words, sense8words, sense9words, sense10words, sense11words, sense12words, sense13words, sense14words, sense15words, \
-            sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, sense6slider, sense7slider, \
-                sense8slider, sense9slider, sense10slider, sense11slider, sense12slider, sense13slider, sense14slider, sense15slider
 """
 Wrapper for when the user selects a new token in the tokens dataframe.
 Converts `evt` (the selected token) to `token` and `token_index` which are used by get_token_contextual_weights.
 """
-def new_token_contextual_weights (contextualization_weights, length, evt: gr.SelectData, count = 7):
     print(">>>>>in new_token_contextual_weights")
     token_index = evt.index[1] # selected token is the token_index-th token in the sentence
     token = evt.value
     if not token:
-        return None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, \
-            None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, \
-                None, None, None, None, None, None, None, None, None, None, None, None, None, None, None
-    return get_token_contextual_weights (contextualization_weights, length, token, token_index, count)
 def change_sense0_weight(contextualization_weights, length, token_index, new_weight):
     contextualization_weights[0, 0, length-1, token_index] = new_weight
@@ -273,7 +281,7 @@ with gr.Blocks( theme = gr.themes.Base(),
             with gr.Column(scale=1):
                 selected_token = gr.Textbox(label="Current Selected Token", interactive=False)
             with gr.Column(scale=8):
-                gr.Markdown("""#####
                 Once a token is chosen, you can **use the sliders below to change the weights of any senses** for that token, \
                     and then click "Predict next word" to see updated next-word predictions. \
                     You can change the weights of *multiple senses of multiple tokens;* \
@@ -314,6 +322,23 @@ with gr.Blocks( theme = gr.themes.Base(),
                 sense6words = gr.DataFrame(headers = ["Sense 6"])
             with gr.Column(scale=0, min_width=120):
                 sense7words = gr.DataFrame(headers = ["Sense 7"])
         with gr.Row():
             with gr.Column(scale=0, min_width=120):
                 sense8slider= gr.Slider(minimum=0, maximum=1, value=0, step=0.01, label="Sense 8", elem_id="sense8slider", interactive=True)
@@ -348,7 +373,26 @@ with gr.Blocks( theme = gr.themes.Base(),
                 sense14words = gr.DataFrame(headers = ["Sense 14"])
             with gr.Column(scale=0, min_width=120):
                 sense15words = gr.DataFrame(headers = ["Sense 15"])
         # gr.Examples(
         #     examples=[["Messi plays for", top_k, None]],
         #     inputs=[input_sentence, top_k, contextualization_weights],
@@ -405,6 +449,7 @@ with gr.Blocks( theme = gr.themes.Base(),
                             inputs=[contextualization_weights, length, token_index, sense15slider],
                             outputs=[contextualization_weights])
         predict.click(
             fn=predict_next_word,
             inputs = [input_sentence, top_k, contextualization_weights],
@@ -418,6 +463,9 @@ with gr.Blocks( theme = gr.themes.Base(),
                                 sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, sense6words, sense7words,
                                 sense8words, sense9words, sense10words, sense11words, sense12words, sense13words, sense14words, sense15words,
                                 sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, sense6slider, sense7slider,
                                 sense8slider, sense9slider, sense10slider, sense11slider, sense12slider, sense13slider, sense14slider, sense15slider]
                                 )
@@ -438,6 +486,9 @@ with gr.Blocks( theme = gr.themes.Base(),
                         sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, sense6words, sense7words,
                         sense8words, sense9words, sense10words, sense11words, sense12words, sense13words, sense14words, sense15words,
                         sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, sense6slider, sense7slider,
                         sense8slider, sense9slider, sense10slider, sense11slider, sense12slider, sense13slider, sense14slider, sense15slider]
                         )

     length: length of the input sentence, used to get the contextualization weights for the last token
     token: the selected token
     token_index: the index of the selected token in the input sentence
+    pos_count: how many top positive words to display for each sense
+    neg_count: how many top negative words to display for each sense
 """
+def get_token_contextual_weights (contextualization_weights, length, token, token_index, pos_count = 5, neg_count = 3):
     print(">>>>>in get_token_contextual_weights")
     print(f"Selected {token_index}th token: {token}")
     senses = torch.squeeze(senses) # (nv, s=1, d)
     # build dataframe
     pos_dfs, neg_dfs = [], []
     for i in range(num_senses):
         logits = lm_head(senses[i,:]) # (vocab,) [768, 50257] -> [50257]
         sorted_logits, sorted_indices = torch.sort(logits, descending=True)
+        pos_sorted_words = [tokenizer.decode(sorted_indices[j]) for j in range(pos_count)]
+        pos_df = pd.DataFrame(pos_sorted_words, columns=["Sense {}".format(i)])
         pos_dfs.append(pos_df)
+        neg_sorted_words = [tokenizer.decode(sorted_indices[-j-1]) for j in range(neg_count)]
+        neg_df = pd.DataFrame(neg_sorted_words, columns=["Top Negative"])
         neg_dfs.append(neg_df)
     sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, \
         sense6words, sense7words, sense8words, sense9words, sense10words, sense11words, \
             sense12words, sense13words, sense14words, sense15words = pos_dfs
+    sense0negwords, sense1negwords, sense2negwords, sense3negwords, sense4negwords, sense5negwords, \
+        sense6negwords, sense7negwords, sense8negwords, sense9negwords, sense10negwords, sense11negwords, \
+            sense12negwords, sense13negwords, sense14negwords, sense15negwords = neg_dfs
     sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, \
         sense6slider, sense7slider, sense8slider, sense9slider, sense10slider, sense11slider, \
             sense12slider, sense13slider, sense14slider, sense15slider = token_contextualization_weights_list
+    return token, token_index, \
+        sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, sense6words, sense7words, \
+        sense8words, sense9words, sense10words, sense11words, sense12words, sense13words, sense14words, sense15words, \
+        sense0negwords, sense1negwords, sense2negwords, sense3negwords, sense4negwords, sense5negwords, sense6negwords, sense7negwords, \
+        sense8negwords, sense9negwords, sense10negwords, sense11negwords, sense12negwords, sense13negwords, sense14negwords, sense15negwords, \
+        sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, sense6slider, sense7slider, \
+        sense8slider, sense9slider, sense10slider, sense11slider, sense12slider, sense13slider, sense14slider, sense15slider
 """
 Wrapper for when the user selects a new token in the tokens dataframe.
 Converts `evt` (the selected token) to `token` and `token_index` which are used by get_token_contextual_weights.
 """
+def new_token_contextual_weights (contextualization_weights, length, evt: gr.SelectData, pos_count = 5, neg_count = 3):
     print(">>>>>in new_token_contextual_weights")
     token_index = evt.index[1] # selected token is the token_index-th token in the sentence
     token = evt.value
     if not token:
+        return None, None, \
+            None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, \
+            None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, \
+            None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None
+    return get_token_contextual_weights (contextualization_weights, length, token, token_index, pos_count, neg_count)
 def change_sense0_weight(contextualization_weights, length, token_index, new_weight):
     contextualization_weights[0, 0, length-1, token_index] = new_weight
             with gr.Column(scale=1):
                 selected_token = gr.Textbox(label="Current Selected Token", interactive=False)
             with gr.Column(scale=8):
+                gr.Markdown("""####
                 Once a token is chosen, you can **use the sliders below to change the weights of any senses** for that token, \
                     and then click "Predict next word" to see updated next-word predictions. \
                     You can change the weights of *multiple senses of multiple tokens;* \
                 sense6words = gr.DataFrame(headers = ["Sense 6"])
             with gr.Column(scale=0, min_width=120):
                 sense7words = gr.DataFrame(headers = ["Sense 7"])
+        with gr.Row():
+            with gr.Column(scale=0, min_width=120):
+                sense0negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense1negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense2negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense3negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense4negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense5negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense6negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense7negwords = gr.DataFrame(headers = ["Top Negative"])
         with gr.Row():
             with gr.Column(scale=0, min_width=120):
                 sense8slider= gr.Slider(minimum=0, maximum=1, value=0, step=0.01, label="Sense 8", elem_id="sense8slider", interactive=True)
                 sense14words = gr.DataFrame(headers = ["Sense 14"])
             with gr.Column(scale=0, min_width=120):
                 sense15words = gr.DataFrame(headers = ["Sense 15"])
+        with gr.Row():
+            with gr.Column(scale=0, min_width=120):
+                sense8negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense9negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense10negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense11negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense12negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense13negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense14negwords = gr.DataFrame(headers = ["Top Negative"])
+            with gr.Column(scale=0, min_width=120):
+                sense15negwords = gr.DataFrame(headers = ["Top Negative"])
+        gr.Markdown("""Note: **"Top Negative"** shows words that have the most negative dot products with the sense vector, which can
+                        exhibit more coherent meaning than those with the most positive dot products.
+                        To see more representative words of each sense, scroll to the top and use the **"Individual Word Sense Look Up"** tab.""")
         # gr.Examples(
         #     examples=[["Messi plays for", top_k, None]],
         #     inputs=[input_sentence, top_k, contextualization_weights],
                             inputs=[contextualization_weights, length, token_index, sense15slider],
                             outputs=[contextualization_weights])
         predict.click(
             fn=predict_next_word,
             inputs = [input_sentence, top_k, contextualization_weights],
                                 sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, sense6words, sense7words,
                                 sense8words, sense9words, sense10words, sense11words, sense12words, sense13words, sense14words, sense15words,
+                                sense0negwords, sense1negwords, sense2negwords, sense3negwords, sense4negwords, sense5negwords, sense6negwords, sense7negwords,
+                                sense8negwords, sense9negwords, sense10negwords, sense11negwords, sense12negwords, sense13negwords, sense14negwords, sense15negwords,
                                 sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, sense6slider, sense7slider,
                                 sense8slider, sense9slider, sense10slider, sense11slider, sense12slider, sense13slider, sense14slider, sense15slider]
                                 )
                         sense0words, sense1words, sense2words, sense3words, sense4words, sense5words, sense6words, sense7words,
                         sense8words, sense9words, sense10words, sense11words, sense12words, sense13words, sense14words, sense15words,
+                        sense0negwords, sense1negwords, sense2negwords, sense3negwords, sense4negwords, sense5negwords, sense6negwords, sense7negwords,
+                        sense8negwords, sense9negwords, sense10negwords, sense11negwords, sense12negwords, sense13negwords, sense14negwords, sense15negwords,
                         sense0slider, sense1slider, sense2slider, sense3slider, sense4slider, sense5slider, sense6slider, sense7slider,
                         sense8slider, sense9slider, sense10slider, sense11slider, sense12slider, sense13slider, sense14slider, sense15slider]
                         )