Concept index · 260 concepts

Every idea, every paper.

Click any chip to find related episodes and external papers worth reading. Counts show how many episodes touch the concept.

260 / 260 concepts

J Q X Y Z

Themes

Broad areas the corpus has covered.

Concepts

Specific ideas, methods, and phenomena.

LLM-as-Judge 50 Reward Hacking 48 Ablation Studies 47 Tool Use 44 Synthetic Data 43 Iterative Refinement 42 Agent Scaffolding 40 Self-Correction 39 Trajectory Analysis 39 Agent Benchmarks 38 Long-Horizon Tasks 37 Emergent Behavior 34 Supervised Fine-Tuning 34 Credit Assignment 33 Chain of Thought 32 Agent Memory 28 Agentic Misalignment 28 Silent Failure 28 GRPO 27 Rollout Sampling 25 Context Management 24 Hallucination 24 Knowledge Distillation 24 Reward Shaping 23 In-Context Learning 22 Reward Model 22 Self-Play / Self-Evolution 22 Task Decomposition 22 Inference Cost 20 Parallel Sampling 19 Prompt Injection 19 Capability vs. Propensity 18 Causal Intervention 18 Sycophancy 18 Trajectory Quality 18 Math Reasoning 17 SWE-bench 17 CoT Faithfulness 16 LLM Behavior Analysis 16 RL Post-Training 15 Strategic Deception 15 Eval Dissociation 14 Autonomous Discovery 12 Long Context 12 Activation Steering 11 Iterative Training 11 Long-Horizon Agents 11 Computer-Use Agents 10 Context Quality 10 Multimodal Models 10 Probing 10 Linear Representation 9 LoRA 9 Residual Stream 9 RLHF 9 Context Fatigue 8 Human-in-the-Loop 8 KV Cache 8 Reward Overoptimization 8 Structural Transfer 8 Transformer Attention 8 Inference-Time Scaffolding 7 Math Benchmarks 7 Multi-Hop Reasoning 7 Policy Gradient 7 ReAct Agent 7 Training Awareness 7 Web Agents 7 Adversarial Review 6 Attention Heads 6 Behavioral Fingerprinting 6 Knowledge Graph 6 Model Organisms 6 Principal-Agent Problem 6 Process Reward Models 6 Sandbagging 6 Alignment Generalization 5 BrowseComp 5 Circuit Analysis 5 Harness Generation 5 Hybrid SSM/Attention 5 Logit Lens 5 Post-Training 5 RAG 5 Rubric Generation 5 Static Analysis 5 Token-Level Analysis 5 Capability vs. Efficiency 4 DPO 4 Formal Theorem Proving 4 LLM Serving 4 Monte Carlo Tree Search 4 Pass@k Metric 4 Root Cause Localization 4 Sparse Features / SAE 4 Speculative Decoding 4 Tournament Voting 4 Admission Control 3 Capability Elicitation 3 Deliberative Alignment 3 Dynamic Analysis 3 Entropy Gating 3 Exploration Hacking 3 KL Divergence 3 Latent Space Geometry 3 Multi-Armed Bandit 3 Output Contracts 3 Persona Prompting 3 Self-Preservation 3 Agent-Native Tools 2 Attention Analysis 2 Belief Revision 2 Black-Box Optimization 2 CodeQL 2 Conformal Prediction 2 Counterfactual Replay 2 Denial-of-Wallet 2 Execution Tracing 2 FrontierMath 2 GAIA Benchmark 2 Instrumental Goal Pursuit 2 Knowledge vs. Reasoning 2 Latent Diffusion 2 Linear Probing 2 Midtraining 2 Path Patching 2 Political Bias in LLMs 2 Reasoning Collapse 2 Representation Alignment 2 Reward Variance 2 Strategy Diversity 2 Structured Trace Formatting 2 Superposition Hypothesis 2 Symbolic Execution 2 Instruction Underspecification 2 AddressSanitizer 1 Agentic Vuln Discovery 1 AIMD Congestion Control 1 Amortized Inference 1 Audience Design 1 Vulnerability Discovery 1 Baseline Comparison 1 Benchmark Contamination 1 Bilinear Interaction 1 Binary Analysis 1 Classifier-Free Guidance 1 Co-Scheduling 1 Cognitive Bias Attacks 1 Compliance Gap 1 Contrastive Loss 1 Creation-Audit Loop 1 Cultural Variation 1 Dataset Bias 1 DeepSpeed 1 Demographic Bias 1 Dense Retrieval 1 Diffusion Forcing 1 Embodied Cognition 1 Emotion Vectors 1 Entropy Regularization 1 Epistemic Decomposition 1 Expectation Effects 1 Exploit Generation 1 Flow Matching 1 Frame Lifetime Trace 1 Game Theory 1 GDP-Weighted Evaluation 1 Generation-Time Specialization 1 Global Workspace 1 Goodput 1 GPQA 1 Gradient Accumulation 1 Implicit Conflict 1 Influence Functions 1 Interviewer Effects 1 Introspective Probing 1 Knowledge Editing 1 LIMIT Benchmark 1 LLM-Assisted Program Analysis 1 LLM Coding Agents 1 LLM Inference Systems 1 Long-Term Memory 1 Loss Aggregation 1 Memory Adjudication 1 Memory Safety 1 Mixed-Policy Training 1 Model Spec 1 MLFQ Scheduling 1 Multi-Task Optimization 1 Multiverse Analysis 1 Mutual Information 1 Nash Equilibrium 1 Needle-in-a-Haystack 1 Observer Effect in Evaluation 1 Optical Computing 1 Peer Preservation 1 Perplexity Probe 1 Persuasion Attacks 1 Sparse Policy Selection 1 Premise Resistance 1 Privileged Verification 1 Race Condition Exploits 1 Recursive Agent Optimization 1 Reversal Curse 1 Reviewer-Pleasing Bias 1 RewardBench 1 Reward Channel Addiction 1 Rollout Summarization 1 Seed-and-Amplify 1 Self-Efficacy 1 Self-Preference Bias 1 Shutdown Resistance 1 SNR-Aware Filtering 1 Stackelberg Game 1 Step Amplification Factor 1 Subgoal Decomposition 1 Temporal Contrast 1 Termination Poisoning 1 Test-Time Auditing 1 TracIn 1 Transcoder 1 Unicode Steganography 1 Use-After-Free 1 Valence-Arousal Model 1 Value Generalization 1 Reward Variance 1 Variational Autoencoder 1 Wasserstein Distance 1 Weight Exfiltration 1 WMDP Benchmark 1 Workflow Search 1